从大数据到小数据，数据之坑与美-大数据-技术-爱吧机器人网

因此，李国杰院士认为[6]，数据的开放共享，提供了多种来源的数据融合机会，它不是锦上添花的事，而是决定大数据成败的必要前提。

从上分析可见，虽然大数据有很多特征（甚至有人整出11个V来），但大数据的多样性（Variety），无疑它是区分以往小数据的最重要特征。

2. 大数据的力量与陷阱

大数据的多样性，给大数据分析带来了庞大的力量，但这个多样性也带来了大数据的陷阱，下面我们就聊聊这个话题。

2.1 大数据的力量

很多小概率、大影响的事件（即黑天鹅事件），在单一的小数据环境下，很可能难以发现。但是由八方来客汇集而来的大数据，却能有机会提供更为深刻的洞察（insight）。例如，癌症属于一类长尾病症，经过多少年努力，癌症治愈率仅提升了不到8%。其中一个重要原因是，单个癌症的诊疗机构的癌症基因组样本都相对有限。小样本得出的研究结论，得出有关癌症诊断的结论，极有可能是盲人摸象化的[9]。

于是，英特尔公司提出的数据咖啡馆概念，吴甘沙先生做了一个形象的类比，他说咖啡馆的好处在于 Let ideas have sex ，而大数据产生价值、爆发力量的关键是 Let data have sex 。取意如此，数据咖啡馆的核心理念在于，把不同医疗机构的癌症诊疗数据汇聚到一起，形成大数据集合，但不同机构间的数据，相逢但不相识。让多源头的小数据汇集起来，可实现数据之间 1+1>2 的价值。对多数据融合用 have sex 这个比喻，是非常有意思的，因为倘若你真想要达到 1+1> 2 的效果，就不能带着套子挡着，就要打破数据流的割据。难怪李院士一直强调，数据的流通性，是决定大数据成败的前提，还是真的（纯属调侃，不可较真）！

类似的，2014年美国总统办公室发布了题为大数据：抓住机遇，留住价值（Big Data:Seizing Opportunities, Preserving Values）的报告[10]，文中列举了一个案例：

Broad 研究院（这是一个由麻省理工学院和哈佛大学联合创办的世界著名的基因研究机构）的研究人员发现，海量的基因数据，在识别遗传变异对疾病的意义中，有着及其重要的作用。在这个研究中，当样本数量是 3,500 时，与精神分裂症有关的遗传变异，根本无法检测出来；当使用 10,000 个样本时，也只能有细微的识别；但是当样本达到 35,000 时，统计学上的统计显著性（statistically significant）便突然显示出来。正如一个研究人员所观察到的那样，跨越拐点，一切皆变！（There is aninflection point at which everything changes） [11]（如图4所示）。从这个案例中，大数据把哲学中的量变引发质变演绎得淋漓尽致。

图4 精神分裂症有关的遗传变异发现大数据的汇集的力量（图中loci表示基因座，又称座位，它基因在染色体上所占的位置。在分子水平上，是有遗传效应的DNA序列。图片来源：MIT）

2.2 大数据的陷阱

大数据的多样性，带人们来了兼听则明的智慧。然而，正如英谚所云: 一个硬币有两面（Every coin has two sides），这个多样性也会带来一些不宜察觉的陷阱。用成也萧何，败也萧何来描述大数据的两难，再恰当不过了。

2.2.1 DIKW金字塔体系

1989年，管理学家罗素艾可夫（Russell .L. Ackoff）撰写了《从数据到智慧》（From Data to Wisdom），系统地构建了DIKW体系[12]，即从低到高依次为数据（Data）、信息（Information）、知识（Knowledge）及智慧（Wisdom）。美国学者泽莱尼（Zeleny）提出了4个Know（知道）比喻[12]，比较形象地区分了DIKW体系中的元素，如图5所示。

图5 泽莱尼对DIKW体系中的4个Know比拟

泽莱尼对DIKW体系的注解，让人感触最深的可能在于，数据如果不实施进一步地处理，即使收集数据的容量再大，也毫无价值，因为仅仅就数据本身，它们是一无所知(Know-Nothing) 的。数据最大的价值，在于形成信息，变成知识，乃至升华为智慧。

舍恩伯格教授在其大作《大数据时代》有个核心观点是：要相关，不要因果，即知道是什么就够了，没必要知道为什么。但从DIKW体系可知，如果放弃为什么的追寻，事实上，就放弃了对金字塔的最顶端智慧（Wisdom）的追求而智慧正是人类和机器最本质的区别。

对此，青年学者周涛教授总结得非常精彩：放弃对因果性的追求，就是放弃了人类凌驾于计算机之上的智力优势，是人类自身的放纵和堕落。如果未来某一天机器和计算完全接管了这个世界，那么这种放弃就是末日之始。对大数据的因果性和相关性的探讨，我们已经在《来自大数据的反思：需要你读懂的10个小故事》一文中[14]，已有涉及，在此不再赘言，下面我们想探讨的是，事实上，对因果关系的追寻，是人类惯有的思维，在这个惯性思维推动下，很容易误把相关当因果这是我们需要警惕的大数据陷阱。

2.2.2 误把相关当因果

所谓相关性是指两个或两个以上变量的取值之间存在某种规律性。两个变量A和B有相关性，只反映A和B在取值时相互有影响，但并不能说明因为，有A就一定有B，或者反过来因为有B就一定有A。

在上面的论述中，似乎我们一直在说相关性的不足。而事实上，需要说明的是，相关性在很多场合是极其有用的。例如，在大批量的小决策上，相关性就是有用的，亚马逊的电子商务个性化推荐，就是利用相关性，给无数顾客推荐相关的或类似商品，这样顾客找起商品方便多了，亚马逊也落得个赚得钵满盆满。