从大数据到小数据，数据之坑与美-大数据-技术-爱吧机器人网

然而，对于小批量的大决策，对因果关系的追求，依然是非常重要的。吴甘沙先生用中西药药方做类比，给出了一个很精彩的例子，用来说明相关性和因果性的关系[15]。对于中药处方而言，多是神农尝百草式的经验处方，目前仅仅到达知道相关性这一步，但它没有可解释性，无法得出是那些树皮和虫壳的因，为什么就是导致某些病能治愈的果，换句话说，中药仅仅到了知其然阶段（追求是什么），如果我们的国粹止步于知其所以然（追求为什么），那么中医想要走出中国，面向世界，是非常困难的（注：笔者曾是中医的受益者，请不要误判是在黑中医）。

而西药则不同，在发现相关性后，并没有止步，而是进一步要做随机对照试验，把所有可能导致治愈的果的干扰因素排除，获得因果性和可解释性。在商业决策上也是类似，相关性只是决策的开始，它取代了拍脑袋、依靠直觉获得的假设，而后面验证因果性的过程仍然是重要。

在大数据时代，相关性被很多大数据粉丝奉为圭臬。前文也提到，相关性也的确有用，但有时，人们会不自觉地把相关性不自觉地当作因果性。

加拿大莱桥大学管理学院鲍勇剑教授指出[16]，在大数据时代，只要有超大样本和超多变量，我们都可能找到无厘头式的相关性。美国政府每年公布4.5万类经济数据。如果你要找失业率和利率受什么变量影响，你可以罗列10亿个假设。只要你反复尝试不同的模型，上千次后，你一定可以找到统计学意义上成立的相关性。下面我们讲几个小故事（段子）来说明这个观点。

在小数据时代的1992年，香港人拍了一个电视连续剧《大时代》，其中著名演员郑少秋饰演丁蟹，丁蟹是一个资深的股民，股海翻腾，身心疲惫，终无所得。在1992年的随后20多年里，只要电视台一播放郑少秋主演的连续剧，香港恒生指数都会有不同程度的下跌，人称丁蟹效应（或称秋官效应），这是有样本支持的，如图6所示。每次郑少秋主演的电视剧播放预告时，总有香港股民打电话到电视台，希望不要播放，因为担心亏钱。

图6 丁蟹效应与香港股市（图片来源：文汇报）

更无厘头的是，这相关性还扯到中国运动员刘翔身上了，下面是个余温尚存段子，它是这样描述的：

2008年8月18日北京奥运会，刘翔因伤退赛，当天股市大跌5.3%，并且一个月内大跌20%。

2014年9月他宣布结婚一个月后，股市就开始狂涨，从2300点涨到5178点。

2015年6月26日，刘翔离婚，股市继续大跌至8%。股市的涨跌原来都是因为刘翔啊！

因此，网友们强烈要求刘翔尽快宣布再次结婚。

香港的股民为什么不希望郑少秋主演的电视剧播放，是因为怕电视剧一播放，股市就下跌。大陆的股民为什么希望刘翔再次结婚，因为刘翔有喜了，所以股市就有喜了。注意到前面描述中体现出来的因果关系吗？

事实上，《大时代》和刘翔和股市之间有何因果关系？不过是样本大了，变量多了，统计上的相关性就会冒出来而已。而人们却潜移默化地把观察到的相关，当作事物背后的因果。

或许，就有人不太认可上述观点，认为上面两个小故事，都是属于段子级别的案例，何以能说明问题？那我们就举一个古而有之的案例来说明这个观点。请读者略看下面的文字：

黄梅时节家家雨,青草池塘处处蛙。

潮起潮落劲风舞，夏夜夏雨听蛙鸣。

荷沐夏雨娇滴滴，稻里蛙鸣一片欢。

夏雨凉风，蝉噪蛙鸣，热浪来袭，远处云树晚苍苍。

皇阿玛，你还记得当年蛙鸣湖边的夏雨荷吗？

我们知道，文学虽然高于生活，但亦源于生活。从上面的从古至今的文人墨客的诗情画意中，读者依稀可看出一点点相关性人类祖先经过长期观察发现，蛙鸣与下雨往往是同时发生。这样的长期观察样本，也可称得上是大数据。于是，在久旱无雨的季节，不求甚解的古人，就会把这个相关性当作因果性了，他们试图通过学蛙鸣来求雨。在多次失灵之后，就会走向巫术、献祭和宗教[8]（如图7所示）。因此，同小数据一样，在大数据中，可解释性（因果关系）始终是重要的。

图7 印度人民以蛙求雨的习俗，源远流长，至今留存（图片来源：互联网）

博弈论创始人之一、天才计算机科学家诺伊曼(John von Neumann)曾戏言称：如果有四个变量，我能画头大象，如果再给一个，我让大象的鼻子竖起来！大数据的来源多样性，变量复杂性，为诞生新颖的相关性，创造无限可能。而本质上，人们对因果关系的追求，事实上，已经根深蒂固，这种思维惯性难以轻易改变，而在大数据时代，会面临着冒出更多的相关性，乱花渐欲迷人眼。大数据的拥趸者们说，要相关，不要因果，但事实上，在很多时候，特别是人们在对未来无法把控的时候，很容易把相关当作因果！这是大数据时代里一个很大的陷阱，特别值得注意。

2.2.3 大数据的其它陷阱

下面，我们用另外一个小故事来说明大数据的第二个陷阱：

假如你是一位出车千次无事故的好司机，年关将近，酒趣盎然，在朋友家喝了点小酒，这时估计警察也该下班过年了，于是你坚持自己开车回家，盘算着这酒后驾车出事故的概率也不过千分之一吧。如果这样算，你就犯了一个取样错误，因为前一千次出车，你没喝酒，它们不能和这次酒后驾车混在一起计算（故事来源：参考文献[16]）。

从大数据到小数据，数据之坑与美

本周栏目热点