然而,对于小批量的大决策,对因果关系的追求,依然是非常重要的。吴甘沙先生用 中西药 药方做类比,给出了一个很精彩的例子,用来说明相关性和因果性的关系[15]。对于中药处方而言,多是 神农尝百草 式的经验处方,目前仅仅到达知道 相关性 这一步,但它没有可解释性,无法得出是那些树皮和虫壳的因,为什么就是导致某些病能治愈的果,换句话说,中药仅仅到了 知其然 阶段(追求 是什么 ),如果我们的国粹止步于 知其所以然 (追求 为什么 ),那么中医想要走出中国,面向世界,是非常困难的(注:笔者曾是中医的受益者,请不要误判是在黑中医)。
而西药则不同,在发现相关性后,并没有止步,而是进一步要做随机对照试验,把所有可能导致 治愈的果 的干扰因素排除,获得因果性和可解释性。在商业决策上也是类似,相关性只是决策的开始,它取代了拍脑袋、依靠直觉获得的假设,而后面验证因果性的过程仍然是重要。
在大数据时代, 相关性 被很多大数据粉丝奉为圭臬。前文也提到, 相关性 也的确有用,但有时,人们会不自觉地把 相关性 不自觉地当作 因果性 。
加拿大莱桥大学管理学院鲍勇剑教授指出[16],在大数据时代,只要有超大样本和超多变量,我们都可能找到无厘头式的相关性。美国政府每年公布4.5万类经济数据。如果你要找失业率和利率受什么变量影响,你可以罗列10亿个假设。只要你反复尝试不同的模型,上千次后,你一定可以找到统计学意义上成立的相关性。下面我们讲几个小故事(段子)来说明这个观点。
在小数据时代的1992年,香港人拍了一个电视连续剧《大时代》,其中著名演员郑少秋饰演丁蟹,丁蟹是一个资深的股民,股海翻腾,身心疲惫,终无所得。在1992年的随后20多年里,只要电视台一播放郑少秋主演的连续剧,香港恒生指数都会有不同程度的下跌,人称 丁蟹效应(或称秋官效应) ,这是有样本支持的,如图6所示。每次郑少秋主演的电视剧播放预告时,总有香港股民打电话到电视台,希望不要播放,因为担心亏钱。
图6 丁蟹效应与香港股市(图片来源:文汇报)
更无厘头的是,这相关性还扯到中国运动员刘翔身上了,下面是个 余温尚存 段子,它是这样描述的:
2008年8月18日 北京奥运会,刘翔因伤退赛,当天股市大跌5.3%,并且一个月内大跌20%。
2014年9月他宣布结婚一个月后,股市就开始狂涨,从2300点涨到5178点。
2015年6月26日,刘翔离婚,股市继续大跌至8%。股市的涨跌原来都是因为刘翔啊!
因此,网友们强烈要求刘翔尽快宣布再次结婚。
香港的股民为什么不希望郑少秋主演的电视剧播放,是因为怕电视剧一播放,股市就下跌。大陆的股民为什么希望刘翔再次结婚,因为刘翔有喜了,所以股市就有喜了。注意到前面描述中体现出来的 因果关系 吗?
事实上,《大时代》和刘翔和股市之间有何因果关系?不过是样本大了,变量多了,统计上的 相关性 就会冒出来而已。而人们却 潜移默化 地把观察到的 相关 ,当作事物背后的 因果 。
或许,就有人不太认可上述观点,认为上面两个小故事,都是属于段子级别的案例,何以能说明问题?那我们就举一个古而有之的案例来说明这个观点。请读者略看下面的文字:
黄梅时节家家雨,青草池塘处处蛙。
潮起潮落劲风舞,夏夜夏雨听蛙鸣。
荷沐夏雨娇滴滴,稻里蛙鸣一片欢。
夏雨凉风,蝉噪蛙鸣,热浪来袭,远处云树晚苍苍。
皇阿玛,你还记得当年蛙鸣湖边的夏雨荷吗?
我们知道,文学虽然高于生活,但亦源于生活。从上面的从古至今的 文人墨客 的诗情画意中,读者依稀可看出一点点相关性 人类祖先经过长期观察发现,蛙鸣与下雨往往是同时发生。这样的长期观察样本,也可称得上是 大数据 。于是,在久旱无雨的季节,不求甚解的古人,就会把这个 相关性 当作 因果性 了,他们试图通过学蛙鸣来求雨。在多次失灵之后,就会走向巫术、献祭和宗教[8](如图7所示)。因此,同小数据一样,在大数据中,可解释性(因果关系)始终是重要的。
图7 印度人民以蛙求雨的习俗,源远流长,至今留存(图片来源:互联网)
博弈论创始人之一、天才计算机科学家诺伊曼(John von Neumann)曾戏言称: 如果有四个变量,我能画头大象,如果再给一个,我让大象的鼻子竖起来! 大数据的来源多样性,变量复杂性,为诞生 新颖 的相关性,创造无限可能。而本质上,人们对因果关系的追求,事实上,已经根深蒂固,这种思维惯性难以轻易改变,而在大数据时代,会面临着冒出更多的相关性, 乱花渐欲迷人眼 。大数据的拥趸者们说, 要相关,不要因果 ,但事实上,在很多时候,特别是人们在对未来无法把控的时候,很容易把 相关 当作 因果 !这是大数据时代里一个很大的陷阱,特别值得注意。
2.2.3 大数据的其它陷阱
下面,我们用另外一个小 故事 来说明大数据的第二个陷阱:
假如你是一位出车千次无事故的好司机,年关将近,酒趣盎然,在朋友家喝了点小酒,这时估计警察也该下班过年了,于是你坚持自己开车回家,盘算着这酒后驾车出事故的概率也不过千分之一吧。如果这样算,你就犯了一个取样错误,因为前一千次出车,你没喝酒,它们不能和这次 酒后驾车 混在一起计算(故事来源:参考文献[16])。