爱吧机器人网 » 技术 > 大数据 > 正文

从大数据到小数据,数据之坑与美

然而,对于小批量的大决策,对因果关系的追求,依然是非常重要的。吴甘沙先生用 中西药 药方做类比,给出了一个很精彩的例子,用来说明相关性和因果性的关系[15]。对于中药处方而言,多是 神农尝百草 式的经验处方,目前仅仅到达知道 相关性 这一步,但它没有可解释性,无法得出是那些树皮和虫壳的因,为什么就是导致某些病能治愈的果,换句话说,中药仅仅到了 知其然 阶段(追求 是什么 ),如果我们的国粹止步于 知其所以然 (追求 为什么 ),那么中医想要走出中国,面向世界,是非常困难的(注:笔者曾是中医的受益者,请不要误判是在黑中医)。

而西药则不同,在发现相关性后,并没有止步,而是进一步要做随机对照试验,把所有可能导致 治愈的果 的干扰因素排除,获得因果性和可解释性。在商业决策上也是类似,相关性只是决策的开始,它取代了拍脑袋、依靠直觉获得的假设,而后面验证因果性的过程仍然是重要。

在大数据时代, 相关性 被很多大数据粉丝奉为圭臬。前文也提到, 相关性 也的确有用,但有时,人们会不自觉地把 相关性 不自觉地当作 因果性 。

加拿大莱桥大学管理学院鲍勇剑教授指出[16],在大数据时代,只要有超大样本和超多变量,我们都可能找到无厘头式的相关性。美国政府每年公布4.5万类经济数据。如果你要找失业率和利率受什么变量影响,你可以罗列10亿个假设。只要你反复尝试不同的模型,上千次后,你一定可以找到统计学意义上成立的相关性。下面我们讲几个小故事(段子)来说明这个观点。

在小数据时代的1992年,香港人拍了一个电视连续剧《大时代》,其中著名演员郑少秋饰演丁蟹,丁蟹是一个资深的股民,股海翻腾,身心疲惫,终无所得。在1992年的随后20多年里,只要电视台一播放郑少秋主演的连续剧,香港恒生指数都会有不同程度的下跌,人称 丁蟹效应(或称秋官效应) ,这是有样本支持的,如图6所示。每次郑少秋主演的电视剧播放预告时,总有香港股民打电话到电视台,希望不要播放,因为担心亏钱。

\图6 丁蟹效应与香港股市(图片来源:文汇报)

更无厘头的是,这相关性还扯到中国运动员刘翔身上了,下面是个 余温尚存 段子,它是这样描述的:

2008年8月18日 北京奥运会,刘翔因伤退赛,当天股市大跌5.3%,并且一个月内大跌20%。

2014年9月他宣布结婚一个月后,股市就开始狂涨,从2300点涨到5178点。

2015年6月26日,刘翔离婚,股市继续大跌至8%。股市的涨跌原来都是因为刘翔啊!

因此,网友们强烈要求刘翔尽快宣布再次结婚。

香港的股民为什么不希望郑少秋主演的电视剧播放,是因为怕电视剧一播放,股市就下跌。大陆的股民为什么希望刘翔再次结婚,因为刘翔有喜了,所以股市就有喜了。注意到前面描述中体现出来的 因果关系 吗?

事实上,《大时代》和刘翔和股市之间有何因果关系?不过是样本大了,变量多了,统计上的 相关性 就会冒出来而已。而人们却 潜移默化 地把观察到的 相关 ,当作事物背后的 因果 。

或许,就有人不太认可上述观点,认为上面两个小故事,都是属于段子级别的案例,何以能说明问题?那我们就举一个古而有之的案例来说明这个观点。请读者略看下面的文字:

黄梅时节家家雨,青草池塘处处蛙。

潮起潮落劲风舞,夏夜夏雨听蛙鸣。

荷沐夏雨娇滴滴,稻里蛙鸣一片欢。

夏雨凉风,蝉噪蛙鸣,热浪来袭,远处云树晚苍苍。

皇阿玛,你还记得当年蛙鸣湖边的夏雨荷吗?

我们知道,文学虽然高于生活,但亦源于生活。从上面的从古至今的 文人墨客 的诗情画意中,读者依稀可看出一点点相关性 人类祖先经过长期观察发现,蛙鸣与下雨往往是同时发生。这样的长期观察样本,也可称得上是 大数据 。于是,在久旱无雨的季节,不求甚解的古人,就会把这个 相关性 当作 因果性 了,他们试图通过学蛙鸣来求雨。在多次失灵之后,就会走向巫术、献祭和宗教[8](如图7所示)。因此,同小数据一样,在大数据中,可解释性(因果关系)始终是重要的。

\图7 印度人民以蛙求雨的习俗,源远流长,至今留存(图片来源:互联网)

博弈论创始人之一、天才计算机科学家诺伊曼(John von Neumann)曾戏言称: 如果有四个变量,我能画头大象,如果再给一个,我让大象的鼻子竖起来! 大数据的来源多样性,变量复杂性,为诞生 新颖 的相关性,创造无限可能。而本质上,人们对因果关系的追求,事实上,已经根深蒂固,这种思维惯性难以轻易改变,而在大数据时代,会面临着冒出更多的相关性, 乱花渐欲迷人眼 。大数据的拥趸者们说, 要相关,不要因果 ,但事实上,在很多时候,特别是人们在对未来无法把控的时候,很容易把 相关 当作 因果 !这是大数据时代里一个很大的陷阱,特别值得注意。

2.2.3 大数据的其它陷阱

下面,我们用另外一个小 故事 来说明大数据的第二个陷阱:

假如你是一位出车千次无事故的好司机,年关将近,酒趣盎然,在朋友家喝了点小酒,这时估计警察也该下班过年了,于是你坚持自己开车回家,盘算着这酒后驾车出事故的概率也不过千分之一吧。如果这样算,你就犯了一个取样错误,因为前一千次出车,你没喝酒,它们不能和这次 酒后驾车 混在一起计算(故事来源:参考文献[16])。

上一页12345678下一页

上一篇:傅志华:大数据应用在中国的创业机会
下一篇:大数据将怎样改写人才命运
精选推荐
从AI中窥探人性
从AI中窥探人性

[2018-01-03]  人们对人造智能的恐惧早已成为科幻书籍和电影的极好题材。但现在,一些同样的担忧开始影响关于现实世界AI技术的政策讨论。如果这样的担忧演变成为一种技术恐慌...

麻省理工学院最新研究:优化软体机器人的控制和设计
麻省理工学院最新研究:优化软体机器人的控制和设计

[2019-11-24]  软体机器人属于一个新的领域,它可能在诸如外科手术等领域发挥重要作用(手术时的纳米机器人需要在人体内部移动而不损伤软组织)。软体机器 ...

如何让人工智能机器人快速自我纠正错误并吃一堑长一智?
如何让人工智能机器人快速自我纠正错误并吃一堑长一智?

[2017-08-23]  莱斯特大学数学系的研究人员在《Neural Networks》杂志上发表了一篇文章,概述了新算法的数学基础,可以使人工智能收集错误报告并立即纠正,而不影响现有技能 ,同时还会积......

谷歌在中国成立一个新的人工智能(AI)研究中心
谷歌在中国成立一个新的人工智能(AI)研究中心

[2017-12-13]  谷歌正在中国建立一个新的人工智能(AI)研究中心,希望进一步扩展到中国,以充分利用中国高度重视的人工智能技术。人工智能是目前地球上最具竞争力的领域之一,亚马逊,微软......

MIT最新“人机”互连系统 让双腿机器人复制人体技能
MIT最新“人机”互连系统 让双腿机器人复制人体技能

[2019-11-01]  MIT的小爱马仕想借用你的大脑 ,图片来自: João Ramos爱吧机器人网消息,麻省理工学院(MIT)的研究人员展示了一种新型遥操作系 ...

谷歌大脑发布ROBEL基准 鼓励用低成本机器人训练AI系统
谷歌大脑发布ROBEL基准 鼓励用低成本机器人训练AI系统

[2019-10-11]  训练AI系统的机器人D& 39;Claw和D& 39;Kitty用于控制机器人的人工智能系统,测量其性能所使用的基准通常仅限于为工业环境设计的昂贵硬件, ...

这个外科手术机器人可以为患者“量身定制”
这个外科手术机器人可以为患者“量身定制”

[2019-07-12]  世界首创,来自澳大利亚机器人视觉研究中心的研究人员正在推动手术机器人的发展边界,他们创造了可定制的、小型化的手术机器人,能够唯一地 ...

瑞士研发出微型机器人集群 可像蚂蚁一样互相交流并协同工作
瑞士研发出微型机器人集群 可像蚂蚁一样互相交流并协同工作

[2019-07-12]  EPFL(瑞士联邦理工学院)的研究人员受到了蚂蚁的启发,开发了一款仅有10克重的小型机器人:他们可以相互交流,分配角色并完成复杂的任务。 ...

本周栏目热点

[1970-01-01]   这可能是未来最具发展潜力的职业之一,我们从职场角度为你解读如何成为 大数据 工程师,以及它的职业发展 ...

从Facebook社交媒体情绪实验看大数据道德困境

[1970-01-01]   今年曝光的Facebook私自进行社交媒体用户情绪实验的新闻引起了不小的争议,这把很多数据实验卷入到社会 ...

大数据时代的美国隐私权保护制度

[1970-01-01]   2014年5月,美国总统执行办公室(Executive Office of the President)发布2014年全球大数据白皮书 ...

那些年,曾经被我们误读的大数据

[1970-01-01]   如今,业界和学术界一直在热议大数据,不管是学术圈还是IT圈,只要能谈论点儿大数据就显得很高大上。然 ...

未来农业将在田里处理大数据

[1970-01-01]   基普·汤姆(Kip Tom)是第7代家庭农场主,他的农场种植的主要农作物是玉米和大豆,他同时也在进行玉 ...