爱吧机器人网 » 技术 > 大数据 > 正文

从大数据到小数据,数据之坑与美

因此,李国杰院士认为[6],数据的开放共享,提供了多种来源的数据融合机会,它不是锦上添花的事,而是决定大数据成败的必要前提。

从上分析可见,虽然大数据有很多特征(甚至有人整出11个V来),但大数据的多样性(Variety),无疑它是区分以往小数据的最重要特征。

2. 大数据的力量与陷阱

大数据的多样性,给大数据分析带来了庞大的力量,但这个多样性也带来了大数据的陷阱,下面我们就聊聊这个话题。

2.1 大数据的力量

很多小概率、大影响的事件(即黑天鹅事件),在单一的小数据环境下,很可能难以发现。但是由 八方来客 汇集而来的大数据,却能有机会提供更为深刻的洞察(insight)。例如,癌症属于一类长尾病症,经过多少年努力,癌症治愈率仅提升了不到8%。其中一个重要原因是,单个癌症的诊疗机构的癌症基因组样本都相对有限。 小样本 得出的研究结论,得出有关 癌症诊断 的结论,极有可能是 盲人摸象化 的[9]。

于是,英特尔公司提出的 数据咖啡馆 概念,吴甘沙先生做了一个形象的类比,他说咖啡馆的好处在于 Let ideas have sex ,而大数据产生价值、爆发力量的关键是 Let data have sex 。取意如此,数据咖啡馆 的核心理念在于,把不同医疗机构的癌症诊疗数据汇聚到一起,形成大数据集合,但不同机构间的数据, 相逢但不相识 。让多源头的 小数据 汇集起来,可实现数据之间 1+1>2 的价值。对多数据融合用 have sex 这个比喻,是非常有意思的,因为倘若你真想要达到 1+1> 2 的效果,就不能带着 套子 挡着,就要打破 数据流的割据 。难怪李院士一直强调,数据的流通性,是决定大数据成败的前提,还是真的(纯属调侃,不可较真)!

类似的,2014年美国总统办公室发布了题为 大数据:抓住机遇,留住价值(Big Data:Seizing Opportunities, Preserving Values) 的报告[10],文中列举了一个案例:

Broad 研究院(这是一个由麻省理工学院和哈佛大学联合创办的世界著名的基因研究机构)的研究人员发现,海量的基因数据,在识别遗传变异对疾病的意义中,有着及其重要的作用。在这个研究中,当样本数量是 3,500 时,与精神分裂症有关的遗传变异,根本无法检测出来;当使用 10,000 个样本时,也只能有细微的识别;但是当样本达到 35,000 时,统计学上的统计显著性(statistically significant)便突然显示出来。正如一个研究人员所观察到的那样, 跨越拐点,一切皆变!(There is aninflection point at which everything changes) [11](如图4所示)。从这个案例中,大数据把哲学中的 量变引发质变 演绎得淋漓尽致。

\图4 精神分裂症有关的遗传变异发现 大数据的 汇集 的力量(图中loci表示 基因座 ,又称座位,它基因在染色体上所占的位置。在分子水平上,是有遗传效应的DNA序列。图片来源:MIT)

2.2 大数据的陷阱

大数据的多样性,带人们来了 兼听则明 的智慧。然而,正如英谚所云: 一个硬币有两面(Every coin has two sides) , 这个多样性也会带来一些不宜察觉的 陷阱 。用 成也萧何,败也萧何 来描述大数据的两难,再恰当不过了。

2.2.1 DIKW金字塔体系

1989年,管理学家罗素 艾可夫(Russell .L. Ackoff)撰写了《从数据到智慧》(From Data to Wisdom),系统地构建了DIKW体系[12],即从低到高依次为数据(Data)、信息(Information)、知识(Knowledge)及智慧(Wisdom)。美国学者泽莱尼(Zeleny)提出了4个Know(知道)比喻[12],比较形象地区分了DIKW体系中的元素,如图5所示。

\图5 泽莱尼对DIKW体系中的4个Know比拟

泽莱尼对DIKW体系的注解,让人感触最深的可能在于,数据如果不实施进一步地处理,即使收集数据的容量再 大 ,也毫无价值,因为仅仅就数据本身,它们是 一无所知(Know-Nothing) 的。数据最大的价值,在于形成信息,变成知识,乃至升华为智慧。

舍恩伯格教授在其大作《大数据时代》有个核心观点是: 要相关,不要因果 ,即知道 是什么 就够了,没必要知道 为什么 。但从DIKW体系可知,如果放弃 为什么 的追寻,事实上,就放弃了对金字塔的最顶端 智慧(Wisdom)的追求 而智慧正是人类和机器最本质的区别。

对此,青年学者周涛教授总结得非常精彩: 放弃对因果性的追求,就是放弃了人类凌驾于计算机之上的智力优势,是人类自身的放纵和堕落。如果未来某一天机器和计算完全接管了这个世界,那么这种放弃就是末日之始 。对大数据的因果性和相关性的探讨,我们已经在《来自大数据的反思:需要你读懂的10个小故事》一文中[14],已有涉及,在此不再赘言,下面我们想探讨的是,事实上,对因果关系的追寻,是人类惯有的思维,在这个惯性思维推动下,很容易误把 相关 当 因果 这是我们需要警惕的大数据陷阱。

2.2.2 误把 相关 当 因果

所谓 相关性 是指两个或两个以上变量的取值之间存在某种规律性。两个变量A和B有相关性,只反映A和B在取值时相互有影响,但并不能说明因为,有A就一定有B,或者反过来因为有B就一定有A。

在上面的论述中,似乎我们一直在说 相关性 的不足。而事实上,需要说明的是,相关性在很多场合是极其有用的。例如,在大批量的小决策上,相关性就是有用的,亚马逊的电子商务个性化推荐,就是利用相关性,给无数顾客推荐相关的或类似商品,这样顾客找起商品方便多了,亚马逊也落得个赚得钵满盆满。

上一页12345678下一页

上一篇:傅志华:大数据应用在中国的创业机会
下一篇:大数据将怎样改写人才命运
精选推荐
机器人iCub作为嵌入式AI的标准机器人研究平台的重要性
机器人iCub作为嵌入式AI的标准机器人研究平台的重要性

[2017-12-24]  机器人的研究在过去10年中得益于一个具有嵌入式人工智能(AI)的标准化开源平台——人形机器人iCub。iCub最初在意大利被创建,如今在欧洲、美国、韩国、新加坡和日本的实验室......

2023年服务机器人市场将超过250亿美元
2023年服务机器人市场将超过250亿美元

[2017-09-04]  全球服务机器人市场预计到2023年将达到250亿美元, 并在预测期内登记15% 的复合年增长率。短期中期回收期和投资回报率高 (ROI), 以及在教育和研究、临场感、防御、救援和安......

2018年企业数字化转型的五大趋势
2018年企业数字化转型的五大趋势

[2017-12-16]  据2016年哈佛商学院研究表明,选择进行数字化转型的企业在3年内表现出了55%的平均毛利润提升,相比之下其他企业毛利润同期降低了37%。数字化转型企业的领头羊,也曾是收入处于......

九台“猎豹”机器人组队踢球,麻省理工高材生们的高级趣味
九台“猎豹”机器人组队踢球,麻省理工高材生们的高级趣味

[2019-11-09]  本周,在麻省理工学院10号楼外草坪上展开了一场别开生面的足球比赛。在绿草如茵的基利安球场上,一群由人工智能驱动的机器人就是这场比赛的 ...

人工智能准确预测患者一年内的死亡风险,原理却无法解释
人工智能准确预测患者一年内的死亡风险,原理却无法解释

[2019-11-13]  图片来自BURGER PHANIE SCIENCE PHOTO LIBRARY美国最新研究显示,人工智能通过查看心脏测试结果,以高达85%以上的准确率预测了一个人在一 ...

科学家从蟑螂获得启发 教机器人更好地走路
科学家从蟑螂获得启发 教机器人更好地走路

[2017-12-11]  Weihmann指出:“我特别感到惊讶的是,动物运动稳定机制的变化与腿部协调的变化是一致的。昆虫的慢运行非常稳定,因为它的重心很低,三条腿总是以协调的方式运动。...

MIT最新“人机”互连系统 让双腿机器人复制人体技能
MIT最新“人机”互连系统 让双腿机器人复制人体技能

[2019-11-01]  MIT的小爱马仕想借用你的大脑 ,图片来自: João Ramos爱吧机器人网消息,麻省理工学院(MIT)的研究人员展示了一种新型遥操作系 ...

7种常见的机器人焊接类型
7种常见的机器人焊接类型

[2017-12-17]  机器人焊接是工业领域最常见的机器人应用之一,近几十年来主要由汽车行业驱动。机器人焊接在完成大批量,重复性的焊接任务时效率最高。...

本周栏目热点

[1970-01-01]   这可能是未来最具发展潜力的职业之一,我们从职场角度为你解读如何成为 大数据 工程师,以及它的职业发展 ...

从Facebook社交媒体情绪实验看大数据道德困境

[1970-01-01]   今年曝光的Facebook私自进行社交媒体用户情绪实验的新闻引起了不小的争议,这把很多数据实验卷入到社会 ...

大数据时代的美国隐私权保护制度

[1970-01-01]   2014年5月,美国总统执行办公室(Executive Office of the President)发布2014年全球大数据白皮书 ...

那些年,曾经被我们误读的大数据

[1970-01-01]   如今,业界和学术界一直在热议大数据,不管是学术圈还是IT圈,只要能谈论点儿大数据就显得很高大上。然 ...

未来农业将在田里处理大数据

[1970-01-01]   基普·汤姆(Kip Tom)是第7代家庭农场主,他的农场种植的主要农作物是玉米和大豆,他同时也在进行玉 ...