当心大数据时代的浮夸陷阱-大数据-技术-爱吧机器人网

当心大数据时代的浮夸陷阱

2015-12-08 爱吧机器人网浏览量：

数据分析师在对阿里巴巴内衣销售数据进行分析后发现，购买大号内衣的女性往往更“败家”。其根据是，65%B罩杯的女性属于低消费顾客，而C罩杯及以上的顾客大多属于中等消费或高消费买家。这一结论是否成立姑且不论，但首先传递了一个信息，今天人们已经进入数据为王的时代，其中大数据似乎又是王中之王。

无论是商业网站还是搜索网站，人们的所搜所看所买都成为大数据的组成部分，无论之于商业，还是之于公共卫生，抑或国家安全，它们都是有用的信息。有心人已经意识到，因为拥有大量未经充分研究的中产阶层，中国成为世界上最重要的数据市场之一。研究这些数据，对社会各方面都是多赢。当然，保护人们个人隐私的代价需要考虑。

2008年谷歌推出“谷歌流感趋势”（GFT）数据分析工具，谷歌的工程师根据这个工具的数据分析，预测了2009年H1N1流感将要暴发，甚至具体到特定的地区和州。这一结论在流感暴发前发表在英国的《自然》杂志上。后来，情况果真如此，这与美国疾病控制和预防中心（CDC）的预测完全一致，但时间上比CDC早了近两周。从2010年起，阿里巴巴利用其数据建立的信用记录，向小微企业提供融资，也取得了不错的效果。

这些结果表明，数据为王时代早就到来。其实，这并不奇怪。人类文明的三大支柱是材料（物质）、能量和信息，数据又是信息中的核心部分。古希腊的毕达哥拉斯早就说过，“一切皆数”，尽管其所说的“数”与今天的数据有所不同，但在某些方面是相似的。所以，在今天也就有了“一切皆信息”，也即数据为王。

不过，数据为王并不意味着大数据为王，或数据越多越好，还要看如何分析和利用数据，进而得出最契合实际的结论，并且有效利用这一结论。因此，如果要承认阿里巴巴基于内衣销售的数据分析得出的女性胸越大越“败家”的结论，就需要有符合客观实际的解释，不幸的是，这一结论还处于见仁见智的阶段。网友的各种分析就提供了佐证：一是“大胸都被有钱人娶了，所以才有能力败”；二是“说明青春期的营养状况确实会影响胸的大小”，“胸大的确实普遍嫁得好”；三是“胸大并不败家，集中在网上打折的时候买东西，只会旺家。”

这笔混乱账目前肯定掰扯不清，但已有事实证明，数据越大并不意味着越好。就算是谷歌，一旦他们的大数据处理和分析不当，也会得出错误的结论。2013年1月，美国又发生流感，但GFT的预测比实际数据高两倍。这并非偶然出现错误，而是在过去一再发生。2011年8月~2013年9月，GFT高估流感流行长达108周。

谷歌的大数据为何预测不准呢？发表在2014年3月14日《科学》杂志上的一篇文章指出了两个主要原因。一是大数据浮夸，二是算法变化。大数据浮夸指的是，以为大数据可以完全取代传统的数据收集方法，而非作为后者的补充。大数据浮夸的最大问题在于，绝大多数大数据与经过严谨科学试验得到的数据之间存在很大的差异。

另外，谷歌对算法会进行不断的调整和改进，搜索引擎算法的改变和用户的搜索行为会影响到预测结果，比如媒体对于流感流行的报道会增加与流感相关的词语的搜索次数，进而影响GFT的预测；相关搜索算法也会对GFT造成影响。例如，搜索“发烧”，相关搜索中会给出关键词“流感”，而搜索“咳嗽”则会给出“普通感冒”。

如果没有严谨的科学试验数据做后盾，现阶段就不能得出女性胸越大越“败家”的结论。同样，也需要得到科学试验数据后，才能解释为何在2012年的“双十一”，中国比基尼销量最高的地区是并不沿海的新疆。对大数据浮夸的两种解决之道则是：大数据并不能代替严谨的科学试验得到的数据，这两者之间需要互补，而且要使算法更符合实际情况。

精选推荐

MIT用深度学习处理3D点云数据应用于无人汽车等领域

[2019-10-23] 如果你见过自动驾驶汽车，也许会对车顶上那个一直在旋转的圆柱体感到好奇。这是一个雷达传感器，无人驾驶汽车依靠它在现实世界中进行导航。 ...

集群机器人领域最新研究：一种用于探测未知环境的微型无人机群

[2019-10-26] （图：无人机扩散至不同方向来探索环境。当一个无人机注意到另一个无人机在它的首选方向，它将试图飞到另一个方向。若首选方向冲突，低优先 ...

机器人iCub作为嵌入式AI的标准机器人研究平台的重要性

[2017-12-24] 机器人的研究在过去10年中得益于一个具有嵌入式人工智能（AI）的标准化开源平台——人形机器人iCub。iCub最初在意大利被创建，如今在欧洲、美国、韩国、新加坡和日本的实验室......

7种常见的机器人焊接类型

[2017-12-17] 机器人焊接是工业领域最常见的机器人应用之一，近几十年来主要由汽车行业驱动。机器人焊接在完成大批量，重复性的焊接任务时效率最高。...

瑞士研发出微型机器人集群可像蚂蚁一样互相交流并协同工作

[2019-07-12] EPFL（瑞士联邦理工学院）的研究人员受到了蚂蚁的启发，开发了一款仅有10克重的小型机器人：他们可以相互交流，分配角色并完成复杂的任务。 ...

如何让人工智能机器人快速自我纠正错误并吃一堑长一智？

[2017-08-23] 莱斯特大学数学系的研究人员在《Neural Networks》杂志上发表了一篇文章，概述了新算法的数学基础，可以使人工智能收集错误报告并立即纠正，而不影响现有技能，同时还会积......

谷歌在中国成立一个新的人工智能（AI）研究中心

[2017-12-13] 谷歌正在中国建立一个新的人工智能（AI）研究中心，希望进一步扩展到中国，以充分利用中国高度重视的人工智能技术。人工智能是目前地球上最具竞争力的领域之一，亚马逊，微软......

一个让深度学习惨败的通用人工智能领域——语境处理

[2019-11-04] Context是指用来解释一段给定文本或语句的来源框架，我们可以翻译为上下文或语境。维基百科将context定义为：*在符号学、语言学、社会学和 ...

本站内容除了特别注明本站原创以外均来自互联网，文章观点不代表本站立场，文章版权归属原作者；如涉及版权问题，请联系smf101@163.com，我们会立即处理。谢谢配合！

本周栏目热点

大数据工程师好做吗？

[1970-01-01] 这可能是未来最具发展潜力的职业之一，我们从职场角度为你解读如何成为大数据工程师，以及它的职业发展 ...

从Facebook社交媒体情绪实验看大数据道德困境

[1970-01-01] 今年曝光的Facebook私自进行社交媒体用户情绪实验的新闻引起了不小的争议，这把很多数据实验卷入到社会 ...

大数据时代的美国隐私权保护制度

[1970-01-01] 2014年5月，美国总统执行办公室（Executive Office of the President）发布2014年全球大数据白皮书 ...

那些年，曾经被我们误读的大数据

[1970-01-01] 如今，业界和学术界一直在热议大数据，不管是学术圈还是IT圈，只要能谈论点儿大数据就显得很高大上。然 ...

未来农业将在田里处理大数据

[1970-01-01] 基普·汤姆（Kip Tom）是第7代家庭农场主，他的农场种植的主要农作物是玉米和大豆，他同时也在进行玉 ...