爱吧机器人网 » 技术 > 大数据 > 正文

外媒全面深度分析大数据的革命

美国《外交政策》杂志称,大数据真的完全像人们吹嘘的那样吗?我们能相信众多的1和0将能揭示人类行为的隐秘世界吗?以下是作者对所谓大数据理论的思索。

“大数据”是当前的时髦术语,是技术界用来解决世界上最难处理的问题的全能办法。这个术语一般用来描述对海量信息进行分析,从而发现规律、收集有价 值的见解和预言复杂问题答案的技巧与科学。它也许听起来有些乏味,但是从制止恐怖分子,到消除贫困,到拯救地球,对于大数据的鼓吹者来说,没有什么问题是 解决不了的。

维克托•梅耶—舍恩伯格和肯尼思•丘基尔在有着朴素书名的《大数据:一次将改变我们生活、工作和思考方式的革命》一书中欢呼道:“对社会的好处将是无穷无尽的,因为大数据在一定程度上将解决迫在眉睫的全球问题,如处理气候变化、根除疾病以及促进善政和经济发展等。”

只要有足够多的数据可以处理———不管是你的iPhone上的数据、杂货店购物状况、在线约会网站个人简介或者是整个国家的匿名健康记录,利用对这 些原始数据进行解码的计算能力,人们可以获得数不胜数的有价值的见解。甚至连奥巴马政府也已经赶上了这股潮流,并在5月9日向企业家、研究人员和公众“破 天荒”发布了大量“以前难以获取或难以管理的数据”。

大数据

然而,大数据真的完全像人们吹嘘的那样吗?我们能相信众多的1和0将能揭示人类行为的隐秘世界吗?以下是作者对所谓大数据理论的思索。

1.“有了足够的数据,数字就可以自己说话”

没门儿。大数据的鼓吹者希望我们相信,在一行行的代码和庞大数据库的背后存在着有关人类行为模式的客观、普遍的有价值的见解,不管是消费者的支出规律、犯罪或恐怖主义行动、健康习惯,还是雇员的生产效率。但是许多大数据的传道者不愿正视其不足。

数字无法自己说话,而数据集———不管它们具有什么样的规模———仍然是人类设计的产物。大数据的工具———例如Apache Hadoop软件框架———并不能使我们摆脱曲解、隔阂和错误的成见。

当大数据试图反映我们所生活的社会化世界时,这些因素变得尤其重要,而我们却常常会傻乎乎地认为这些结果总是要比人为的意见来得客观些。偏见和盲区 存在于大数据中,就像它们存在于个人的感觉和经验中一样。不过存在一种值得怀疑的信条,即认为数据总是越大越好,而相关性也等同于因果关系。

例如,社交媒体是大数据分析的一个普遍的信息源,那里无疑有许多信息可以挖掘。我们被告知,推特网的数据显示人们在离家越远的时候越快乐,而且在周 四晚上最为沮丧。但是存在许多理由对这些数据的含义提出质疑。首先,我们从皮尤研究中心获悉,美国上网的成年人中只有16%使用推特网,因而他们绝对不是 一个具有代表性的样本———与整体人口相比,他们中年轻人和城市人的比例偏多。

此外,我们知道许多推特账号是被称作“机器人”程序的自动程序、虚假账号或是“半机器人”系统(即得到机器人程序辅助的人为控制账号)。最近的估计 显示,可能存在多达2000万个虚假账号。因此就算我们要想踏入有关如何评估推特网用户情绪的方法论雷场之前,让我们先问一下这些情绪究竟是来自真人,还是来自自动化算法系统。

2.“大数据将使我们的城市变得更加智能和高效”

在一定程度上是的。大数据可以提供帮助改善我们城市的宝贵见识,但是它对我们的帮助仅此而已。因为数据在生成或采集的过程并不都是平等的,大数据集 存在“信号问题”———即某些民众和社区被忽略或未得到充分代表,这被称为数据黑暗地带或阴影区域。因此大数据在城市规划中的应用在很大程度上取决于市政 官员对数据及其局限性的了解。

例如,波士顿的StreetBump应用程序是一个比较聪明的以低成本收集信息的途径。该程序从开车经过路面坑洼处的驾驶员的智能手机上收集数据。 更多类似的应用正在出现。但是如果城市开始依靠仅来自智能手机用户的信息,那么这些市民只是一个自我选择样本———它必然导致拥有较少智能手机用户的社区 的数据缺失,这样的社区人群通常包括了年老和不那么富有的市民。

尽管波士顿的新城市机械办公室作出了多项努力来弥补这些潜在的数据缺陷,但不那么负责的公共官员可能会遗漏这些补救措施,最终会得到不均衡的数据, 从而进一步加剧已有的社会不公。人们只要回顾一下曾经过高估计了年度流感发病率的2012年“谷歌流感趋势”,就可以认识到依赖有缺陷的大数据可能给公共 服务及公共政策造成的影响。

在网上公开政府部门数据的“开放政府”计划———如Data.gov网站及“白宫开放政府计划”———也存在同样的情况。更多的数据未必会改善政府 的任何功能,包括透明度和问责,除非存在可以使公众和公共机构保持接触的机制,更不用说促进政府解释数据并以足够的资源作出反应的能力。所有这些都非易 事。事实上,我们身边还没有很多技能高超的数据科学家。各大学目前正在争相定义这一领域、制订教程和满足市场需求。

3.“大数据对不同的社会群体不会厚此薄彼”

几乎不是这样。对大数据所号称的客观性的另一个期待是对于少数群体的歧视将会减少,因为原始数据总是不含社会偏见的,这使得分析可以在整体水平上进 行,从而避免基于群体的歧视。然而,由于大数据能够作出有关群体不同行为方式的论断,它们的使用通常恰恰就是为了实现一个目的———即把不同的个体归入不 同的群体中。例如,最近有一篇论文指科学家听任自己的种族偏见影响有关基因组的大数据研究。

上一页12下一页

上一篇:论“万能”的大数据及由此带来的诸多问题
下一篇:那些年,曾经被我们误读的大数据
精选推荐
可编辑神经网络,有望简化深度学习?
可编辑神经网络,有望简化深度学习?

[2019-10-04]  深度学习是一个计算繁重的过程。 降低成本一直是 Data curation 的一大挑战。 关于深度学习神经网络大功耗的训练过程,已经有研究人员 ...

MIT研制出可以像植物一样生长的机器人
MIT研制出可以像植物一样生长的机器人

[2019-11-09]  麻省理工学院开发了一种新型机器人,这种机器人可以本质上自我延伸,其生长方式与植物幼苗向上生长的方式惊人相似。值得注意的是,研究人员 ...

苹果AI主管透露自动驾驶汽车项目关于机器学习方面的进展
苹果AI主管透露自动驾驶汽车项目关于机器学习方面的进展

[2017-12-11]  苹果隐秘的自动驾驶汽车项目多年来一直在转移焦点,但今年似乎正在加速。 4月份,公司获得了在加利福尼亚州进行自动驾驶汽车测试的许可证,而在6月份,苹果公司首席执行官库......

人工智能准确预测患者一年内的死亡风险,原理却无法解释
人工智能准确预测患者一年内的死亡风险,原理却无法解释

[2019-11-13]  图片来自BURGER PHANIE SCIENCE PHOTO LIBRARY美国最新研究显示,人工智能通过查看心脏测试结果,以高达85%以上的准确率预测了一个人在一 ...

亚马逊计划建一个4000万美元的机器人中心
亚马逊计划建一个4000万美元的机器人中心

[2019-11-07]  爱吧机器人网消息,亚马逊11月6日宣布了一项计划,计划在美国马萨诸塞州韦斯特伯勒建立一个4000万美元、35万平方英尺的机器人创新中心。新 ...

谷歌宣布搜索算法重大升级,用BERT模型理解用户搜索意图
谷歌宣布搜索算法重大升级,用BERT模型理解用户搜索意图

[2019-10-26]  谷歌刚刚宣布,其搜索引擎的核心算法正在进行一项重大升级,这项升级可能会改变10%的搜索结果排序。此项升级应用了自然语言处理技术(BERT ...

2017年:AI渗入云端
2017年:AI渗入云端

[2017-12-29]  云中的人工智能不仅仅是科技巨头的权力游戏,它也可能是人工智能领域的下一个飞跃。加利福尼亚州的Rigetti Computing公司刚刚使用其原型量子芯片之一在其云平台上运行机器学......

智能机器人困惑的时候知道该问什么问题
智能机器人困惑的时候知道该问什么问题

[2017-03-20]   照片:Nick Dentamaro 布朗大学 上周,我们提到了麻省理工学院的一些研究,即通过链接人的大脑来帮助机器人在他们将要犯错误的时 ...

本周栏目热点

[1970-01-01]   这可能是未来最具发展潜力的职业之一,我们从职场角度为你解读如何成为 大数据 工程师,以及它的职业发展 ...

从Facebook社交媒体情绪实验看大数据道德困境

[1970-01-01]   今年曝光的Facebook私自进行社交媒体用户情绪实验的新闻引起了不小的争议,这把很多数据实验卷入到社会 ...

大数据时代的美国隐私权保护制度

[1970-01-01]   2014年5月,美国总统执行办公室(Executive Office of the President)发布2014年全球大数据白皮书 ...

那些年,曾经被我们误读的大数据

[1970-01-01]   如今,业界和学术界一直在热议大数据,不管是学术圈还是IT圈,只要能谈论点儿大数据就显得很高大上。然 ...

未来农业将在田里处理大数据

[1970-01-01]   基普·汤姆(Kip Tom)是第7代家庭农场主,他的农场种植的主要农作物是玉米和大豆,他同时也在进行玉 ...