爱吧机器人网 » 技术 > 大数据 > 正文

从大数据到小数据,数据之坑与美

这是大数据分析中的第二个容易跳入的陷阱。大数据的多样性里,包括了数据质量上的 混杂性 ,某些低频但很重要的弱信号,很容易被当作噪音过滤掉了!从而痛失发现 黑天鹅 事件的可能性。

再例如,在美国,学习飞机驾驶是件 司空见惯 的事,在几十万学习飞机驾驶的记录中,如果美国有关当局能注意到,有那么几位学员只学习 飞机起飞 ,而不学习 飞机降落 ,那么9/11事件或许就可以避免,世界的格局可能就此发生根本性的变化(当然,这个事件也为中国赢得了10年的黄金发展期,不在本文的讨论范围,就不展开说)。在大数据时代的分析中,很容易放弃对精确的追求,而允许对混杂数据的接纳,但过多的 混杂放纵 ,就会形成一个自设的陷阱。因此,必需 未雨绸缪 ,有所提防。

在大数据时代里,第三个值得注意的陷阱是,大数据的拥趸者认为,大数据可以做到 n=all (这里n数据的大小),因此无需采样,这样做也就不会再有采样偏差的问题,因为采样已经包含了所有数据。但事实上, n=all 很难做到,统计学家们花了200多年,总结出认知数据过程中的种种陷阱(如统计偏差等),这些陷阱不会随着数据量的增大而自动填平。

3.今日王谢堂前燕,暂未飞入百姓家 大数据没那么普及!

目前,虽然大数据被炒得火热,甚至连股票交易大厅的大爷大妈都可以聊上几句 大数据 概念股,但是大数据真的有那么普及吗?

事实上,倘若想要充分利用大数据,至少要具备3个条件:(1)拥有大数据本身;(2)具备大数据思维;(3)配备大数据技术。这三个高门槛,事实上,已经把很多公司企业拒之门外,套用刘禹锡那句诗:今日王谢堂前燕,不入寻常百姓家 大数据依然还是那么高大上,远远没有那么普及!

图8所示的是,著名IT咨询公司高德纳(Gartner)于2014年公布的技术成熟度曲线(hype cycle)。国内将 hype cycle 翻译成 成熟度曲线 ,实在是太过文雅了,直译为 炒作周期 也毫不为过。从图8可以看出,大数据已经过了炒作的高峰期,目前处于泡沫化的底谷期 (Trough of Disillusionment)。

在历经前面的科技诞生促动期 (Technology Trigger)和过高期望峰值期(Peak of Inflated Expectations)这两个阶段,泡沫化的底谷期存活下来的科技(如大数据),需要经过多方历练,技术的助推者,要么咬牙坚持创新,要么无奈淘汰出局,能成功存活下来的技术及经营模式,将会更加务实地茁壮成长。

李国杰院士在接受《湖北日报》的采访时,也表达了类似的观点, 大数据刚刚过了炒作的高峰期 [17]。冷静下来的大数据,或许可以走得更远。

\图8 高德纳技术成熟度曲线(图片来源:Gartner)

李国杰院士还表示,大数据与其他信息技术一样,在一段时间内遵循指数发展规律。指数规律发展的特点是,在一段时期衡量内(至少30年),前期发展慢,经过相当长时间(可能需要20年以上)的积累,会出现一个拐点,过了拐点以后,就会出现爆炸式的增长。但任何技术都不会永远保持 指数性 增长,最后的结局,要么进入良性发展的稳定状态,要么走向消亡。

大数据的布道者们,张口闭口言称大数据进入PB时代了。例如,《连线》杂志的前主编克里斯 安德森早在2008年说: 在PB时代,数量庞大的数据会使人们不再需要理论,甚至不再需要科学的方法。 但是这个吹捧也是非常不靠谱的,亦需要泼冷水还有大数据。

在大数据时代,我们要习惯让数据发声。下面的统计数据来自大名鼎鼎的学术期刊《科学》(Science)。2011年,《科学》调查发现[18],在 你科研过程中使用的(或产生的)最大数据集是多少? 的问卷调查中(如图9所示),48.3%的受访者认为他们日常处理的数据小于1GB,只有7.6%的受访者说他们日常用的数据大于1TB(1TB=1024GB,1PB=1024TB),也就是说,调查数据显示,92.4%用户所用的数据小于1TB,一个稍微大点的普通硬盘就能装载得下,这让那些动辄言称PB级别的大数据的布道者们情何以堪啊?而大数据重度鼓吹手IDC,目前正在为业界巨擘摇旗呐喊ZB时代(1ZB=1024PB),我们一定要冷眼看世界,慢慢等着瞧吧!

\图9 在你的科研中,你使用的(或产生)最大数据集是多大?(图片来源:科学期刊)

而在 你在哪里存储实验室产生的数据或科研用的数据? 问卷调查中,50.2%的受访者回答是在自己的实验室电脑里存储,38.5%受访者回答是在大学的服务器上存储。由此可见,大部分的数据依然处于数据孤岛状态,在数据流通性的道路是,依然 路漫漫其修远兮 。而数据的流通性和共享性,如前文所述,是大数据成败的前提。

\图10 你主要在哪里存储你实验产生的或科研数据?(图片来源:科学期刊)

或许也有读者不以为然,说我就是属于那部分小于7.6%的人(即使用或产生的数据大于1TB)。 我小众,我自豪 ,此类信心满满的人,大多来自主流的互联网公司,如Google、Yahoo、微软、Facebook等,而在国内的自然非BAT莫属了。事实上,即使来自这类大公司的日常业务,其数据集也不是那么大的 触目惊心 。

微软研究院资深研究员Antony Rowstron等人撰文指出[19],根据微软和Yahoo的统计,所有Hadoop的作业放一起,取个中间值,其输入数据集的大小也不过是14GB。即使是在大数据大户Facebook,其90%的作业输入数据集,也是小于100GB的(clusters (at Microsoft and Yahoo) have median job input sizes under 14 GB, and 90% of jobs on a Facebook cluster have input sizes under 100 GB)。那些动辄拿某个互联网巨头的数据体积总和,来 忽悠 大家的大数据布道者们,更应该借给受众们 一双慧眼 ,让他们 把这纷扰看得清清楚楚明明白白真真切切 。

上一页12345678下一页

上一篇:傅志华:大数据应用在中国的创业机会
下一篇:大数据将怎样改写人才命运
精选推荐
机器人iCub作为嵌入式AI的标准机器人研究平台的重要性
机器人iCub作为嵌入式AI的标准机器人研究平台的重要性

[2017-12-24]  机器人的研究在过去10年中得益于一个具有嵌入式人工智能(AI)的标准化开源平台——人形机器人iCub。iCub最初在意大利被创建,如今在欧洲、美国、韩国、新加坡和日本的实验室......

Crossbar将电阻式RAM推入嵌入式AI
Crossbar将电阻式RAM推入嵌入式AI

[2018-05-17]  电阻RAM技术开发商Crossbar表示,它已与航空航天芯片制造商Microsemi达成协议,允许后者在未来的芯片中嵌入Crossbar的非易失性存储器。此举是在先进制造业节点的领先代工厂选......

麻省理工最新机器人“装配工”未来可建造太空基地
麻省理工最新机器人“装配工”未来可建造太空基地

[2019-10-17]  两个机器人原型把一系列小单元组装成大结构体麻省理工学院科研人员最近提出一种新型机器人技术,即一种小型机器人系统,能够自主地用统一规 ...

2022年全球工业机器人市场将达到790亿美元
2022年全球工业机器人市场将达到790亿美元

[2017-09-04]  预计到 2022年, 全球工业机器人市场将达到790亿美元, 并在预测期内登记11 5% 的复合年增长率。随着发展中国家中小型企业需求的不断增长, 采用自动化技术以确保生产质量......

改变保险市场的格局:无人机如何通过更快的估算、响应时间和利益交付来使消费者受益
改变保险市场的格局:无人机如何通过更快的估算、响应时间和利益交付来

[2018-12-08]  市场研究公司IHS Markit预测,到2020年,专业无人机市场将通过农业,能源和建筑等行业利用测量,制图,规划等技术实现77 1%的复合年增长率(CAGR)。与此同时,消费者无人......

2018年企业数字化转型的五大趋势
2018年企业数字化转型的五大趋势

[2017-12-16]  据2016年哈佛商学院研究表明,选择进行数字化转型的企业在3年内表现出了55%的平均毛利润提升,相比之下其他企业毛利润同期降低了37%。数字化转型企业的领头羊,也曾是收入处于......

受大脑控制的机器人
受大脑控制的机器人

[2017-03-21]   想让机器人做我们想做的,首先,他得全面地了解我们。通常,这就意味着人类需要要付出更多。比如,教机器人复杂的人类语言或者把一项任务 ...

机器人工程师具体都做什么?
机器人工程师具体都做什么?

[2017-12-08]  机器人工程师是幕后设计师,负责创建机器人和机器人系统,能够执行人类无法完成或不愿意完成的任务。 通过他们的创造,机器人工程师帮助工作更安全,更轻松,更高效,特别是......

本周栏目热点

[1970-01-01]   这可能是未来最具发展潜力的职业之一,我们从职场角度为你解读如何成为 大数据 工程师,以及它的职业发展 ...

从Facebook社交媒体情绪实验看大数据道德困境

[1970-01-01]   今年曝光的Facebook私自进行社交媒体用户情绪实验的新闻引起了不小的争议,这把很多数据实验卷入到社会 ...

大数据时代的美国隐私权保护制度

[1970-01-01]   2014年5月,美国总统执行办公室(Executive Office of the President)发布2014年全球大数据白皮书 ...

那些年,曾经被我们误读的大数据

[1970-01-01]   如今,业界和学术界一直在热议大数据,不管是学术圈还是IT圈,只要能谈论点儿大数据就显得很高大上。然 ...

未来农业将在田里处理大数据

[1970-01-01]   基普·汤姆(Kip Tom)是第7代家庭农场主,他的农场种植的主要农作物是玉米和大豆,他同时也在进行玉 ...