这是大数据分析中的第二个容易跳入的陷阱。大数据的多样性里,包括了数据质量上的 混杂性 ,某些低频但很重要的弱信号,很容易被当作噪音过滤掉了!从而痛失发现 黑天鹅 事件的可能性。
再例如,在美国,学习飞机驾驶是件 司空见惯 的事,在几十万学习飞机驾驶的记录中,如果美国有关当局能注意到,有那么几位学员只学习 飞机起飞 ,而不学习 飞机降落 ,那么9/11事件或许就可以避免,世界的格局可能就此发生根本性的变化(当然,这个事件也为中国赢得了10年的黄金发展期,不在本文的讨论范围,就不展开说)。在大数据时代的分析中,很容易放弃对精确的追求,而允许对混杂数据的接纳,但过多的 混杂放纵 ,就会形成一个自设的陷阱。因此,必需 未雨绸缪 ,有所提防。
在大数据时代里,第三个值得注意的陷阱是,大数据的拥趸者认为,大数据可以做到 n=all (这里n数据的大小),因此无需采样,这样做也就不会再有采样偏差的问题,因为采样已经包含了所有数据。但事实上, n=all 很难做到,统计学家们花了200多年,总结出认知数据过程中的种种陷阱(如统计偏差等),这些陷阱不会随着数据量的增大而自动填平。
3.今日王谢堂前燕,暂未飞入百姓家 大数据没那么普及!
目前,虽然大数据被炒得火热,甚至连股票交易大厅的大爷大妈都可以聊上几句 大数据 概念股,但是大数据真的有那么普及吗?
事实上,倘若想要充分利用大数据,至少要具备3个条件:(1)拥有大数据本身;(2)具备大数据思维;(3)配备大数据技术。这三个高门槛,事实上,已经把很多公司企业拒之门外,套用刘禹锡那句诗:今日王谢堂前燕,不入寻常百姓家 大数据依然还是那么高大上,远远没有那么普及!
图8所示的是,著名IT咨询公司高德纳(Gartner)于2014年公布的技术成熟度曲线(hype cycle)。国内将 hype cycle 翻译成 成熟度曲线 ,实在是太过文雅了,直译为 炒作周期 也毫不为过。从图8可以看出,大数据已经过了炒作的高峰期,目前处于泡沫化的底谷期 (Trough of Disillusionment)。
在历经前面的科技诞生促动期 (Technology Trigger)和过高期望峰值期(Peak of Inflated Expectations)这两个阶段,泡沫化的底谷期存活下来的科技(如大数据),需要经过多方历练,技术的助推者,要么咬牙坚持创新,要么无奈淘汰出局,能成功存活下来的技术及经营模式,将会更加务实地茁壮成长。
李国杰院士在接受《湖北日报》的采访时,也表达了类似的观点, 大数据刚刚过了炒作的高峰期 [17]。冷静下来的大数据,或许可以走得更远。
图8 高德纳技术成熟度曲线(图片来源:Gartner)
李国杰院士还表示,大数据与其他信息技术一样,在一段时间内遵循指数发展规律。指数规律发展的特点是,在一段时期衡量内(至少30年),前期发展慢,经过相当长时间(可能需要20年以上)的积累,会出现一个拐点,过了拐点以后,就会出现爆炸式的增长。但任何技术都不会永远保持 指数性 增长,最后的结局,要么进入良性发展的稳定状态,要么走向消亡。
大数据的布道者们,张口闭口言称大数据进入PB时代了。例如,《连线》杂志的前主编克里斯 安德森早在2008年说: 在PB时代,数量庞大的数据会使人们不再需要理论,甚至不再需要科学的方法。 但是这个吹捧也是非常不靠谱的,亦需要泼冷水还有大数据。
在大数据时代,我们要习惯让数据发声。下面的统计数据来自大名鼎鼎的学术期刊《科学》(Science)。2011年,《科学》调查发现[18],在 你科研过程中使用的(或产生的)最大数据集是多少? 的问卷调查中(如图9所示),48.3%的受访者认为他们日常处理的数据小于1GB,只有7.6%的受访者说他们日常用的数据大于1TB(1TB=1024GB,1PB=1024TB),也就是说,调查数据显示,92.4%用户所用的数据小于1TB,一个稍微大点的普通硬盘就能装载得下,这让那些动辄言称PB级别的大数据的布道者们情何以堪啊?而大数据重度鼓吹手IDC,目前正在为业界巨擘摇旗呐喊ZB时代(1ZB=1024PB),我们一定要冷眼看世界,慢慢等着瞧吧!
图9 在你的科研中,你使用的(或产生)最大数据集是多大?(图片来源:科学期刊)
而在 你在哪里存储实验室产生的数据或科研用的数据? 问卷调查中,50.2%的受访者回答是在自己的实验室电脑里存储,38.5%受访者回答是在大学的服务器上存储。由此可见,大部分的数据依然处于数据孤岛状态,在数据流通性的道路是,依然 路漫漫其修远兮 。而数据的流通性和共享性,如前文所述,是大数据成败的前提。
图10 你主要在哪里存储你实验产生的或科研数据?(图片来源:科学期刊)
或许也有读者不以为然,说我就是属于那部分小于7.6%的人(即使用或产生的数据大于1TB)。 我小众,我自豪 ,此类信心满满的人,大多来自主流的互联网公司,如Google、Yahoo、微软、Facebook等,而在国内的自然非BAT莫属了。事实上,即使来自这类大公司的日常业务,其数据集也不是那么大的 触目惊心 。
微软研究院资深研究员Antony Rowstron等人撰文指出[19],根据微软和Yahoo的统计,所有Hadoop的作业放一起,取个中间值,其输入数据集的大小也不过是14GB。即使是在大数据大户Facebook,其90%的作业输入数据集,也是小于100GB的(clusters (at Microsoft and Yahoo) have median job input sizes under 14 GB, and 90% of jobs on a Facebook cluster have input sizes under 100 GB)。那些动辄拿某个互联网巨头的数据体积总和,来 忽悠 大家的大数据布道者们,更应该借给受众们 一双慧眼 ,让他们 把这纷扰看得清清楚楚明明白白真真切切 。