从大数据到小数据，数据之坑与美-大数据-技术-爱吧机器人网

这是大数据分析中的第二个容易跳入的陷阱。大数据的多样性里，包括了数据质量上的混杂性，某些低频但很重要的弱信号，很容易被当作噪音过滤掉了！从而痛失发现黑天鹅事件的可能性。

再例如，在美国，学习飞机驾驶是件司空见惯的事，在几十万学习飞机驾驶的记录中，如果美国有关当局能注意到，有那么几位学员只学习飞机起飞，而不学习飞机降落，那么9/11事件或许就可以避免，世界的格局可能就此发生根本性的变化（当然，这个事件也为中国赢得了10年的黄金发展期，不在本文的讨论范围，就不展开说）。在大数据时代的分析中，很容易放弃对精确的追求，而允许对混杂数据的接纳，但过多的混杂放纵，就会形成一个自设的陷阱。因此，必需未雨绸缪，有所提防。

在大数据时代里，第三个值得注意的陷阱是，大数据的拥趸者认为，大数据可以做到 n=all （这里n数据的大小），因此无需采样，这样做也就不会再有采样偏差的问题，因为采样已经包含了所有数据。但事实上， n=all 很难做到，统计学家们花了200多年，总结出认知数据过程中的种种陷阱（如统计偏差等），这些陷阱不会随着数据量的增大而自动填平。

3.今日王谢堂前燕，暂未飞入百姓家大数据没那么普及！

目前，虽然大数据被炒得火热，甚至连股票交易大厅的大爷大妈都可以聊上几句大数据概念股，但是大数据真的有那么普及吗？

事实上，倘若想要充分利用大数据，至少要具备3个条件：（1）拥有大数据本身；（2）具备大数据思维；（3）配备大数据技术。这三个高门槛，事实上，已经把很多公司企业拒之门外，套用刘禹锡那句诗：今日王谢堂前燕，不入寻常百姓家大数据依然还是那么高大上，远远没有那么普及！

图8所示的是，著名IT咨询公司高德纳（Gartner）于2014年公布的技术成熟度曲线（hype cycle）。国内将 hype cycle 翻译成成熟度曲线，实在是太过文雅了，直译为炒作周期也毫不为过。从图8可以看出，大数据已经过了炒作的高峰期，目前处于泡沫化的底谷期 (Trough of Disillusionment)。

在历经前面的科技诞生促动期 (Technology Trigger)和过高期望峰值期（Peak of Inflated Expectations）这两个阶段，泡沫化的底谷期存活下来的科技（如大数据），需要经过多方历练，技术的助推者，要么咬牙坚持创新，要么无奈淘汰出局，能成功存活下来的技术及经营模式，将会更加务实地茁壮成长。

李国杰院士在接受《湖北日报》的采访时，也表达了类似的观点，大数据刚刚过了炒作的高峰期 [17]。冷静下来的大数据，或许可以走得更远。

图8 高德纳技术成熟度曲线（图片来源：Gartner）

李国杰院士还表示，大数据与其他信息技术一样，在一段时间内遵循指数发展规律。指数规律发展的特点是，在一段时期衡量内（至少30年），前期发展慢，经过相当长时间（可能需要20年以上）的积累，会出现一个拐点，过了拐点以后，就会出现爆炸式的增长。但任何技术都不会永远保持指数性增长，最后的结局，要么进入良性发展的稳定状态，要么走向消亡。

大数据的布道者们，张口闭口言称大数据进入PB时代了。例如，《连线》杂志的前主编克里斯安德森早在2008年说：在PB时代，数量庞大的数据会使人们不再需要理论，甚至不再需要科学的方法。但是这个吹捧也是非常不靠谱的，亦需要泼冷水还有大数据。

在大数据时代，我们要习惯让数据发声。下面的统计数据来自大名鼎鼎的学术期刊《科学》（Science）。2011年，《科学》调查发现[18]，在你科研过程中使用的（或产生的）最大数据集是多少？的问卷调查中（如图9所示），48.3%的受访者认为他们日常处理的数据小于1GB，只有7.6%的受访者说他们日常用的数据大于1TB（1TB=1024GB，1PB=1024TB），也就是说，调查数据显示，92.4%用户所用的数据小于1TB，一个稍微大点的普通硬盘就能装载得下，这让那些动辄言称PB级别的大数据的布道者们情何以堪啊？而大数据重度鼓吹手IDC，目前正在为业界巨擘摇旗呐喊ZB时代（1ZB=1024PB），我们一定要冷眼看世界，慢慢等着瞧吧！

图9 在你的科研中，你使用的（或产生）最大数据集是多大？（图片来源：科学期刊）

而在你在哪里存储实验室产生的数据或科研用的数据？问卷调查中，50.2%的受访者回答是在自己的实验室电脑里存储，38.5%受访者回答是在大学的服务器上存储。由此可见，大部分的数据依然处于数据孤岛状态，在数据流通性的道路是，依然路漫漫其修远兮。而数据的流通性和共享性，如前文所述，是大数据成败的前提。

图10 你主要在哪里存储你实验产生的或科研数据？（图片来源：科学期刊）

或许也有读者不以为然，说我就是属于那部分小于7.6%的人（即使用或产生的数据大于1TB）。我小众，我自豪，此类信心满满的人，大多来自主流的互联网公司，如Google、Yahoo、微软、Facebook等，而在国内的自然非BAT莫属了。事实上，即使来自这类大公司的日常业务，其数据集也不是那么大的触目惊心。

微软研究院资深研究员Antony Rowstron等人撰文指出[19]，根据微软和Yahoo的统计，所有Hadoop的作业放一起，取个中间值，其输入数据集的大小也不过是14GB。即使是在大数据大户Facebook，其90%的作业输入数据集，也是小于100GB的（clusters (at Microsoft and Yahoo) have median job input sizes under 14 GB, and 90% of jobs on a Facebook cluster have input sizes under 100 GB）。那些动辄拿某个互联网巨头的数据体积总和，来忽悠大家的大数据布道者们，更应该借给受众们一双慧眼，让他们把这纷扰看得清清楚楚明明白白真真切切。

从大数据到小数据，数据之坑与美

本周栏目热点