类似不妥的还有大数据的另外一个特征 Value(价值)。事实上, 数据即价值 的价值观古来有之。例如,在《孙子兵法始计篇》中,早就有这样的论断 多算胜,少算不胜,而况于无算乎? 此处 算 ,乃算筹也,也就是计数用的筹码,它讲得就是,如何利用数字,来估计各种因素,从而做出决策。
在马陵之战中,孙膑通过编造 齐军入魏地为十万灶,明日为五万灶,又明日为三万灶(史记 孙子吴起列传) 的数据,利用庞涓的数据分析习惯,反其道而用之,对庞涓实施诱杀。
话说还有一个关于林彪将军的段子(真假不可考),在辽沈战役中,林大将军通过分析缴获的短枪与长枪比例、缴获和击毁小车与大车比例,以及俘虏和击毙的军官与士兵的比例 异常 ,因此得出结论,敌人的指挥所就在附近!果不其然,通过追击从胡家窝棚逃走的那部分敌人,活捉国民党主帅新六军军长廖耀湘。
在战场上,数据的价值 就是辅助决策来获胜。还有一点值得注意的是,在上面的案例中,战场上的数据,神机妙算的军师们,都能 掐指一算 这显然属于十足的小数据!但网上却流传有很多诸如 林彪也玩大数据 、 跟着林彪学习大数据 等类似的文章,这就纯属扯淡了。如果凡是有点数据分析思维的案例,都归属于大数据的话,那大数据的案例,古往今来,可真是数不胜数了。
因此,Value(价值)实在不能算是大数据专享的特征, 小数据 也是有价值的。在下文第4节的分析中,我们可以看到,小数据对个人而言, 价值 更是不容小觑。这样一来,如果大、小数据都有价值,何以 价值 成为大数据的特征呢? 事实上,睿智的IBM,在对大数据的特征概括中,压根就没有 Value 这个V(如图2所示)。
图2 IBM公司给出的大数据3V特征(图片来源:disquscdn.com)
我们知道,所谓 特征 者,乃事物异于它物之特点 。打个比方,如果我们说 有鼻子有眼是男人的特征 ,您可能就会觉得不妥: 难道女人就没有鼻子没有眼睛吗? 是的, 有鼻子有眼 是男人和女人的 共征 ,而非 特征 。同样的道理,Velocity 和Value这两个V字头词汇,是大、小数据都能有的 共征 , 实在也不算不上是大数据最贴切的特征。
1.3五彩缤 纷 Variety(多样)
通常认为,大数据的多样性(Variety),是指数据种类多样。其最简单的种类划分,莫过于分为两大类:结构化的数据和非结构化数据,现在 非结构化数据 占到整个数据比例的70%~80%。早期的非结构化数据,在企业数据的语境里,可以包括诸如电子邮件、文档、健康、医疗记录等非结构化文本。随着互联网和物联网(Internet of things,IoT)的快速发展,现在的非结构化数据又扩展到诸如网页、社交媒体、音频、视频、图片、感知数据等,这诠释了数据的形式多样性。
但倘若深究下去,就会发现, 非结构化 未必是个成立的概念。在信息中, 结构化 是永存的。而所谓的 非结构化 ,不过是某些结构尚未被人清晰的描述出来而已。IT咨询公司Alta Plana的高级数据分析师Seth Grimes曾在IT领域著名刊物《信息周刊》(Information Week)撰文指出:不存在所谓的非结构化,现在所说的 非结构化 ,应该是非模型化(unmodeled),结构本在,只是人们处理数据的功力未到,未建模而已(Most unstructured data is merely unmodeled)[5](如图3所示)。
图3 Seth Grimes:非结构化乎,不!应是非建模
大数据的多样性(Variety),还体现在数据质量的参差不齐上。换句话说,这个语境下的多样性就是混杂性(Messy),即数据里混有杂质(或称噪音)。大数据的混杂性,基本上是不可避免的,既可能是数据产生者在产生数据过程出现了问题,也可能是采集或存储过程存在问题。如果这些数据噪音是偶然的,那么在大数据中,它一定会被更多的正确数据淹没掉,这样就使得大数据具备一定的容错性;如果噪音存在规律性,那么在具备足够多的数据后,就有机会发现这个规律,从而可有规律的 清洗数据 ,把噪音过滤掉。吴甘沙先生认为[15],多元抑制的数据,能够过滤噪声、去伪存真,即为辩讹。更多有关混杂性的精彩描述,读者还可批判性地参阅舍恩伯格教授的大著《大数据时代》[3]。
事实上,大数据的多样性(Variety),最重要的一面,还是表现在数据的来源多和用途多上。每一种数据来源,都有其一定的片面性和局限性,只有融合、集成多方面的数据,才能反映事物的全貌。事物的本质和规律隐藏在各种原始数据的相互关联之中。对同一个问题,不同的数据能提供互补信息,可对问题有更为深入的理解。因此在大数据分析中,汇集尽量多种来源的数据是关键。中国工程院李国杰院士认为[6],这非常类似于钱学森老先生提出的 大成智慧学 , 必集大成,才能得智慧 。
著名历史学家许倬云先生,站在历史的高度,也给出了自己的观点,他说 大数据 之所以能称之为 大数据 ,就在于,其将各种分散的数据,彼此联系,由点而线,由线而面,由面而层次,以瞻见更完整的覆盖面,也更清楚地理解事物的本质和未来取向。
英国数学家及人类学家托马斯 克伦普(Thomas Crump)在其著作《数字人类学》(The Anthropology of Numbers)指出[7],数据的本质是人,分析数据就是在分析人类族群自身,数据背后一定要还原为人。东南大学知名哲学教授吕乃基先生认为[8],虽然每个数据来源因其单项而显得模糊,然而由 无限的模糊 所带来的聚焦成像,会比 有限的精确 更准确。 人是社会关系的总和(马克思语) 。大数据利用自己的 多样性 ,比以往任何时候都趋于揭示这样的 总和 。