爱吧机器人网 » 技术 > 大数据 > 正文

从大数据到小数据,数据之坑与美

类似不妥的还有大数据的另外一个特征 Value(价值)。事实上, 数据即价值 的价值观古来有之。例如,在《孙子兵法始计篇》中,早就有这样的论断 多算胜,少算不胜,而况于无算乎? 此处 算 ,乃算筹也,也就是计数用的筹码,它讲得就是,如何利用数字,来估计各种因素,从而做出决策。

在马陵之战中,孙膑通过编造 齐军入魏地为十万灶,明日为五万灶,又明日为三万灶(史记 孙子吴起列传) 的数据,利用庞涓的数据分析习惯,反其道而用之,对庞涓实施诱杀。

话说还有一个关于林彪将军的段子(真假不可考),在辽沈战役中,林大将军通过分析缴获的短枪与长枪比例、缴获和击毁小车与大车比例,以及俘虏和击毙的军官与士兵的比例 异常 ,因此得出结论,敌人的指挥所就在附近!果不其然,通过追击从胡家窝棚逃走的那部分敌人,活捉国民党主帅新六军军长廖耀湘。

在战场上,数据的价值 就是辅助决策来获胜。还有一点值得注意的是,在上面的案例中,战场上的数据,神机妙算的军师们,都能 掐指一算 这显然属于十足的小数据!但网上却流传有很多诸如 林彪也玩大数据 、 跟着林彪学习大数据 等类似的文章,这就纯属扯淡了。如果凡是有点数据分析思维的案例,都归属于大数据的话,那大数据的案例,古往今来,可真是数不胜数了。

因此,Value(价值)实在不能算是大数据专享的特征, 小数据 也是有价值的。在下文第4节的分析中,我们可以看到,小数据对个人而言, 价值 更是不容小觑。这样一来,如果大、小数据都有价值,何以 价值 成为大数据的特征呢? 事实上,睿智的IBM,在对大数据的特征概括中,压根就没有 Value 这个V(如图2所示)。

\图2 IBM公司给出的大数据3V特征(图片来源:disquscdn.com)

我们知道,所谓 特征 者,乃事物异于它物之特点 。打个比方,如果我们说 有鼻子有眼是男人的特征 ,您可能就会觉得不妥: 难道女人就没有鼻子没有眼睛吗? 是的, 有鼻子有眼 是男人和女人的 共征 ,而非 特征 。同样的道理,Velocity 和Value这两个V字头词汇,是大、小数据都能有的 共征 , 实在也不算不上是大数据最贴切的特征。

1.3五彩缤 纷 Variety(多样)

通常认为,大数据的多样性(Variety),是指数据种类多样。其最简单的种类划分,莫过于分为两大类:结构化的数据和非结构化数据,现在 非结构化数据 占到整个数据比例的70%~80%。早期的非结构化数据,在企业数据的语境里,可以包括诸如电子邮件、文档、健康、医疗记录等非结构化文本。随着互联网和物联网(Internet of things,IoT)的快速发展,现在的非结构化数据又扩展到诸如网页、社交媒体、音频、视频、图片、感知数据等,这诠释了数据的形式多样性。

但倘若深究下去,就会发现, 非结构化 未必是个成立的概念。在信息中, 结构化 是永存的。而所谓的 非结构化 ,不过是某些结构尚未被人清晰的描述出来而已。IT咨询公司Alta Plana的高级数据分析师Seth Grimes曾在IT领域著名刊物《信息周刊》(Information Week)撰文指出:不存在所谓的非结构化,现在所说的 非结构化 ,应该是非模型化(unmodeled),结构本在,只是人们处理数据的功力未到,未建模而已(Most unstructured data is merely unmodeled)[5](如图3所示)。

\图3 Seth Grimes:非结构化乎,不!应是非建模

大数据的多样性(Variety),还体现在数据质量的参差不齐上。换句话说,这个语境下的多样性就是混杂性(Messy),即数据里混有杂质(或称噪音)。大数据的混杂性,基本上是不可避免的,既可能是数据产生者在产生数据过程出现了问题,也可能是采集或存储过程存在问题。如果这些数据噪音是偶然的,那么在大数据中,它一定会被更多的正确数据淹没掉,这样就使得大数据具备一定的容错性;如果噪音存在规律性,那么在具备足够多的数据后,就有机会发现这个规律,从而可有规律的 清洗数据 ,把噪音过滤掉。吴甘沙先生认为[15],多元抑制的数据,能够过滤噪声、去伪存真,即为辩讹。更多有关混杂性的精彩描述,读者还可批判性地参阅舍恩伯格教授的大著《大数据时代》[3]。

事实上,大数据的多样性(Variety),最重要的一面,还是表现在数据的来源多和用途多上。每一种数据来源,都有其一定的片面性和局限性,只有融合、集成多方面的数据,才能反映事物的全貌。事物的本质和规律隐藏在各种原始数据的相互关联之中。对同一个问题,不同的数据能提供互补信息,可对问题有更为深入的理解。因此在大数据分析中,汇集尽量多种来源的数据是关键。中国工程院李国杰院士认为[6],这非常类似于钱学森老先生提出的 大成智慧学 , 必集大成,才能得智慧 。

著名历史学家许倬云先生,站在历史的高度,也给出了自己的观点,他说 大数据 之所以能称之为 大数据 ,就在于,其将各种分散的数据,彼此联系,由点而线,由线而面,由面而层次,以瞻见更完整的覆盖面,也更清楚地理解事物的本质和未来取向。

英国数学家及人类学家托马斯 克伦普(Thomas Crump)在其著作《数字人类学》(The Anthropology of Numbers)指出[7],数据的本质是人,分析数据就是在分析人类族群自身,数据背后一定要还原为人。东南大学知名哲学教授吕乃基先生认为[8],虽然每个数据来源因其单项而显得模糊,然而由 无限的模糊 所带来的聚焦成像,会比 有限的精确 更准确。 人是社会关系的总和(马克思语) 。大数据利用自己的 多样性 ,比以往任何时候都趋于揭示这样的 总和 。

上一页12345678下一页

上一篇:傅志华:大数据应用在中国的创业机会
下一篇:大数据将怎样改写人才命运
精选推荐
机器人工程师具体都做什么?
机器人工程师具体都做什么?

[2017-12-08]  机器人工程师是幕后设计师,负责创建机器人和机器人系统,能够执行人类无法完成或不愿意完成的任务。 通过他们的创造,机器人工程师帮助工作更安全,更轻松,更高效,特别是......

[2017-03-21]  虽然有很多关于机器人取代工人的担心,但哈佛经济学家James Bessen的论文指出,在过去的67年里机器人仅仅淘汰掉人类工作中的一个。在1950 ...

瑞士研发出微型机器人集群 可像蚂蚁一样互相交流并协同工作
瑞士研发出微型机器人集群 可像蚂蚁一样互相交流并协同工作

[2019-07-12]  EPFL(瑞士联邦理工学院)的研究人员受到了蚂蚁的启发,开发了一款仅有10克重的小型机器人:他们可以相互交流,分配角色并完成复杂的任务。 ...

MIT用深度学习处理3D点云数据 应用于无人汽车等领域
MIT用深度学习处理3D点云数据 应用于无人汽车等领域

[2019-10-23]  如果你见过自动驾驶汽车,也许会对车顶上那个一直在旋转的圆柱体感到好奇。这是一个雷达传感器,无人驾驶汽车依靠它在现实世界中进行导航。 ...

人工智能准确预测患者一年内的死亡风险,原理却无法解释
人工智能准确预测患者一年内的死亡风险,原理却无法解释

[2019-11-13]  图片来自BURGER PHANIE SCIENCE PHOTO LIBRARY美国最新研究显示,人工智能通过查看心脏测试结果,以高达85%以上的准确率预测了一个人在一 ...

哈佛大学《自然》发表新驱动技术,让飞行机器人悬停且不受损伤
哈佛大学《自然》发表新驱动技术,让飞行机器人悬停且不受损伤

[2019-11-06]  哈佛大学研究人员发表在《自然》杂志上的一项最新研究,他们开发了一种由柔软的人造肌肉驱动的机器人蜜蜂(RoboBee),这种机器人在撞墙、 ...

苹果AI主管透露自动驾驶汽车项目关于机器学习方面的进展
苹果AI主管透露自动驾驶汽车项目关于机器学习方面的进展

[2017-12-11]  苹果隐秘的自动驾驶汽车项目多年来一直在转移焦点,但今年似乎正在加速。 4月份,公司获得了在加利福尼亚州进行自动驾驶汽车测试的许可证,而在6月份,苹果公司首席执行官库......

为未来战场创造更有效的机器人 美国陆军研究人工纳米马达
为未来战场创造更有效的机器人 美国陆军研究人工纳米马达

[2019-10-11]  为了使机器人在战斗中更有效、更多才多艺地成为士兵的战友,美国陆军研究人员正在执行一项任务,即研究肌肉分子生命功能的价值,以及复制过 ...

本周栏目热点

[1970-01-01]   这可能是未来最具发展潜力的职业之一,我们从职场角度为你解读如何成为 大数据 工程师,以及它的职业发展 ...

从Facebook社交媒体情绪实验看大数据道德困境

[1970-01-01]   今年曝光的Facebook私自进行社交媒体用户情绪实验的新闻引起了不小的争议,这把很多数据实验卷入到社会 ...

大数据时代的美国隐私权保护制度

[1970-01-01]   2014年5月,美国总统执行办公室(Executive Office of the President)发布2014年全球大数据白皮书 ...

那些年,曾经被我们误读的大数据

[1970-01-01]   如今,业界和学术界一直在热议大数据,不管是学术圈还是IT圈,只要能谈论点儿大数据就显得很高大上。然 ...

未来农业将在田里处理大数据

[1970-01-01]   基普·汤姆(Kip Tom)是第7代家庭农场主,他的农场种植的主要农作物是玉米和大豆,他同时也在进行玉 ...