爱吧机器人网 » 技术 > 大数据 > 正文

从大数据到小数据,数据之坑与美

当然,Antony Rowstron的这篇论文 意不在此 ,文中的主要诉求是,既然我们日常处理的数据没有那么大到 不成体统 ,就没有必要把某台机器的性能指标一味地纵向扩展(scale up),比如把内存从8G升级为16GB,32GB,64GB,甚至更高,而是应该选择更加 经济实惠 的横向扩展(Scale out)策略,比如将若干个8GB低配置的机器连接在一起,组成一个廉价的集群(cluster),然后利用Hadoop将集群用起来,所以这篇论文的标题是 没有人会因在集群上使用Hadoop而被解雇(Nobody ever got fired for using Hadoop on a cluster) ,言外之意,在目前大数据语境下,使用 类Hadoop(Hadoop-like) 工具分析大数据是未来主流的趋势之一,就业市场一片光明。

从上面的分析可以看出,我们不否认,大数据是前沿,但我们更不能对目前的现状熟视无睹 小数据依然是主流。目前大多数公司、企业其实仍处于 小数据 处理阶段。但只要在纵向上有一定的时间积累,在横向上有较丰富的记录细节,通过多个源头对同一个对象采集的各种数据有机整合,实施合理的数据分析,就可能产生大价值。基于此,李国杰院士指出,在大数据时代,我们是不能抛弃 小数据 的[9]。

对精确的追求,历来是传统的小数据分析的强项,这在一定程度上弥补大数据的 混杂性 缺陷。犹如有句歌词唱得那样: 结识新朋友,不忘老朋友 。在大数据时代,我们也不能忘记小数据。大数据有大数据的力量,小数据有小数据的美。下面我们就聊聊这个话题。

4.你若安好,便是晴天 小数据之美

小数据,其实是大数据的一个有趣侧面,是其众多维度的一维。有时,我们需要大数据的全维度可视,周涛教授甚至把 全息可见 作为大数据的特征,而这个特征在对用户数字 画像 时,非常有用,因为这样做,非常有利于商家推广 精准营销 。

在这里,我们再次强调托马斯 克伦普的哲学观 数据的本质是人。技术也是为人服务的。对于 普罗大众 而言,有时,我们并不希望自己被数字化,被全息透明化,这就涉及到个人隐私问题了。如果大数据技术侵犯个人的隐私,让受众不开心了,那这个技术就应该有所限制和规范,但这不在本文的讨论范围,就不展开说了。

流行的 大数据 定义是: 无法通过目前主流软件工具在合理时间内采集、存储、处理的数据集 。我们很容易反其道而用之,定义出 小数据(small data) , 通过目前主流软件工具可以在合理时间内采集、存储、处理的数据集 。这就是传统意义上的小数据,经典的数理统计和数据挖掘知识,可以较好地解决这类问题。这个范畴的小数据,属于老生常谈,所以本文不谈。

我们下文讨论的小数据,是一类新兴的数据,它是围绕个人为中心全方位的数据,是我们每个个体的数字化信息,因此,也有人称之为 iData 。这类小数据跟大数据的根本区别在于,小数据主要以单个人为研究对象,重点在于深度,对个人数据深入的精确的挖掘,对比而言,大数据则侧重在某个领域方面,在大范围、大规模全面数据收集处理分析, 侧重在于广度。

小数据是大数据的某个侧面,事实上,很多时候,对于个人而言,这个所谓的侧面就有可能是特定个人的全面。当大数据受万人瞩目时,创新技术(如智能手机、智能手环及智能体育等)也让小数据 个人的自我量化(Quantified Self,QS), 面朝大海,春暖花开 。

个人量化,可以测量、跟踪、分析我们日常生活中点点滴滴。比如,今天的早餐我摄入了多少卡路里?围着操场跑一圈我消耗了多少热量,在手机的某个App(如微信)上我耗费了多少时间?等等诸如此类。在某种程度上,是小数据,而非大数据,才是我们生活的帮手。 小数据 不比大数据那样浩瀚繁杂,却对我自己至关重要。下面我们用两个小案例来说明小数据的应用

先说一个稍微高大上的案例。据科技记者Emily Waltz在IEEE Spectrum的撰文指出[20],目前佩戴在运动员身上生物小配件(Biometric gadget,通常指传感器),正在改变世界精英级运动员的训练方式。这些可穿戴传感器设备,提供实时的生理参数,而在以前,倘若要获取这样的数据,需要笨重和昂贵的实验室设备。如同40年前,风靡一时的负重训练方案,可让运动员更有韧性,可穿戴装备能帮助运动员提高成绩并同时避免受伤。一些棒球手、自行车运动员和橄榄球等竞技运动员用新装备寻求优势。

\图11 运动员利用可穿戴设备训练美式橄榄球(图片来源:IEEE)

例如,在如图11所示的装备中,运动员身上的传感器能够精确记录在室内外场馆的运动特征。这些自我量化设备,可放置于运动员背部的压缩衣中,它能够监控运动员的加速、减速、方向改变以及跳跃高度和运动距离等指标。教练员能够通过监控数据,来检测每个运动员训练强度,并防止过度训练所带来的伤害。这些自我量化设备的工作原理是,协同使用很多小设备,如加速计、磁力计、陀螺仪、GPS接收仪等 这些设备每秒能够产生100个数据点。通过无线连接,计算机可以实时采集这些数据。个人量化分析软件,可对运动特征和特定位置实施分析,计算机专家系统中的算法,可以检测到运动员在做对了什么、做错了什么,基于此,教练可以给出更加有针对性的训练。目前此类设备的使用者,包括一半以上的NFL(橄榄球联盟)、三分之一的NBA运动员、一半以上的英超球队以及世界各地的足球队、橄榄球队和划船运动队等。

自我量化设备(可穿戴设备)通常是和物联网(Internet of things,IoT)是有关联的。而现在还处于炒作巅峰的物联网(如图8所示),通常是和大数据扯到一起的,但是就某个具体的物联网设备而言,它一定先是产生少量的甚至是微量的数据,也就是说,物联网首先是小数据,然后才能汇集成大数据。沃顿商学院教授、纽约时报最佳畅销书作者乔纳 伯杰(Jonah Berger)推测[21],个人的自我量化数据,或许将会是大数据革命中下一个演进方向。由此可见,大、小数据之间并无明显的界限。再大的数据也是人们一点一滴聚沙成塔、集腋成裘的。没有小数据的积少成多、百川归海,大数据也是无源之水、无本之木。

上一页12345678下一页

上一篇:傅志华:大数据应用在中国的创业机会
下一篇:大数据将怎样改写人才命运
精选推荐
2018年企业数字化转型的五大趋势
2018年企业数字化转型的五大趋势

[2017-12-16]  据2016年哈佛商学院研究表明,选择进行数字化转型的企业在3年内表现出了55%的平均毛利润提升,相比之下其他企业毛利润同期降低了37%。数字化转型企业的领头羊,也曾是收入处于......

基于生物启发的机器人很容易适应丢失附属器官
基于生物启发的机器人很容易适应丢失附属器官

[2017-12-17]  很多机器人被设计应用在危险环境,如灾难现场。在这些地方,他们的运动系统完全有可能被损坏。那这样会吓跑这些机器人吗?也许不是,如果它们像日本的东北和北海道大学创造的......

美国Natilus公司试飞水上无人货机 设计简单成本降低
美国Natilus公司试飞水上无人货机 设计简单成本降低

[2017-12-28]  Natilus创业公司成立于2014年,其梦想是建造大型无人机,以半价提供比船舶快得多国际货运。在十二月份,Natilus计划在旧金山湾测试一个9米翼展的小型原型无人机的水上滑行能力......

亚马逊计划建一个4000万美元的机器人中心
亚马逊计划建一个4000万美元的机器人中心

[2019-11-07]  爱吧机器人网消息,亚马逊11月6日宣布了一项计划,计划在美国马萨诸塞州韦斯特伯勒建立一个4000万美元、35万平方英尺的机器人创新中心。新 ...

搭载人工智能的太空机器人CIMON 2乘SpaceX抵达国际空间站
搭载人工智能的太空机器人CIMON 2乘SpaceX抵达国际空间站

[2019-12-09]  12月5日,搭载人工智能的太空机器人西蒙2号(CIMON 2)乘坐SpaceX火箭Dragon货运舱,从佛罗里达州卡纳维拉尔角空军基地升空,前往国际空间 ...

2022年全球工业机器人市场将达到790亿美元
2022年全球工业机器人市场将达到790亿美元

[2017-09-04]  预计到 2022年, 全球工业机器人市场将达到790亿美元, 并在预测期内登记11 5% 的复合年增长率。随着发展中国家中小型企业需求的不断增长, 采用自动化技术以确保生产质量......

这个外科手术机器人可以为患者“量身定制”
这个外科手术机器人可以为患者“量身定制”

[2019-07-12]  世界首创,来自澳大利亚机器人视觉研究中心的研究人员正在推动手术机器人的发展边界,他们创造了可定制的、小型化的手术机器人,能够唯一地 ...

受大脑控制的机器人
受大脑控制的机器人

[2017-03-21]   想让机器人做我们想做的,首先,他得全面地了解我们。通常,这就意味着人类需要要付出更多。比如,教机器人复杂的人类语言或者把一项任务 ...

本周栏目热点

[1970-01-01]   这可能是未来最具发展潜力的职业之一,我们从职场角度为你解读如何成为 大数据 工程师,以及它的职业发展 ...

从Facebook社交媒体情绪实验看大数据道德困境

[1970-01-01]   今年曝光的Facebook私自进行社交媒体用户情绪实验的新闻引起了不小的争议,这把很多数据实验卷入到社会 ...

大数据时代的美国隐私权保护制度

[1970-01-01]   2014年5月,美国总统执行办公室(Executive Office of the President)发布2014年全球大数据白皮书 ...

那些年,曾经被我们误读的大数据

[1970-01-01]   如今,业界和学术界一直在热议大数据,不管是学术圈还是IT圈,只要能谈论点儿大数据就显得很高大上。然 ...

未来农业将在田里处理大数据

[1970-01-01]   基普·汤姆(Kip Tom)是第7代家庭农场主,他的农场种植的主要农作物是玉米和大豆,他同时也在进行玉 ...