爱吧机器人网 » 技术 > 大数据 > 正文

从大数据到小数据,数据之坑与美

但如同中国那句老话说的, 一屋不扫,何以扫天下 ,如果小数据都不能很好地处理,如何来很好地处理 汇集 而来的 大数据 ?

说完高大上的案例,下面我们再聊聊一个 平淡无奇 生活小案例[22]:

故事的主人是美国康奈尔大学教授德波哈尔 艾斯汀(Deborah Estrin)。Estrin的父亲于2012年去世了,而早在父亲去世之前的几个月里,这位计算机科学教授就注意到一些 蛛丝马迹 , 相比从前,父亲在数字社会脉动(social pulse)中,已有些许变化 他不再查阅电子邮件,到附近散步的距离也越来越短,也不去超市买菜了。

然而,这种逐渐衰弱的迹象,在他去医院进行的常规心脏病(cardiologist)体检中,不一定能看出来。不管是测脉搏,还是查病历,这位90岁的老人都没有表现出特别明显的异常。可事实上,倘若追踪他每时每刻的个体化数据,这些数据虽小,但也足够刻画好出,老人的生活其实已然明显与之前不同。

这种日常自我量化的小数据,带来了生命讯息的警示和洞察,启发了这位计算机科学教授,促使Estrin在康奈尔大学创建创建了 小数据实验(the small data lab @CornellTech,访问链接:https://smalldata.io/) 。在Estrin看来,小数据可以看作是一种新的医学证据,它仅是 他们的数据中属于你的那一行(your row of their data) [23] 。

舍恩伯格教授在其著作《 大数据 时代》中,将 大数据 定义为全数据(即n=All,n为数据的大小),其旨在收集和分析与某事物相关的 全部 数据。类似的, Estrin将小数据定义为: small data where n=me ,它表示,小数据就是全部有关于我(me)的数据[24]。

如此一来,可以看出,小数据更加 以人为本 ,它可以为我们提供更多研究的可能性:能不能通过分析年老父母的集成数据,进而获得他们的健康信息?能不能通过这些集成数据,比较不同的医学治疗方案?如果这些能实现, 你若安好,便是晴天 ,便不再是一句空洞的 文艺腔 ,而是一席 温情脉脉 的期望。

人,是一切数据存在的根本。人的需求是所有 科技 变革发展的动力。可以预见,不远的将来,数据革命下一步将进入以人为本的小数据的大时代。当然,这并非说 大数据 就不重要。一般来说,从 大数据 得到规律,用小数据去匹配个人。吴甘沙先生用《一代宗师》的台词来比拟大、小数据的区分,倒也甚是恰当。他说,小数据 见微 ,作个人刻画,可用《一代宗师》中 见自己 形容之;而 大数据 知著 ,反映自然和群体的特征和趋势,可用《一代宗师》中的 见天地、见众生 比喻之。

著名 科技 史学家马尔文 克兰兹伯格(Melvin Kranzberg)提出的 克兰兹伯格第一定律 指出, 技术既无好坏,亦非中立 ,即技术确实是一种力量,但 与社会生态技术的相互作用,使得技术发展经常有问题,远远超出了技术设备的直接目的和实践自己的环境,人类释放出来的技术力量与人类本身互动的复杂矩阵,都是有待探索的问题,而非必然命运 。

前面我们说道 大数据 可能存在数据 安全 及隐私问题,事实上,小数据同样存在类似的问题,甚至更为严峻。我们应清楚,诸如 大数据 、小数据的 科技 ,既可以为公众谋福利,也可能对人造成伤害。关键就是,如何在机遇与挑战间寻找到最佳的平衡。

5.小结

在数据的江湖里,既有波澜壮阔的 大数据 ,也有细流涟漪的小数据,二者相辅相成,才能相映生辉。美国电子电气工程师协会会士(IEEE Fellow)、中国科学院计算技术研究所研究员闵应骅表示[25]:目前 大数据 流行,人们就 言必称 大数据 ,这不是做学问的态度,不要碰到大量的数据,就给它戴上一顶帽子 大数据 。目前,各行各业碰到的数据处理多数还是 小数据 问题。不管是 大数据 还是小数据,我们应该敞开思想,研究实际问题,切忌空谈,精准定位碰到的数据业务问题,以应用为导向,而非以技术为导向,不要哪个技术热,追逐哪个。

《Fierce Big Data》编辑Pam Baker表明[26],当你在寻思如何抉择 大数据 ,还是小数据时,先搁置这事儿。思量一下,你的公司是否擅长利用数据创造价值,如果你的公司还没有达到这个境界,那先把这事解决了再说。

前中信银行行长、中信集团监事长朱小黄也曾说[27]: 数据本无大小,但运用数据的立场却分大小,是谓 大数据 。深以为然。

在京剧《沙家浜》有句经典唱词: 垒起七星灶,铜壶煮三江。摆开八仙桌,招待十六方 。如果 大数据 、小数据是这 八仙桌 上的菜,来自 十六方 的您,在下口之前,一定要先确定,哪道才是你的菜,不然花了冤枉钱,还没有吃好,那可就 整个人都不好了 。

参考文献

[1]Kranzberg, Melvin . Technology and History: "Kranzberg's Laws", Technology and Culture, Vol. 27, No. 3, pp. 544 560. 1986

[2] Eric Lai.The '640K' quote won't go away -- but did Gates really say it?

[3]维克托 迈尔 舍恩伯格, 肯尼思 库克耶. 盛杨燕,周涛译. 大数据 时代[M].浙江人民出版社.杭州,2013

[4] 周涛.什么是 大数据 ?科学网博客. https://blog.sciencenet.cn/blog-3075-603325.html

[5] Seth Grimes. InformationWeek. Structure, Models and Meaning : is "unstructured" data merely unmodeled?

[6] 李国杰. 对 大数据 的再认识[J]. 大数据 , 2015, 1(1): 2015001.

[7] Thomas Crump. The Anthropology of Numbers (Cambridge Studies in Social and Cultural Anthropology) .Cambridge University Press, 1992

[8]吕乃基. 大数据 与认识论[J]. 中国软科学, 2014, (9):34-45. DOI:10.3969/j.issn.1002-9753.2014.09.004.

上一页12345678下一页

上一篇:傅志华:大数据应用在中国的创业机会
下一篇:大数据将怎样改写人才命运
精选推荐
通过对抗性图像黑入大脑
通过对抗性图像黑入大脑

[2018-03-02]  在上面的图片中,左边是一张猫的照片。在右边,你能分辨出它是同一只猫的图片,还是一张看起来相似的狗的图片?这两张图片之间的区别在于, ...

英伟达用联合学习创建医学影像AI 可共享数据和保护隐私
英伟达用联合学习创建医学影像AI 可共享数据和保护隐私

[2019-10-14]  英伟达(Nvidia)和伦敦国王学院(King’s College London)的人工智能研究人员利用联合学习训练了一种用于脑肿瘤分类的神经网络, ...

机器人工程师具体都做什么?
机器人工程师具体都做什么?

[2017-12-08]  机器人工程师是幕后设计师,负责创建机器人和机器人系统,能够执行人类无法完成或不愿意完成的任务。 通过他们的创造,机器人工程师帮助工作更安全,更轻松,更高效,特别是......

搭载人工智能的太空机器人CIMON 2乘SpaceX抵达国际空间站
搭载人工智能的太空机器人CIMON 2乘SpaceX抵达国际空间站

[2019-12-09]  12月5日,搭载人工智能的太空机器人西蒙2号(CIMON 2)乘坐SpaceX火箭Dragon货运舱,从佛罗里达州卡纳维拉尔角空军基地升空,前往国际空间 ...

助力卷积神经网络时空特征学习 史上最大行人重识别视频数据集被提出
助力卷积神经网络时空特征学习 史上最大行人重识别视频数据集被提出

[2017-12-25]  本文提出了一个大型的、长序列的、用于行人重识别的视频数据集,简称LVreID。与现有的同类数据集相比,该数据集具有以下特点:1)长序列:平均每段视频序列长为200帧,包含丰......

从AI中窥探人性
从AI中窥探人性

[2018-01-03]  人们对人造智能的恐惧早已成为科幻书籍和电影的极好题材。但现在,一些同样的担忧开始影响关于现实世界AI技术的政策讨论。如果这样的担忧演变成为一种技术恐慌...

谷歌大脑发布ROBEL基准 鼓励用低成本机器人训练AI系统
谷歌大脑发布ROBEL基准 鼓励用低成本机器人训练AI系统

[2019-10-11]  训练AI系统的机器人D& 39;Claw和D& 39;Kitty用于控制机器人的人工智能系统,测量其性能所使用的基准通常仅限于为工业环境设计的昂贵硬件, ...

麻省理工最新机器人“装配工”未来可建造太空基地
麻省理工最新机器人“装配工”未来可建造太空基地

[2019-10-17]  两个机器人原型把一系列小单元组装成大结构体麻省理工学院科研人员最近提出一种新型机器人技术,即一种小型机器人系统,能够自主地用统一规 ...

本周栏目热点

[1970-01-01]   这可能是未来最具发展潜力的职业之一,我们从职场角度为你解读如何成为 大数据 工程师,以及它的职业发展 ...

从Facebook社交媒体情绪实验看大数据道德困境

[1970-01-01]   今年曝光的Facebook私自进行社交媒体用户情绪实验的新闻引起了不小的争议,这把很多数据实验卷入到社会 ...

大数据时代的美国隐私权保护制度

[1970-01-01]   2014年5月,美国总统执行办公室(Executive Office of the President)发布2014年全球大数据白皮书 ...

那些年,曾经被我们误读的大数据

[1970-01-01]   如今,业界和学术界一直在热议大数据,不管是学术圈还是IT圈,只要能谈论点儿大数据就显得很高大上。然 ...

未来农业将在田里处理大数据

[1970-01-01]   基普·汤姆(Kip Tom)是第7代家庭农场主,他的农场种植的主要农作物是玉米和大豆,他同时也在进行玉 ...