但如同中国那句老话说的, 一屋不扫,何以扫天下 ,如果小数据都不能很好地处理,如何来很好地处理 汇集 而来的 大数据 ?
说完高大上的案例,下面我们再聊聊一个 平淡无奇 生活小案例[22]:
故事的主人是美国康奈尔大学教授德波哈尔 艾斯汀(Deborah Estrin)。Estrin的父亲于2012年去世了,而早在父亲去世之前的几个月里,这位计算机科学教授就注意到一些 蛛丝马迹 , 相比从前,父亲在数字社会脉动(social pulse)中,已有些许变化 他不再查阅电子邮件,到附近散步的距离也越来越短,也不去超市买菜了。
然而,这种逐渐衰弱的迹象,在他去医院进行的常规心脏病(cardiologist)体检中,不一定能看出来。不管是测脉搏,还是查病历,这位90岁的老人都没有表现出特别明显的异常。可事实上,倘若追踪他每时每刻的个体化数据,这些数据虽小,但也足够刻画好出,老人的生活其实已然明显与之前不同。
这种日常自我量化的小数据,带来了生命讯息的警示和洞察,启发了这位计算机科学教授,促使Estrin在康奈尔大学创建创建了 小数据实验(the small data lab @CornellTech,访问链接:https://smalldata.io/) 。在Estrin看来,小数据可以看作是一种新的医学证据,它仅是 他们的数据中属于你的那一行(your row of their data) [23] 。
舍恩伯格教授在其著作《 大数据 时代》中,将 大数据 定义为全数据(即n=All,n为数据的大小),其旨在收集和分析与某事物相关的 全部 数据。类似的, Estrin将小数据定义为: small data where n=me ,它表示,小数据就是全部有关于我(me)的数据[24]。
如此一来,可以看出,小数据更加 以人为本 ,它可以为我们提供更多研究的可能性:能不能通过分析年老父母的集成数据,进而获得他们的健康信息?能不能通过这些集成数据,比较不同的医学治疗方案?如果这些能实现, 你若安好,便是晴天 ,便不再是一句空洞的 文艺腔 ,而是一席 温情脉脉 的期望。
人,是一切数据存在的根本。人的需求是所有 科技 变革发展的动力。可以预见,不远的将来,数据革命下一步将进入以人为本的小数据的大时代。当然,这并非说 大数据 就不重要。一般来说,从 大数据 得到规律,用小数据去匹配个人。吴甘沙先生用《一代宗师》的台词来比拟大、小数据的区分,倒也甚是恰当。他说,小数据 见微 ,作个人刻画,可用《一代宗师》中 见自己 形容之;而 大数据 知著 ,反映自然和群体的特征和趋势,可用《一代宗师》中的 见天地、见众生 比喻之。
著名 科技 史学家马尔文 克兰兹伯格(Melvin Kranzberg)提出的 克兰兹伯格第一定律 指出, 技术既无好坏,亦非中立 ,即技术确实是一种力量,但 与社会生态技术的相互作用,使得技术发展经常有问题,远远超出了技术设备的直接目的和实践自己的环境,人类释放出来的技术力量与人类本身互动的复杂矩阵,都是有待探索的问题,而非必然命运 。
前面我们说道 大数据 可能存在数据 安全 及隐私问题,事实上,小数据同样存在类似的问题,甚至更为严峻。我们应清楚,诸如 大数据 、小数据的 科技 ,既可以为公众谋福利,也可能对人造成伤害。关键就是,如何在机遇与挑战间寻找到最佳的平衡。
5.小结
在数据的江湖里,既有波澜壮阔的 大数据 ,也有细流涟漪的小数据,二者相辅相成,才能相映生辉。美国电子电气工程师协会会士(IEEE Fellow)、中国科学院计算技术研究所研究员闵应骅表示[25]:目前 大数据 流行,人们就 言必称 大数据 ,这不是做学问的态度,不要碰到大量的数据,就给它戴上一顶帽子 大数据 。目前,各行各业碰到的数据处理多数还是 小数据 问题。不管是 大数据 还是小数据,我们应该敞开思想,研究实际问题,切忌空谈,精准定位碰到的数据业务问题,以应用为导向,而非以技术为导向,不要哪个技术热,追逐哪个。
《Fierce Big Data》编辑Pam Baker表明[26],当你在寻思如何抉择 大数据 ,还是小数据时,先搁置这事儿。思量一下,你的公司是否擅长利用数据创造价值,如果你的公司还没有达到这个境界,那先把这事解决了再说。
前中信银行行长、中信集团监事长朱小黄也曾说[27]: 数据本无大小,但运用数据的立场却分大小,是谓 大数据 。深以为然。
在京剧《沙家浜》有句经典唱词: 垒起七星灶,铜壶煮三江。摆开八仙桌,招待十六方 。如果 大数据 、小数据是这 八仙桌 上的菜,来自 十六方 的您,在下口之前,一定要先确定,哪道才是你的菜,不然花了冤枉钱,还没有吃好,那可就 整个人都不好了 。
参考文献
[1]Kranzberg, Melvin . Technology and History: "Kranzberg's Laws", Technology and Culture, Vol. 27, No. 3, pp. 544 560. 1986
[2] Eric Lai.The '640K' quote won't go away -- but did Gates really say it?
[3]维克托 迈尔 舍恩伯格, 肯尼思 库克耶. 盛杨燕,周涛译. 大数据 时代[M].浙江人民出版社.杭州,2013
[4] 周涛.什么是 大数据 ?科学网博客. https://blog.sciencenet.cn/blog-3075-603325.html
[5] Seth Grimes. InformationWeek. Structure, Models and Meaning : is "unstructured" data merely unmodeled?
[6] 李国杰. 对 大数据 的再认识[J]. 大数据 , 2015, 1(1): 2015001.
[7] Thomas Crump. The Anthropology of Numbers (Cambridge Studies in Social and Cultural Anthropology) .Cambridge University Press, 1992
[8]吕乃基. 大数据 与认识论[J]. 中国软科学, 2014, (9):34-45. DOI:10.3969/j.issn.1002-9753.2014.09.004.