《大数据时代:生活、工作与思维的大变革》作者之一维克托·迈尔-舍恩伯格曾表示,如同望远镜让人类能够感知宇宙,显微镜让人类能够观测微生物一样,大数据开启了一次重大的时代转型。
大数据,可谓当下IT领域最时髦的词,简单说就是从各种数据中快速获取价值信息的能力。
美国是最早发现和使用大数据科学价值的国家。2012年3月,奥巴马政府宣布投资2亿美元拉动大数据相关产业发展,将“大数据战略”上升为国家战略,奥巴马政府甚至将大数据定义为“未来的新石油”。当时美国政府声明说通过提高美国从大型复杂的数据集中提取知识和管理的能力,来加强整个国家的竞争力,这被认为是跟互联网同一个级别的时代。显然,大数据不止是一个词汇,更是一门技术,是一个产业时代。
而中国作为世界上人口最多、GDP排名第二的国家,成立大数据国家队是非常及时的。大数据的精髓在于“大”,它不是抽样而是全样,它不是盲人摸到的象腿或者是象鼻子,而是整个大象本身,大数据的精妙处在于用的人越多越增持,通过这样一个模糊的宏观判断,能够完成一个精准的个体推荐,从而会让整个生产效率得到极大提高。
不过作为一个新生领域,尽管大数据意味着大机遇,拥有巨大的应用价值,但同时也遭遇工程技术、管理政策、人才培养、资金投入等诸多领域的大挑战。只有解决这些基础性的挑战问题,才能充分利用这个大机遇,让大数据为企业为社会充分发挥的最大价值与贡献。
挑战一:数据来源错综复杂
丰富的数据源是大数据产业发展的前提。而我国数字化的数据资源总量远远低于美欧,每年新增数据量仅为美国的7%,欧洲的12%,其中政府和制造业的数据资源积累远远落后于国外。就已有有限的数据资源来说,还存在标准化、准确性、完整性低,利用价值不高的情况,这大大降低了数据的价值。
现如今,几乎任何规模企业,每时每刻也都在产生大量的数据,但这些数据如何归集、提炼始终是一个困扰。而大数据技术的意义确实不在于掌握规模庞大的数据信息,而在于对这些数据进行智能处理,从中分析和挖掘出有价值的信息,但前提是如何获取大量有价值的数据。
未来,数据采集是一个很大的市场,因为分析的数据模型可以根据需求和思维做,但所有的前提是你的数据采集要准,现在的问题一个是采集不到,一个是采集错了,还有一个是采集效率受到网络带宽限制,这几个都做不到的话数据价值很难用起来。
大数据时代,我们需要更加全面的数据来提高分析预测的准确度,因此我们就需要更多便捷、廉价、自动的数据生产工具。除了我们在网上使用的浏览器有意或者无意记载着个人的信息数据之外,手机、智能手表、智能手环等各种可穿戴设备也在无时无刻地产生着数据;就连我们家里的路由器、电视机、空调、冰箱、饮水机、净化器等也开始越来越智能并且具备了联网功能,这些家用电器在更好地服务我们的同时,也在产生着大量的数据;甚至我们出去逛街,商户的WIFI,运营商的3G网络,无处不在的摄像头电子眼,百货大楼的自助屏幕,银行的ATM,加油站以及遍布各个便利店的刷卡机等也都在产生着数据。
随着移动互联、云计算等技术的飞速发展,无论何时何地,手机等各种网络入口以及无处不在的传感器等,都会对个人数据进行采集、存储、使用、分享,而这一切大都是在人们并不知晓的情况下发生。你的一举一动、地理位置、甚至一天去过哪些地方,都会被记录下来,成为海量无序数据中的一个数列,和其他数据进行整合分析。
比如,当你用手机扫描二维码,并将其用微博转发的时候,你的消费习惯、偏好,甚至你的社交圈子的信息,就已经被商家的大数据分析工具捕获。大数据平台在提供服务的同时,也在时刻收集着用户的各种个人信息:消费习惯、阅读习惯甚至生活习惯。这些数据,一方面给人们带来了诸多便利,但另一方面,由于数据的管理还存在漏洞,那些发布出去或存储起来的海量信息,也很容易被监视、被窃龋
大数据散发出不可估量的商业价值。但让人感到不安的是,信息采集手段越来越高超、便捷和隐蔽,对公民个人信息的保护,无论在技术手段还是法律支撑都依然捉襟见肘。人们面临的不仅是无休止的骚扰,更可能是各种犯罪行为的威胁。大数据时代,谁来保护公民的个人隐私?既是每个人都应当思考的问题,也是政府部门不可推卸的责任。
挑战二:数据挖掘分析模型建立
步入大数据时代,人们纷纷在谈论大数据,似乎这已经演化为新的潮流趋势。数据比以往任何时候都更加根植于我们生活中的每个角落。我们试图用数据去解决问题、改善福利,并且促成新的经济繁荣。人们纷纷流露出去大数据的高期待以及对大数据分析技术的格外看好。然而,关于大数据分析,人们鼓吹其神奇价值的喧嚣声浪很高,却鲜见其实际运用得法的模式和方法。造成这种窘境的原因主要有以下两点:一是对于大数据分析的价值逻辑尚缺乏足够深刻的洞察;其次便是大数据分析中的某些重大要件或技术还不成熟。大数据时代下数据的海量增长以及缺乏这种大数据分析逻辑以及大数据技术的待发展,正是大数据时代下我们面临的挑战。
大数据的大,一般人认为指的是它数据规模的海量。随着人类在数据记录、获取及传输方面的技术革命,造成了数据获得的便捷与低成本,这便使原有的以高成本方式获得的描述人类态度或行为的、数据有限的小数据已然变成了一个巨大的、海量规模的数据包。这其实是一种片面认识。其实,前大数据时代也有海量的数据集,但由于其维度的单一,以及和人或社会有机活动状态的剥离,而使其分析和认识真相的价值极为有限。大数据的真正价值不在于它的大,而在于它的全面:空间维度上的多角度、多层次信息的交叉复现;时间维度上的与人或社会有机体的活动相关联的信息的持续呈现。