比如说每家运营商都握有几乎所有网民的行动数据,但要想让运营商彼此间开诚布公的合作把这些数据整合在一起创造某种价值,这就很难。这时候如果有第三方介入,制定好利益分配方案那就是可能的。
如果这点可以达成,那唯一的关键点就是相应的商业模式是不是可以超越数据处理的成本。这点必须强调下的是, 大数据 的价值密度是很稀疏的,很多东西有价值但并不一定值得做,视频网站之所以赚不到钱一个关键原因就是带宽和存储的成本比较高,而对 大数据 而言商业模式找不好,情形可能比视频网站还差。挖矿的成本怎么也要小于挖矿所得挖矿才有价值。
上述问题在行业数据里可能问题还不是太大,一般来讲行业数据的价值密度终究会大一些,并且因为相对比较垂直,总量终究有限制。所以 大数据 的行业应用比较容易发展。
但对社会性的数据,这在很多时候就是个问题。我们都知道样本的全面性比数据的多少更有价值,但是如果多是确保样本全面性的唯一手段的话,那就意味必须有全的数据做一件事情才有意义。
社会化的数据有两种应用方向,一种就是企业可以搞定的比如Google,一种则是属于社会层面,很难单独属于某个企业的比如 智慧城市 相关的人的活动数据。后者则需要上面所说的数据公地来做支撑。
从数据的视角来看,现在有两种数据存放形式:一种是Google这样的企业拥有整个社会某个横截面上的全部数据,这应该是种特例,并且数据会局限在公开信息;一种则是被割裂的各种与人行为相关的数据,比如购物相关的在电商,与人相关的在社交网络和IM,线下服务相关的则在O2O企业,铁路相关的在12306等。Google这种拥有全的数据,但并不拥有人的行为,所以说Google这种企业相当于拥有整个社会的一个横截面的数据。而所有其它企业则只拥有某个垂直领域的数据。
如果依赖于企业做这种数据统一的尝试,在前者就会有投资200亿做O2O类的举动,因为这会补全数据,在后者就会有做电商的想做社交,做社交的想做电商这类事发生。类似的故事还可以在终端上发生,所有这些行为的终极目标都是一家企业搞定所有这些事情,但这是不可能的,这种不可能还不单是经济原因。而数据不能打通,那就只能在割裂的数据上做自以为是 大数据 的 大数据 。
所以说这骨子里是数据公地究竟能不能建立的问题,而要想建立数据公地,那至少要解决谁来做的问题,对此开源给出的启示有两点非常关键:第一这不能是个盈利组织;第二这要能获得众多企业的支持。因为数据会牵涉隐私,所以同开源相比那就一定还要有比较清晰的界定数据使用的规则。
小结
在有一种切实的办法解决数据所有和使用权之前, 大数据 的应用应该还都是局部的。因为它的深度应用牵涉社会很多部分的彼此协调,所以这个过程可能是非常漫长的。这里面有意思的事情是, 大数据 的出现直接推动了机器智能的发展,而机器智能产生影响的速度可能会远快于 大数据 本身。