我们接着看看这张曲线图是信息时代的增长,其实工业革命前(1820 年),世界人均 GDP 在 1800 年前的两三千年里基本没变化,而从 1820 年到 2001 年 180 年里,世界人均 GDP 从原来 667 美元增长到 6049 美元。
由此足见,工业革命带来的收入增长的确翻天覆地。这里面发生了什么?大家可以思考一下。但人类的进步,并没停止或者说稳步增长,在发明了电力、电脑、互联网、移动互联网,全球年 GDP 增长 从万分之 5 到 2%,信息也是在急剧增长。根据计算,最近两年信息量是之前 30 年总和,最近 10 年是远超人类所有之前累计信息量之和。
在计算机时代,有个著名摩尔定律,就是说同样成本每隔 18 个月晶体管数量会翻倍,反过来,同样数量晶体管成本会减半。这个规律已经很好匹配了最近 30 年的发展,并且可以衍生到很多类似领域:存储、功耗、带宽、像素。
而最下面这个头像是冯诺伊曼,20 世纪最重要数学家之一,在现代计算机、博弈论和核武器等诸多领域有杰出建树的最伟大科学全才之一。他提出技术会逼近人类历史上某种本质的奇点,在那后,全部人类行为都不可能以我们熟悉的面貌继续存在。
这就是著名的“奇点理论”,目前会呈越来越快的指数性增长,美国未来学家 Ray Kurzweil 称:人类能在 2045 年实现数字化永生,他自己也创办奇点大学,相信随信息技术、无线网、生物、物理等领域的指数级增长,将在 2029 年实现人工智能,人的寿命也将会在未来 15 年得到大幅延长。
我们再回到现在,地球上至今的数据量从 GB、TB、PB、EB 到达 ZB,我们之前提出的 2^64 就相当于 16EB 的大校
大数据有什么用?
所谓“学以致用”,大数据领域在各行业都可以应用,这里举几个有趣的例子。在 Linkedin 时,CEO 提出“经济图谱”的概念,希望整合用户、公司、工作机会、技能、学校和帖子变成一个复杂而有蕴含无限可能的数字化社会。
比如说找对象,有个国外极客,他抓取约会网站的数据,根据一些指标如地理、年龄、兴趣,建立下面的 3D 模型找到真爱;又如阿里巴巴通过数据魔方(它们的大数据产品),提炼出消费跟女生胸部成正比的结论。
在移动 App 上,今日头条通过你的个人社会化信息,建起兴趣图谱推荐文章并随你的使用会越来越聪明;在线教育领域:MOOC 中的 M 就是大规模的意思;其他如互联网金融人人贷,通过大数据积累信用,释放一些传统金融体系下未被满足而又广泛存在的巨大需求,最近也是拿到 1.3 亿美金融资。硅谷有家 Wealthfront 做大数据理财,23andMe 提供个人基因组的“大数据”等等。
大数据公司列表
下面是 2014 年别人总结的大数据公司列表,我们大致可以分成基础架构和应用,而底层都是会用到一些通用技术,如 Hadoop、Mahout、HBase 和 Cassandra,我在下面也会涵盖。
我可以举几个例子,在分析这块,Cloudera、hortonworks、mapr 作为 Hadoop 三剑客,一些运维领域,mangodb、couchbase 都是 nosql 代表,作为服务领域 AWS 和 Google BigQuery 剑拔弩张,在传统数据库,甲骨文收购了 MySQL、DB2 老牌银行专用,Teradata 做了多年数据仓库。
上面的 Apps 更多,比如社交消费领域的谷歌、亚马逊、Netflix、Twitter、商业智能:SAP、GoodData,一些在广告媒体领域:TURN、Rocketfuel,做智能运维 sumologic 等等。最后还有个去年的新星 Databricks 伴随着 Spark 的浪潮震撼 Hadoop 的生态系统。
大数据之中国公司
对迅速成长的中国市场,大公司也意味大数据,BAT 三家都是对大数据投入不惜余力,我 4 年前在百度时,百度就提出框计算的东东,最近两年成立硅谷研究院,挖来 Andrew Ng 做首席科学家,研究项目就是百度大脑,在语音、图片识别大幅提高精确度和召回率,最近还做了个无人自行车非常有趣。
腾讯作为最大社交应用对大数据也情有独钟,自己研发 C++ 平台的海量存储系统。淘宝去年双十一主战场,2 分钟突破 10 亿,交易额突破 571 亿,背后是有很多故事,当年在百度做 Pyramid(按谷歌三辆马车打造的金字塔三层分布式系统)有志之士,继续在 OceanBase 创造神话。
而阿里云当年备受争议,马云也在怀疑是不是被王坚忽悠,最后经历了双十一洗礼证明 OceanBase 和阿里云的靠谱。小米的雷军对大数据也是寄托厚望,一方面,这么多数据几何级数增长;另一方面存储带宽都是巨大成本,没价值就真破产。
大数据相关技术
大数据相关技术,最紧密的就是云计算,我列出主要是 Amazon Web Service 和 Google Cloud Platform,在国内还有阿里云、金山云、百度云、腾讯云、小米云、360 云、七牛……每个里面都是大量技术文档和标准,从计算到存储,从数据库到消息,从监控到部署管理,从虚拟网络到 CDN,把所有一切用软件重新定义了一遍。
先来讲亚马逊的云。我本人在亚马逊云计算部门工作过,所有还是比较了解 AWS,总体上成熟度很高,有大量创业公司都是基于上面开发,比如有名的 Netflix、Pinterest、Coursera.