“大数据”一词这几年来火爆异常,出镜率爆表,那么究竟什么才是大数据呢?你是否对他的了解只是“闻其名”,却未“知其人”呢?现在,这篇由硅谷在线教育公司 Coursera 数据工程师(也曾在百度、LinkedIn 等公司工作)的干货文章将为你详细介绍“大数据”的迷离身世。
硅谷在线教育公司 Coursera 数据工程师董飞准备在硅发布平台开讲了,课程第一系列《大数据入门》。董飞也曾在百度、LinkedIn 等公司工作。
在硅谷,大家非常热情地谈创业谈机会,我也通过自己观察和积累,看到不少最近几年涌现的热门创业公司。我先给大家一个列表,这是华尔街网站全世界创业公司融资规模的一个评选,它本来标题是“十亿美金俱乐部”,可以看出不到一年时间,截至今年 1 月 17 日,排名和规模已经发生很大变化。
首先,估值在十亿美金的公司达到 7 家,而一年前都没有;第二,第一名是中国的小米;第三,前 20 名中,绝大多数(八成在美国,在加州,在硅谷,在旧金山!)比如 Uber、Airbnb、Dropbox、Pinterest;第四,里面也有不少相似模式成功的,比如 Flipkart 就是印度市场的淘宝,Uber 与 Airbnb 都是共享经济的范畴。
所以,大家还是可以在移动(Uber)、大数据(Palantir)、消费级互联网、通讯(Snapchat)、支付(Square)及 O2O App 里寻找大机会。这里面,很多公司我都曾面试和感受过他们环境,下面有机会我也会给大家一一详细介绍。
第二,在 Linkedin,每年会评选一个最有需求的创业公司名单,基本是结合 Linkedin 用户访问量和申请数做出的挖掘。下面,我列出最近 3 年数据,大家可以做个判别和趋势分析。
里面还是很靠谱的,比如不少上榜名单已成功 IPO(GoPro、Hortonworks、Splunk),里面有很多大数据领域公司(Splunk,、Box,、Nimble Storage、Violin Memroy, Dropbox),而除了之前看到的一些互联网项目,在一些医疗健康(Theranos)、智能硬件(Leap motion、Fitbit、Jawbone)、在线教育(Coursera)也吸引很大注意力。
第三,看了那么多高估值公司,很多人都觉得非常疯狂,是不是很大泡沫了,泡沫是不是要破了,这是很多人的疑问。在硅谷这个充满梦想的地方,投资人鼓励创业者大胆去发展同样也助长泡沫,很多项目在几个月时间估值就会翻 2、3 倍,例如在 Uber、Snapchat 上,我也惊讶他们的巨额融资规模和颠覆速度。
下面这张图,就是讲新事物的发展规律,这是硅谷孵化器 YCombinator 公开课 How to start a startup 提到的。一个新 Idea 加上一点点原型,就会迅速吸引眼球,然后先驱者引发潮流,在大众爆发把泡沫吹到极致,接下来就是各种负面质疑,名声一落千丈,而这时离 Peak 也许才过去几个月。
但这东西本质没有变,从“看山不是山”到“看山还是山”,这段重心回归到产品上重新积累用户,然后就到了可持续增长的健康轨道上。从 Quora 网站流量、Tesla 股票到比特币,你都发现它们惊人的匹配这张图的某个节点。背后不变的是人性,举例在牛市,大家都很容易挣钱,但只有熬过最痛苦的时代(比如金融危机),才能体会事物发展本质和踏实的意义。
第四,未来趋势是什么?大家都很关心。我先提最近看的一部电影《Imitation Game》,它讲的是计算机逻辑奠基者艾伦图灵艰难的一生,当年为破译德军密码制作了图灵机为二战胜利作出卓越贡献,挽回几千万人的生命,可在那个时代因为同性恋被判化学阉割,自杀结束了短暂的 42 岁生命。
他的一个伟大贡献就是在人工智能的开拓,他提出图灵测试(Turing Test),测试某机器是否能表现出与人等价或无法区分的智能。我们现在回到今天,人工智能已有很大进步,从专家系统到基于统计的学习,从支持向量机到神经网络深度学习,每一步都带领机器智能走向下一个阶梯。
谷歌资深科学家吴军博士提出当前技术发展的三个趋势:第一,云计算和和移动互联网,这是正在进行时;第二,机器智能,现在开始发生,但对社会的影响很多人还没意识到;第三,大数据和机器智能结合,这是未来时,一定会发生,有公司在做,但还没太形成规模。
他认为未来机器会控制 98% 的人,而现在我们就要做个选择,怎么成为剩下的 2% ?李开复在 2015 年新年展望也提出未来五年物联网带来庞大创业机会。
大数据入门
接下来,我讲一讲大数据入门。先来做个思考,以前有个国王很阔绰也很爱排场,有天,他很高兴想奖赏他的宠臣,然后说,让他来提任何奖励。
这个大臣给国王看下面这个棋盘,是个 8*8 的方格,如果我在每个标号的格子内放米粒,第一个格子放 1 粒米,后面格子总是前面格子的两倍。那么问题来了,如果我把整个棋盘放满,需要多少米粒?
我们学过级数的话,可以快速做个演算,它的推演是 1 + 2 + 4 …… + 2^63 = 2^64 - 1 .这个数字多大很多人没印象,反正如果真要兑现的话,这个国家肯定是破产了。
其实我把这个棋盘分成上下两半,在上一半总共需要的米粒是 2^32,这并不是个很大的数,其实前几年计算机的 32 位就是那么大,但下半场就完全不一样了,这是个平方级别的规模,我下面会给大家一个交代。现在大家也经常听到什么手机 64 位处理器,并无实际意义。