爱吧机器人网 » 技术 > 大数据 > 正文

Coursera 数据工程师分享大数据的迷离身世

“大数据”一词这几年来火爆异常,出镜率爆表,那么究竟什么才是大数据呢?你是否对他的了解只是“闻其名”,却未“知其人”呢?现在,这篇由硅谷在线教育公司 Coursera 数据工程师(也曾在百度、LinkedIn 等公司工作)的干货文章将为你详细介绍“大数据”的迷离身世。

硅谷在线教育公司 Coursera 数据工程师董飞准备在硅发布平台开讲了,课程第一系列《大数据入门》。董飞也曾在百度、LinkedIn 等公司工作。

\

在硅谷,大家非常热情地谈创业谈机会,我也通过自己观察和积累,看到不少最近几年涌现的热门创业公司。我先给大家一个列表,这是华尔街网站全世界创业公司融资规模的一个评选,它本来标题是“十亿美金俱乐部”,可以看出不到一年时间,截至今年 1 月 17 日,排名和规模已经发生很大变化。

\

首先,估值在十亿美金的公司达到 7 家,而一年前都没有;第二,第一名是中国的小米;第三,前 20 名中,绝大多数(八成在美国,在加州,在硅谷,在旧金山!)比如 Uber、Airbnb、Dropbox、Pinterest;第四,里面也有不少相似模式成功的,比如 Flipkart 就是印度市场的淘宝,Uber 与 Airbnb 都是共享经济的范畴。

所以,大家还是可以在移动(Uber)、大数据(Palantir)、消费级互联网、通讯(Snapchat)、支付(Square)及 O2O App 里寻找大机会。这里面,很多公司我都曾面试和感受过他们环境,下面有机会我也会给大家一一详细介绍。

第二,在 Linkedin,每年会评选一个最有需求的创业公司名单,基本是结合 Linkedin 用户访问量和申请数做出的挖掘。下面,我列出最近 3 年数据,大家可以做个判别和趋势分析。

\

里面还是很靠谱的,比如不少上榜名单已成功 IPO(GoPro、Hortonworks、Splunk),里面有很多大数据领域公司(Splunk,、Box,、Nimble Storage、Violin Memroy, Dropbox),而除了之前看到的一些互联网项目,在一些医疗健康(Theranos)、智能硬件(Leap motion、Fitbit、Jawbone)、在线教育(Coursera)也吸引很大注意力。

第三,看了那么多高估值公司,很多人都觉得非常疯狂,是不是很大泡沫了,泡沫是不是要破了,这是很多人的疑问。在硅谷这个充满梦想的地方,投资人鼓励创业者大胆去发展同样也助长泡沫,很多项目在几个月时间估值就会翻 2、3 倍,例如在 Uber、Snapchat 上,我也惊讶他们的巨额融资规模和颠覆速度。

下面这张图,就是讲新事物的发展规律,这是硅谷孵化器 YCombinator 公开课 How to start a startup 提到的。一个新 Idea 加上一点点原型,就会迅速吸引眼球,然后先驱者引发潮流,在大众爆发把泡沫吹到极致,接下来就是各种负面质疑,名声一落千丈,而这时离 Peak 也许才过去几个月。

\

但这东西本质没有变,从“看山不是山”到“看山还是山”,这段重心回归到产品上重新积累用户,然后就到了可持续增长的健康轨道上。从 Quora 网站流量、Tesla 股票到比特币,你都发现它们惊人的匹配这张图的某个节点。背后不变的是人性,举例在牛市,大家都很容易挣钱,但只有熬过最痛苦的时代(比如金融危机),才能体会事物发展本质和踏实的意义。

第四,未来趋势是什么?大家都很关心。我先提最近看的一部电影《Imitation Game》,它讲的是计算机逻辑奠基者艾伦图灵艰难的一生,当年为破译德军密码制作了图灵机为二战胜利作出卓越贡献,挽回几千万人的生命,可在那个时代因为同性恋被判化学阉割,自杀结束了短暂的 42 岁生命。

他的一个伟大贡献就是在人工智能的开拓,他提出图灵测试(Turing Test),测试某机器是否能表现出与人等价或无法区分的智能。我们现在回到今天,人工智能已有很大进步,从专家系统到基于统计的学习,从支持向量机到神经网络深度学习,每一步都带领机器智能走向下一个阶梯。

谷歌资深科学家吴军博士提出当前技术发展的三个趋势:第一,云计算和和移动互联网,这是正在进行时;第二,机器智能,现在开始发生,但对社会的影响很多人还没意识到;第三,大数据和机器智能结合,这是未来时,一定会发生,有公司在做,但还没太形成规模。

他认为未来机器会控制 98% 的人,而现在我们就要做个选择,怎么成为剩下的 2% ?李开复在 2015 年新年展望也提出未来五年物联网带来庞大创业机会。

大数据入门

接下来,我讲一讲大数据入门。先来做个思考,以前有个国王很阔绰也很爱排场,有天,他很高兴想奖赏他的宠臣,然后说,让他来提任何奖励。

这个大臣给国王看下面这个棋盘,是个 8*8 的方格,如果我在每个标号的格子内放米粒,第一个格子放 1 粒米,后面格子总是前面格子的两倍。那么问题来了,如果我把整个棋盘放满,需要多少米粒?

\

我们学过级数的话,可以快速做个演算,它的推演是 1 + 2 + 4 …… + 2^63 = 2^64 - 1 .这个数字多大很多人没印象,反正如果真要兑现的话,这个国家肯定是破产了。

其实我把这个棋盘分成上下两半,在上一半总共需要的米粒是 2^32,这并不是个很大的数,其实前几年计算机的 32 位就是那么大,但下半场就完全不一样了,这是个平方级别的规模,我下面会给大家一个交代。现在大家也经常听到什么手机 64 位处理器,并无实际意义。

上一页1234下一页

上一篇:大数据带来的四种思维
下一篇:芝麻开门 大数据征信体系揭秘
精选推荐
Waymo:人性和行为心理学才是无人驾驶最大的挑战
Waymo:人性和行为心理学才是无人驾驶最大的挑战

[2019-11-03]  自动驾驶汽车作为AI领域内最大的挑战之一,谷歌致力于其研发已有十余载,现在他们逐渐意识到,最困难的是如何让人们享受驾驶的乐趣。这是一 ...

南加州大学机器人学家:机器人更适合粗暴的爱
南加州大学机器人学家:机器人更适合粗暴的爱

[2019-11-07]  图片来自JOHN MADERE GETTY IMAGES打是疼骂是爱,当人类粗暴的将物体从机器人手中敲掉,看似残忍,实际上却能帮助机器人找到最好的握持物 ...

机器人工程师具体都做什么?
机器人工程师具体都做什么?

[2017-12-08]  机器人工程师是幕后设计师,负责创建机器人和机器人系统,能够执行人类无法完成或不愿意完成的任务。 通过他们的创造,机器人工程师帮助工作更安全,更轻松,更高效,特别是......

改变保险市场的格局:无人机如何通过更快的估算、响应时间和利益交付来使消费者受益
改变保险市场的格局:无人机如何通过更快的估算、响应时间和利益交付来

[2018-12-08]  市场研究公司IHS Markit预测,到2020年,专业无人机市场将通过农业,能源和建筑等行业利用测量,制图,规划等技术实现77 1%的复合年增长率(CAGR)。与此同时,消费者无人......

什么是机器人学?机器人学简介
什么是机器人学?机器人学简介

[2017-12-14]  机器人学是工程学与科学的交叉学科,包括机械工程,电气工程,计算机科学等。机器人技术涉及机器人的设计、制造、操作和应用,以及用于控制、感官反馈和信息处理的计算机系统。...

从AI中窥探人性
从AI中窥探人性

[2018-01-03]  人们对人造智能的恐惧早已成为科幻书籍和电影的极好题材。但现在,一些同样的担忧开始影响关于现实世界AI技术的政策讨论。如果这样的担忧演变成为一种技术恐慌...

美国人工智能公司Skymind进入福建全面开展业务
美国人工智能公司Skymind进入福建全面开展业务

[2017-12-11]  人工智能在当今这个时代对大家来说想必是非常熟悉的,这也是我国近十几年来一直追求的目标,未来的时间里这也将是全人类追求的目标。就目前来看,近年来,人工智能或在我国迎......

英伟达用联合学习创建医学影像AI 可共享数据和保护隐私
英伟达用联合学习创建医学影像AI 可共享数据和保护隐私

[2019-10-14]  英伟达(Nvidia)和伦敦国王学院(King’s College London)的人工智能研究人员利用联合学习训练了一种用于脑肿瘤分类的神经网络, ...

本周栏目热点

从Facebook社交媒体情绪实验看大数据道德困境

[1970-01-01]   今年曝光的Facebook私自进行社交媒体用户情绪实验的新闻引起了不小的争议,这把很多数据实验卷入到社会 ...

那些年,曾经被我们误读的大数据

[1970-01-01]   如今,业界和学术界一直在热议大数据,不管是学术圈还是IT圈,只要能谈论点儿大数据就显得很高大上。然 ...

[1970-01-01]   今天Fivethirtyeight(以数据为主的时政分析博客)的博主,美国著名政治评论家、 大数据 领域的超人Nate ...

未来农业将在田里处理大数据

[1970-01-01]   基普·汤姆(Kip Tom)是第7代家庭农场主,他的农场种植的主要农作物是玉米和大豆,他同时也在进行玉 ...

大数据时代的美国隐私权保护制度

[1970-01-01]   2014年5月,美国总统执行办公室(Executive Office of the President)发布2014年全球大数据白皮书 ...