作者 | 程一祥
题图 | 站酷海洛
吴强博士,毕业于普林斯顿大学计算机科学专业,现任地平线 CTO 兼工程院院长、南京研发中心总经理。他曾先后任职于 INTEL、AMD、Facebook 等科技巨头企业,担任过多个项目的技术负责人和主设计师,是国内高性能云计算、芯片设计、人工智能计算平台及应用方面的顶尖专家。
当我们在说数据科学的时候,我们说算法、说技术、说商业模式,却往往忽略了推动数据科学发展的一个重要力量——芯片。
在芯片等数据科学领域,有着丰富经验的吴强博士认为:中国在特定的芯片领域诸如AI芯片上,虽然已经有了很大进步,但是在通用芯片领域依然和美国有着很大差距。吴强博士如今任地平线首席技术官兼工程院院长,十几年的数据科学之路,让他对芯片,对
大数据,对人工智能形成了一套自己的看法。
“我乐观地看待未来,数据是工具,服务的最后都是我们自己。”
▍互联网的鄙视链:硬件VS软件
与其被称为“数据科学家”,吴强更喜欢把自己定位为一个“数据工程师”。在数据科学领域,他喜欢解决实际问题,接受技术挑战,对形而上的概念不感冒。
这多少跟他早期学习电气工程有关。在本科的时候,吴强的专业是电气工程与自动化,这是一个非常偏向工程应用的学科。出国后他逐渐发现,在国外,电气工程是一个非常成熟的专业领域,留给技术创新的空间已经没有那么大了。“那个时候Windows刚兴起嘛,有很多亟待解决的问题,于是我就自然而然地转向了计算机专业。”吴强说到。
图片说明:吴强博士接受数据侠栏目专访
千禧年的时候,吴强进入普林斯顿大学攻读计算机博士学位。他当时研究的课题是计算机的计算架构和编译器。这是一个强调软硬件结合的专业,跟芯片非常相关,目的就是怎么设计CPU、GPU等,让计算机实现高性能计算。那个时候,吴强他们最向往的胜地就是英特尔,“当时就觉得,哎呀,英特尔做硬件,那个才是真正的高科技啊,有这样一个执念。”
坊间传言,在技术界一直都有一些隐形的“鄙视链”,这在当年就体现在,做硬件的不太看得上做“网站”的。在2005年左右,虽然以Google、Facebook等为代表的互联网科技公司已经初露头角,但是科技行业的龙头还是牢牢地把控在英特尔、苹果、微软等这些老牌公司手中。其中,被称为“电脑心“的芯片行业更是站在了“食物链”的最顶端。
“说来可笑,我当时也觉得做一个网站多容易啊,高科技一定要去英特尔这样的硬件公司才行。”吴强博士回忆到,当时自己也有一个做硬件的梦想。
但是随着互联网用户的激增,那些曾经的以为简单的“网站”逐渐变成了行业巨头,Google、Facebook等“网站” 的崛起,真正意味着大数据时代的到来。海量的数据为科技行业从上游的芯片制造,到下游的用户体验,都带来了全新的技术挑战。
吴强也逐渐意识到了技术风口的变化。有意思的是,吴强不仅是这股潮流的观察者,更是深度参与者,几乎经历了这些年技术变化的每一个关键时期。
▍人工智能之初的强劲“电脑芯”
博士毕业后,带着自己的“硬件憧憬”,吴强进入了理想中的“圣地”英特尔,开启了自己数据科学的职业生涯。
鉴于自己高性能计算方面的学术背景,吴强一开始加入英特尔就参与了安腾(Itanium)大型机的研发工作。安腾是英特尔推出的一款专门服务企业端和处理高性能运算的处理器,最早由惠普的工程师提出,后来和英特尔一起合作研发。安腾最初的定位是帮助企业实现高性能运算任务,它采用了并行处理指令的计算模式,具有相当优秀的浮点运算处理能力。
安腾的要求与吴强博士阶段的研究十分接近,那是他从实验室走到工业界的第一次尝试。吴强当时也许没有意识到,在研究安腾的时候,其实已经叩响了人工智能的大门了。安腾系列后来虽然退出了历史舞台,但是它所代表的高性能计算技术却越来越受到重视,奠定了 AI 发展的硬件基础。
离开英特尔后,吴强加入了另一家老牌硬件企业 AMD(Advanced Micro Devices),研究方向也开始转向了GPU(Graphics Processing Units,图形处理器单元,通常用于专用计算;常区别于 CPU Central Processing Unit,中央处理器单元,通常用于更复杂的通用计算)。
“那时GPU主要还是做图像处理,有着天然处理大规模数据并行计算的特性。后来有人发现,如果在 GPU 上稍微改变一下,就可以做大量数据的科学计算啊”,吴强说道,于是,芯片界就诞生了GPGPU(General-Purpose Graphics Processing Units),即利用GPU的特性来实现CPU的通用计算任务的改良版处理器,这也是最早用在人工智能领域的芯片雏形。
(图片说明:英伟达NVIDIA推出的CUDA解决方案工作原理,图片来源:Wikipedia)
美国芯片制造厂商英伟达(NVIDIA)是最早开始探索 GPU 在科学计算领域价值的企业之一。它在2007年推出了自己的商业 GPGPU 解决方案 CUDA(Compute Unified Device Architecture,统一计算架构),开始探索海量数据的高性能计算方案。
吴强所在的 AMD 在2006年以54亿美元收购了英伟达的老对手 ATI,也开始在 GPU 的研究上发力。为了回应英伟达的 CUDA 方案,AMD 推出了一套自己的 Open CL 方案。吴强是 AMD 最早开始做 GPGPU 的研究人员之一,也正是从那时起,他开始真正接触了实实在在的“大数据”。
在高性能计算领域,英伟达的 CUDA 就好比苹果的 iOS 系统,独立、封闭但是体验很好;AMD 领衔的 Open CL 则像 Google 的安卓系统,开放、包容但是体验欠佳。吴强当时作为 AMD 的代表,还参加了第一届 Open CL 标准制定的会议。
不论 CUDA,还是 Open CL,整个芯片行业都已经觉察到了硬件将会为大数据带来巨大价值。
据吴强介绍,当时应用 GPGPU 芯片的行业非常有限,而且早期的处理器价格又昂贵,只有华尔街这样财大气粗的地方,愿意负担这样的商业投入。大量的金融交易数据,另一方面也非常追求计算效率,所以金融是早期高性能大数据计算(或者说AI)最早实践的地方之一。
人工智能后来的热潮,在当时已经可以初窥端倪。
▍在 Facebook 与 AI 再次相遇
然而,从 2007 年底开始,全球的芯片行业却开始陷入了持续低迷的状态。微软当年的新操作系统 Vista 市场反应冷淡,直接导致了内存、芯片等半导体行业在上一年产能过剩,全球换机需求骤降。
再加上全球金融危机的影响,GPU 进步而引发的人工智能热迅速冷却,吴强也开始重新审视起自己的职业规划。
那时在科技界,与芯片行业一片哀嚎形成鲜明对比的,是他们曾经“看不起”的网站同僚们。2008年,Facebook 全球用户数突破一亿;Google 推出了 Chrome 浏览器,全面抢占网站流量入口......一时间,这些“传统网站”们都摇身一变,成为了行业巨头,坐拥海量数据,站在了新时代的风口浪尖。
一次偶然的机会,吴强与一个在 Facebook 工作的朋友聊天,了解到在大数据的环境下,从前他们认为简单的“网站”,也开始充满了技术性的挑战。大数据、并行计算、高性能处理这些熟悉的概念引起了吴强的强烈兴趣。“我觉得既然有需求,又有挑战,我就想去试一试”,吴强说。于是他就加入了 Facebook,成为了其早期团队的一员。
一进到 Facebook,吴强觉得自己仿佛又回到了大学校园。“同事们都很年轻,办公室摆满了零食饮料,每天都有不同的音乐,还经常会有滑板少年在办公室里飞来飞去的。”从办公环境到公司氛围,都让他感受到互联网公司的活力、自由和想象空间。这与传统的芯片公司是完全不同的景象。
图片说明:吴强与扎克伯格。
那时扎克伯格才二十出头,常常坐在办公室里跟程序员们打成一片。“小扎那个时候就对中文非常感兴趣,经常会找一些中国的同事练习口语,我还当了几次陪练”,吴强回忆到。
吴强来到 Facebook 后,要解决的首要问题,就是在海量用户的访问下,确保系统的稳定性。这也是互联网公司在大数据时代要接受的第一个考验——Thunder Herd 惊群问题。
惊群问题描述的是当海量用户同时涌入数据库时造成的服务器崩溃现象。这个过程就像你要去拜访老板。“你”就相当于一个用户,“老板”相当于数据库。在你和老板之间还有一个“秘书”——缓存层,用来维持秩序、传递老板的指令。
过去,来找“老板”的人不多,都是由“秘书”传达旨意,一切井井有条。但是,当用户突然多起来时,“秘书”就忙不过来了。等不及的海量用户就会一窝蜂地涌入办公室,想要直接找“老板”,这就造成了数据库系统的崩溃。
吴强回忆到,当时 Facebook 上已经聚集了非常多名人,包括 Michael Jackson、Diana王妃等等,其粉丝数量都是千万级别的。当他们更新自己的社交账号时,海量粉丝的突然访问就会导致 Facebook 的系统崩溃。于是他和团队就设计了一个 Cash Mutex 机制,相当于为“老板”的办公室加了把锁,不会导致用户都能轻易破门而入,一定程度上解决了惊群问题。
2013年,Facebook 逐渐将自己的战略转向 AI 领域,开始全线发展人工智能业务。同年,扎克伯格请来了卷积神经网络的发明者 Yann LeCun 担任公司人工智能实验室的主任,并新成立了两个 AI 研究团队 FAIR(Facebook' s Artificial Intelligence Research) 和 AML (Applied Machine Learning),前者偏重研究,后者偏重工程。
(图片说明:Facebook首席AI科学家Yann LeCun;图片来源:Facebook)
而在同一时期,大洋彼岸的中国互联网公司们,正在为争夺移动互联网时代的入口,而打得不可开交,距离讨论AI热潮还为时尚早。某种程度上,这能够看出中美两国在互联网科技领域的距离。
于是,吴强就加入了 AML 团队,开始从事人工智能相关的工作。他当时的一个主要任务就是通过分析用户的行为数据,实现智能的广告推荐活动。在这一过程中,吴强遇到的挑战包括分布式设计、集群通讯、AI算法、深度学习、高性能计算等方方面面,不过令他惊喜的事,这些事儿好像自己之前陆陆续续都做过,而现在,需要把它们集中起来了。
“我的目标就是能够足够了解用户,让他们在不知不觉间就浏览到了自己需要的广告。广告会像他朋友发的状态一样,有趣又有用,被自然浏览到。用户不会关心你的过程,他们只看到结果。”吴强说到。
▍将人工智能带回中国
时间一转眼就来到了2017年,吴强发现,身边有一些中国同事正在陆陆续续回国,国内的人工智能浪潮开始兴起了。
线性资本的联合创始人王淮,就是其中之一。王淮和吴强是 Facebook 时的同事,不过他加入得更早,在2007年,王淮就已经在Facebook任职了,是Facebook历史上第二位华人工程师、首位研发经理。后来他转战投资界,成为了一名天使投资人。2014年,王淮回国创立了线性资本,专门瞄准数据科学类企业投资。
在王淮的牵线下,吴强结识了地平线的创始人余凯,以及联合创始人杨铭。“杨铭是Facebook人工智能实验室的创世成员之一,当时见面就觉得非常亲切。”吴强回忆说,此时虽然他已经动了回国的念头,但是仍未最终决定是否要再次加入一个初创企业。
后来,余凯约吴强在硅谷的一家酒店里又聊了非常久。余凯在创立地平线之前,是百度深度学习研究院IDL的副院长,对人工智能有一套自己的看法。谈到自己回国时的想法,吴强说,“余凯当时说我们不做手机、也不做服务器,那些都是大公司做的,我们要做嵌入式人工智能,在软件和硬件上同时发力。我对这个方向很认可,跟之前一样,有刚需、我觉得自己有能力解决,而且我也很看好这个行业。”
邀请了吴强加盟后,余凯把公司的战略从“算法+芯片”,提升到了“算法+芯片+云”的高度。不论是芯片、算法、还是云计算,吴强都有着丰富的经验。地平线团队如今已经研制出了自己的AI芯片,主要布局在智能驾驶、智慧城市和智慧零售三个主要业务板块。
图片说明:吴强展示地平线的AI应用场景
吴强目前负责地平线工程院的工作,主要是通过
云技术让 AI 的能力落地到商业实践中。早在Facebook时期,吴强就已经在做云计算方面的工作了。Facebook在全球有超过十亿的活跃用户,运营着数一数二的私有云系统。在吴强看来,云是将AI技术具体落地,变成价值和服务的重要平台。
经过这些年的发展,人工智能在商业领域的价值已经无需多言,它一直被看作是一种具有革命性潜力的技术,被资本界、科技界奉为宠儿。但是时至今日,大家讨论更多的是,如何让这股商业潜力变为现实,让人工智能技术实实在在地带来改变。
吴强认为,在AI产品落地的过程中,云是关键。“在过去,我们输出的更多是技术能力,影响力有限,而不是一个产品。当有了云之后,所有的智能设备都会上云,在云端实现一个端到端的融合、交互,这样就会有一个完整产品,系统性地将AI技术推广到商业领域。”
最后,在谈到人工智能的未来时,吴强说自己还是非常乐观的。这也许跟他的“前老板”扎克伯格的乐观派有一定关系。“人类既然有能力用好数据,也就会有能力管理好数据”,吴强说,数据本质上还是一个工具,最后都要回归到人类自己。
▍数据侠门派
吴强博士,地平线CTO兼工程院院长、南京研发中心总经理。吴强博士是高性能云计算,人工智能计算平台及
应用方面的专家。在海外知名高校和企业有 20 年的科研及技术开发与创新经验。他拥有普林斯顿大学计算机科学博士学位,以及东南大学电气工程学士学位。
他曾先后工作于美国高科技企业INTEL 和AMD。2009年至2017年期间,长期效力于美国互联网科技公司Facebook , 任Facebook总部高级主任研究员,担任过多个项目的技术负责人和主设计师。
▍数据科学50人申请进行中...
“数据科学50人”项目是DT财经旗下数据侠计划重点内容产品,与数据科学领域KOL挖掘数据内容的价值。我们将从商业数据科学领域选出最具代表性的50位先锋进行深度专访,由DT财经独立评审并发布,第一财经数据科技及合作伙伴倾力支持。
▍加入数据侠
“数据侠计划”是由第一财经旗下DT财经发起的数据社群,包含数据侠专栏、数据侠实验室系列活动和数据侠联盟,旨在聚集大数据领域精英,共同挖掘数据价值。了解数据侠计划详情请回复“数据侠计划”,投稿、合作请联系datahero@dtcj.com。