雷锋网 AI 科技评论按:纽约大学教授、Facebook 副总裁与首席 AI 科学家 Yann LeCun 由于对深度学习的突出贡献,被誉为深度学习的「三驾马车」之一,更被称为「CNN」之父。Yann LeCun 也一直非常活跃,发论文、教学、创立学术会议、出席学术与公共活动、引领 Facebook 的 AI 学术研究,是计算机科学研究者中的一面旗帜,也是大众眼中的人工智能「偶像」。
前段时间,RSIP VISION 出版的《Computer Vision News》杂志对这位偶像进行了专访并发表在了 2018 年 11 月刊中。专访中 Yann LeCun 谈到了学术生涯中的趣事、对自己是否是个聪明人的评价、对近期技术进展的评价、对工业界学术界合作的期待和误解的澄清,以及「退休之前最希望做出的成果」。雷锋网 AI 科技评论编译如下。
记者:在过去的二三十年中,你对整个人工智能界产生了巨大影响。跟我们讲讲你是如何一步步走到今天这个位置的呢?
LeCun:我很小的时候就对人工智能很感兴趣。「智慧」这个概念让我感到十分着迷。并不仅仅是我们现在天天谈起的机器智能,而是一般意义上的「智慧」。我一直都觉得「学习」是智慧中的重要部分。我大学专业是电气工程,然后做研究的时候发现在 1950、60 年代就有人在研究会学习的机器了。我接触到这些知识其实有那么点意外成分,然后本科毕业之前就开始读这方面的各种文献。我想在这方面做更多研究的想法就是这时候出现的,接下来趁着在学校,我做了好几个有关的项目,然后决定了我就要研究这个方向。
我发现在法国有一群人在研究一种叫做 Automata 网络的东西,似乎和智慧隐隐有那么点联系;这大概是 1983 年前后的事情。那时候计算机科学这边还没有任何人在研究神经网络,甚至只是简单的
机器学习都没有。在 AI 的大课题下有那么一点点机器学习的研究,但是只有很少很少的一撮人。
我当时遇到了一些人,他们已经开始思考很多简单的单元互相连接起来形成的网络会有哪些新的性质,实际上这就是神经网络了。我和他们取得联系以后,发现他们有一个全球性的研究社区,他们已经开始研究神经网络了。我当时读了 John Hopfield 写的 Hopfield 网络的论文,也听说了 Geoff Hinton 和 Terry Sejnowski 这两个人。他们那时候刚刚发表了一篇关于玻尔兹曼机的论文,我觉得那篇论文棒极了,很想见见他们。
然后我就开始读博士了。但我的导师对神经网络一无所知,他就说:
「我可以给你的论文签字,你似乎挺聪明的,但是从技术角度讲我确实没办法帮助你。」我通过我本科的母校 ESIEE 获得了奖学金。最后我自己在 1984 年左右发现了一个版本的反向传播,终于在 1985 年在法国的一个会议上与 Geoff Hinton 和 Terry Sejnowski 见面了。有一个会议上我遇到了贝尔实验室的 Larry Jackel 和 John Denker,后来就是他们把我招到贝尔实验室去的。1987 到 1988 年,我跟着 Geoff Hinton 在多伦多做了博士后。Larry Jackel 在贝尔实验室建立了一个小组研究神经网络硬件,我博士后一结束他们就把我招过去了。
记者:现在我们谈谈你的个人天份的部分?之前我们采访 Yoshua Bengio 的时候他说:「
我能成功并不是因为我比别人聪明,而是因为我很明白如何专注。」你同意这句话吗?如果这是他的秘诀,那你的秘诀是什么?
LeCun:我是钻到一群比我聪明的人里面去,所以在很多方面我都根本没觉得自己有什么天赋。反倒是我经常为别人感到惊叹。比如我和 Léon Bottou 有过很长时间的联系和合作。在机器学习界他是一个知名
人物,而且几乎每个方面他都比我强!(笑)我喜欢做的事,而且可能还是我做的不错的一件事,就是一直向下挖掘,去发现一个疑问背后真正的问题是什么。「如何才能让机器学习」,类似这种。有点像是考虑大方向、考虑哪些是真正重要的问题。把问题简化、再简化,直到达到真正的核心问题。
有时候一个想法或者一个概念显得很复杂,因为其中用到了很多很麻烦的数学知识,但是它真正的核心往往就是一个很简单的想法。我觉得我还没法和 Richard Feynman 相提并论,但是这种思考方式真的和他的很像。就是要
问最基本的问题、摒弃一切表面上的东西,直到得到一个简单得不可思议的问题。不过我做得还没有他那么好。
至于 Yoshua 说的那句话,他是一个非常自律的、井井有条的人。我不是那样的人,我活得乱糟糟的。
记者:那是因为你是法国人嘛!
LeCun:Yoshua 也是在法国出生的呀!不过我不是一个好的理论科学家。相比之下我的朋友 Léon Bottou 就对数学啊什么的理论性很强的东西很在行。我做的还行的是实现、让东西跑起来,不过做的也算不上多好。不同的人擅长不同的事情嘛。
记者:唔,你是法国人,我是意大利人。有人说这两个国家的人都做事不是很有条理!
LeCun:(笑)我也不知道,
据说法国人都特别横平竖直的,但我就不那样,我特别随性。
记者:有没有导师或者教师对你的影响很大?还是说你基本上靠自学?
LeCun:对我有很大影响的人有好几个。我在工程学院的时候,那些数学教授给了我很大帮助。我和他们一起做了好几个项目,几个项目的主题他们自己也不是很懂,但是他们允许我自己探索,也就很早就让我尝试到了做科研的感觉。他们都是很好的人。也就是这个时候我开始研究神经网络。我并不知道应该怎么研究。我必须自己琢磨出来它是怎么回事。
我当时看了很多日本人用英文写的论文,就这样学会的英语,所以那时候我的英语简直糟透了。(笑)70 年代末、80 年代初的时候,大多数关于神经网络的研究成果都是日本人做出来的,因为西方的人已经完全抛弃了这个领域了;我们能读到的论文就只有这些了。
然后也有一些我很感兴趣的科学人物。很自然地,我一开始看了很多关于爱因斯坦的东西,也就对物理学很感兴趣。后来我的阅读材料就是 Geoff Hinton 这样的人。我跟着他做的博士后,也发现我们其实有很多共同点。
记者:我们聊聊 Facebook 的事情吧。如今人工智能界的出色的软件人员,有很多都跟着你干活。我采访过好多出色的 AI 软件人员,有很多现在就在 Facebook,也有一些在其他大公司。但很滑稽的是,这些人里的大多数并不参与 Facebook 的核心业务,而是做一些在你看来中长期比较重要的事情。能跟我们讲讲这是怎么回事吗?谈谈能谈的。
LeCun:其实没有什么不能谈的,起码很少很少吧。因为 Facebook 人工智能研究院是 Facebook 的一个基础 AI 研究实验室,它也是对外的。它和整个研究社区有很多的联系。我们做的所有东西都会公开发表,我们向开源世界贡献很多代码,我们和大学有很多合作,我们在法国和美国都有实习生和访问博士生。它是高度开放的。它对整个社会是有好处的,而且,当然长远来看也对 Facebook 自己有好处,
因为如今的 AI 技术面对的最大的限制并不是 Facebook 领先谷歌、IBM、微软多少,而是整个领域的发展有没有向着我们希望的方向前进。比如如果你想要造智能虚拟助理的话,它和人类之间的互动需要具备一些人类常识,然而我们现在并没有科学技术能让我们造出这样虚拟助理来。所以我们的目标就是开发出这些技术来,这样的产品才能变成现实。即便我们雇佣了很多顶尖的人才,我们也不会垄断任何好的想法。为此我们也需要和更广泛的研究社区有充分的沟通。这也是我们如此开放的原因。
Facebook 里还有另外一些机构,可以算是更广泛的「Facebook AI」机构。它们更关注于和 Facebook 直接相关的问题,比如计算机视觉、自然语言处理、搜索,等等。其中的很多小组使用的技术都是最初由Facebook 人工智能研究院开发出来的,虽然可能是出于其他的目的,所以也还是有很大的影响力;但这些小组的运转方式也就和研究院不一样了,他们主要关注的是公司的业务需求。他们也会发一些论文,但是不那么频繁。他们要不断改进 Facebook 提供的服务,或者创造新的服务。Facebook 人工智能研究院做的事情就是一开始说的开发全新的技术、推进整个领域的前进。有时候我们会说希望 3 年、5 年或者 10 年之后看到回报,但是也有时候我们想出来的东西其实马上就会变得很有用。有时候还会给我们带来惊喜。
记者:在你看来,2018 年最棒的计算机视觉论文是哪一篇?我们杂志评选的 2017 年的最佳计算机视觉论文是 Mask R-CNN,我相信你不会觉得意外吧哈哈。
LeCun:我也同意啊!(笑)计算机视觉领域发生了太多事情,太多太多了,我都看不过来了。我没法单独点出某一篇论文,但我觉得自我监督学习的整个领域都有非常有趣的成果。
不管是用对抗性生成式网络(GANs),还是用一些别的技术,人们都在想办法挖掘更高层次的视觉概念,比如物体、运动、深度等等,而且不需要真正显式地给系统提供监督。我觉得这是一条光明大道,而且我们已经迈出了一步。目前这些技术还没有什么实际的
应用,但我觉得这是未来的很大的技术成就的开始,可能会带来计算机视觉的下一次革命,或者说是
人工智能的下一次革命。过去三年的公开演讲里我都在说这句话,就是「AI 的未来就在自我监督学习里」。
这种学习方式是,你训练一个机器学习这个世界是怎么回事,并不指定什么具体的任务;然后你再训练它做某一个具体的任务,但是只给它非常非常少的数据。人类和动物的学习方式就是这样的。Facebook、英特尔、谷歌、DeepMind 和 NVIDIA 都在这方面发表了很多论文。有一篇关于上色的论文,里面让 AI 给视频里面的物体上色,得到的结果是,可以说它学到了物体的运动。类似这样的让人惊叹的东西还有很多。
记者:我们的一位工程师拜托我问你一个问题。据说这个问题挺滑稽的,不过我自己不是工程师所以不理解这个问题的笑点在哪里。他的问题是,
ReLU 和批量正则化两者之间,你更喜欢哪个?
LeCun:哦我知道了啊哈哈哈哈哈……
记者:所以,真的很好笑吗?
LeCun:真的很好笑!这个问题的答案很简单,但是这个问题会引出很多别的问题。我会回答 ReLU,因为它是个很简单的想法,所有人都会用它,可以说正是有了 ReLU 才可以让我们训练相对比较深的神经网络。还有另外一个想法,就是何恺明提出的残差连接,它让我们可以训练更深的网络。
而批量正则化在很多人看来,包括我自己看来,是一种必要的恶。要怎么理解呢,可以说没有人喜欢它,但是它的作用还不错,所以大家还是都会用它;但同时大家都在尝试把它换成什么的别的东西,因为大家都讨厌它。它自身有一些东西不是很让大家满意。我们都有一种感觉,就是肯定有什么东西比它更好。另一方面,大家并不理解它为什么有效、是怎么发挥效果的。对于神经网络是怎么收敛和学习的,我们有一些直觉上的思考,但是批量正则化和我们的这些思考是冲突的,所以想要理解它为什么有效、找个别的东西来代替它的话,我们还有很多工作要做。何恺明也提出了分组正则化,他的目的就是要替换掉批量正则化,看起来也确实表现要更好一些。
记者:畅想未来,你觉得在计算机视觉以及人工智能社区里,学术界和工业界怎么才能更好地协作?
LeCun:我自己的职业生涯中,有一半的时间在学术界、一半的时间在工业界。我一开始在贝尔实验室,后来它变成了 AT&T 实验室;接着我在 NEC 研究院待了 18 个月。后来我做了教授,我的时间一部分花在工业界,一部分花在学术界。我觉得可以一部分时间花在工业界、一部分时间花在学术界是一个很好的想法,我也写过一篇文章谈这件事。
记者:嗯,我读了这篇文章。《双重联盟》。
LeCun:就是这篇。我觉得很多人都误解了这篇文章里面的非常重要的一点,就是,只有在那个你工作的工业界实验室是一个研究性质的实验室,而不是开发性质的实验室,以及,这个实验室做的是开放性的研究、设立这个实验室的企业对实验室的知识产权没有很强的占有欲的时候,这种双重联盟的模式才是可行的。之所以我推崇双重联盟,就是要让工业界和学术界之间有足够多的信息沟通,这样你才能利用到两面的好处:在工业界这边,你能得到工程方面的支持,有大规模的计算设施,而在大学里有很多学生、很多年轻人,他们有很多的创意,但是他们的运行模式是和工业界不一样的。
对不同的人有不同的激励方法是一件好事,当他们在不同的环境的时候也就可以产生不同的点子。这当然是一件好事,但是前提是你所在的工业界实验室做的是开放性的研究、做的是真正的研究,而且肯发表论文。如果双重联盟的工业界那一方对任何东西都要保密、任何工作都是为了实际应用的和工程性的,那就做不成。我看到了一些对我的文章的回应,其中有一些明显是弄混了这两种工业界研究方式的区别。他们会说,双重联盟是不现实的,因为既然你在工业界工作了,你要做的东西就无论如何都要是对这个企业有用的,而且有一些东西要保密,这样就和学术界的做法产生冲突了。如果是这样的话,那我也同意,确实是有冲突的;但是我不同意说没有可能在工业界做双重联盟。这要取决于工业界的这个研究院是如何运转的。
我在 Facebook 做的事情之一就是设计这个研究院的运行方式,让它不要和学术界的做法产生冲突。过去五年中我对工业界研究风气做的一大贡献大概就是这个吧,而且可以说直到现在才真正形成了这样的合作模式。过去也曾经有工业界的组织对科学发展有很大的的影响,比如我曾经工作过的贝尔实验室,还有 IBM 研究院和微软研究院也是这样,但是他们对于知识产权的占有欲都太强了。那时候并没有开源啊或者其他开放的传统。现在,现在时代已经不一样了,这里已经形成了一种工业界做研究的新方式。我觉得已经有一些别的企业或多或少受到了我们的影响。比如在过去五年里,谷歌对于自己的研究成果要比更早的时候开放得多。他们现在也还是有一些保密性的,但是肯定比以前要开放太多了。
记者:我知道一个人,她可以算是你想要在 Facebook 做的这些事情的见证人!这个人就是 Pauline Luc,我上个月才刚刚采访过她,她告诉我说:「我在 Facebok 的实验室就和我在学校的实验室一样。」
LeCun:对的,就是这样。当然我也很了解 Pauline 的工作,因为我有参与她的项目,和她一起写过论文。我觉得她的研究成果特别棒。
记者:最后,我们来谈谈在你退休之前最想做出来的成果是什么?
LeCun:找到一个普遍通用的好方法来做自我监督学习。我在确实计算机视觉方面做过一些研究,不过我不觉得自己是一个计算机视觉研究员。起码不完全是做计算机视觉的。我的兴趣实际上还是在学习上,比如我喜欢寻找不同的方式让机器通过观察来学习这个世界是怎么运作的。这就意味着在包含有不确定性的环境中学习。如果你让机器看一段视频,然后让它预测接下来会发生什么,可能的发展其实会有很多。但另一方面,所有这些可能的发展里,真正发生在接下来的视频里只会有一种,但其他的状况也还是有可能发生的。当你训练一个机器预测视频的时候,如果你不小心的话,它就会输出一个模糊的预测结果,差不多是所有可能发生的情境的平均值。那这就是一个糟糕的预测了。
我们想要解决的一个技术问题就是,在一个理想的预测结果不是单一的值、而是一系列值的环境里,我们要怎么样训练一个机器。写成数学形式的话,我们可以说是让它预测一个概率分布,不再是单个的点。但我们并不知道如何在高维连续空间里表示概率分布。我觉得这里很有可能是,就像采访前面说过的那样,要弄清楚其中真正关键的概念,然后找到简单的架构,容易理解,也容易处理表示不确定性的问题。GANs 是一个有潜力的方法,但我们对 GANs 的理解也不是很透彻。它们不是总能收敛,但是当它们能出结果的时候通常都能出很棒的结果。既然它们不能保证每次都出结果,那我们就需要找别的办法,要么理解 GANs 能出结果的原因,要么寻找一些别的方法,用这些新的方法帮助机器学习尽可能多地通过观察视频、照片等等的学习这个世界的背景知识。然后等到机器学到了关于这个世界的好的模型之后,它就能够像我们理想的那样只需要很少的样本或者只尝试几次就能学会任何具体的任务。我未来几年的目标就是这个。
via rsipvision.com,雷锋网 AI 科技评论编译