深度学习使计算机越来越智能-机器学习-技术-爱吧机器人网

　　The BIG Talk在2015开年第一期首次走进美国，以《迎接崭新智能社会》为主题，邀请了100多位来自国内最具影响力的主流媒体，科技垂直媒体及自媒体知名人士前往旧金山和硅谷，邀请十几名世界级科技大咖，为科技界奉上一场关于智能社会技术的前瞻知识盛宴。

　　以下为百度首席科学家Andrew Ng（吴恩达）在硅谷The BIG Talk专场活动中的主题演讲：

　　主持人Jason Pontin开场：

　　大家好，欢迎来到BIG TALK – 未来就在这里。我是Jason Pontin ，MIT技术评论的主编。

　　这次的BIG TALK是第一次在硅谷主办，也是第一次在中国大陆以外的地区主办。首先欢迎远道而来的中国媒体朋友，欢迎你们来硅谷做客。本次论坛的主办媒体是百度，这是一家在美国广为人知的企业，被誉为中国的谷歌。去年中，百度宣布将以三亿美元在硅谷建造一个研发中心，并且聘用计算机科学领域的专家Andrew Ng，斯坦福大学教授，“深度学习”领域的先驱。深度学习是人工智能的一种形式，一种模拟人脑学习的软件。它在人工智能领域掀起了一场革命，通过非常强大的模式识别形式，结束了人工智能长达十年未能有突破性进展的局面。

　　接下来的五小时时间，我们将为大家展示在深度学习中，大数据分析是如何应用到从机器人技术教育到金融及运输等各个行业。它是我们生活的这个时代中计算机科学专业领域的重大突破。下面有请我们的重量级人物Andrew来为我们详细阐述深度学习的原理以及其重要作用。

　　Andrew Ng：

　　非常高兴大家可以在硅谷相聚。过去几年里，有一种人工智能开始飞速发展，对硅谷产生了重大影响。正如Jason所讲，今天你会了解到人工智能如何冲击并改变医疗保险、教育及其他领域。当然，大家也会认识到这里面也有一点炒作的成分。

　　今天我想和大家分享两件事情。第一点，到底什么是深度学习，在深度学习领域里到底发生了什么？在接下来的二十分钟里，希望可以让大家知道这样是什么样的技术。第二点，请在座各位各行各业的佼佼者们在策略上思考，你们的公司、学校或企业应该还是不应该应用这种深度学习的技术。

　　多年以来，我们一直有这样的想法，就是在人工智能的虚拟圈里做一个很好的产品，吸引众多用户使用，并为我们提供很多数据，使这个人工智能产品变得越来越好，而这样又能让你得到越来越多的用户，如此产生人工智能的良性循环。但是这种想法并没有得到实现，因为这个循环里缺失的最大一环恰恰是人工智能。我们来看一下早期的人工智能算法，即使有很多的数据支持，其表现也并未提升。抛掉炒作的成分，为什么深度学习算法能冲击世界，我认为一个非常根本的原因就是对目前我们所能进行的测量来说，数据提供得越多，得到的结果就越好。所以在大数据环境下，新的人工智能算法较之前变得越来越好。这也是我们第一次可以在这个虚拟圈里完成整个循环。

　　网络中的很多沟通交流都是通过文字进行。十年前，网页就是一堆文字。如今在百度，我们看到，沟通已经越来越多地变成了图像和语音，特别是在移动互联网领域。百度公司成立已有十五年了，在这个方面的改进也持续了十五年，所以我想借此机会跟大家分享人工智能如何实现在图像和语音交流的方面。人工智能帮助我们理解互联网上的沟通，为我们在世界各地提供更好的服务和更多的信息。

　　首先我们来谈谈如何利用人工智能进行图像交流。

　　七年前，在斯坦福，我让我的学生们写程序识别咖啡杯的图像。他们用了当时最好的算法，而这就是他们得到的结果——他们发现到处都是咖啡杯。那为什么识别咖啡杯这么困难？图像放大以后来仔细分析，在这些红色的方块下，我们看到了一个咖啡杯，电脑也看到了。但电脑的问题是，只能单纯根据色素的亮度值、强度等数据定义咖啡杯。所以这是长久以来在电脑图像方面不足的地方，但是在过去几年我们已经认识到一种叫做神经网络的技术能够帮助电脑识别和发送图像。神经网络技术深受人脑工作模式的激发，通过大量神经元信号来互相传递脑电信息。神经网络模拟人脑，而算法使其更加智能，能够识别单个物体。

　　有一种对深度学习的热炒说法是神经网络模拟人脑很容易实现并应用。这个有点夸张了，只是为了让人们更好地相信我们能做到用神经网络模拟人脑。但神经学家们知道，我们目前还无法了解人脑的工作模式。我一个伯克利大学的朋友开玩笑说，神经网络有点像大脑的卡通画。我觉得他说得很对。深度学习就是一种神经网络，我们这些探索深度学习领域的人强烈意识到，我们所建立的智能平台是一种超级简单化了的卡通大脑，其更复杂的一面我们目前还无法了解。不过我们开发的软件程序可以使我们识别物体，比如我们给咖啡杯照一张相，把大量数据和图像传输给神经网络，它就能识别咖啡杯。这只是简单识别物体，现在我们已经能很轻松地做到这一点了，但是计算机视觉比这个要复杂得多。比如我们看这幅图像，这就不是看一个咖啡杯那么简单了。如果让你对这幅图进行描述，你可以写黄色大巴开在路上，右边的图描述的是一间洒满阳光的起居室。你能够准确写下图像的注解，源自你对这个图像的深度理解。那可不可以让电脑像我们这样理解图片呢？如果要让你用中文来注解这张图片，同样，你就看这个图片描述，这个棒球运动员准备击球，一个人在冲浪，一辆车停在现场。所以，电脑是否可以像我们这样理解图像，取决于我们对这个图像的注解。我想给你们一个惊喜，这个图解字幕不是人写的，而是电脑。它的工作原理是，我们开发一个系统，输入图像后可以自动提供图解。这是一种神经网络。百度是第一家使用现有的神经网络发明这项技术的公司，之后有好几家公司跟随我们的步伐。

　　所以我们今天的计算机视觉技术水平到底到达了一个什么样的高度呢？我们目前已经研发了一项能够深度识别并理解图像的技术。刚才我们用电脑输出的中文图解是第一次对美国观众进行展示。我们已经拥有了这项非常复杂的计算机视觉技术，然而目前的最大挑战是把它应用到哪里？计算机视觉技术在过去五年有长足的发展，不过我们并不太明确具体的应用场合，比如医学影像、图像搜寻，搜索你可以买什么衣服等等。百度以及其他公司拥有这种计算机视觉技术的公司可以更好地尝试开发相关产品和应用，虽然今天我们也不知道最好的应用是什么，但我相信未来几年计算机视觉技术会有更大的发展。

　　计算机视觉是深度学习带来的互联网革命之一。为什么目前深度学习（神经网络）会有如此快速的发展呢？这是因为我们建立了有效的深度学习算法。举个例子：建造火箭。火箭由两个部分组成，很大的引擎和很多燃料；宇宙火箭也不过是有更大的引擎和很多的燃料。如果只有很大的引擎但燃料不多便无法工作的，反之亦然。必须要由巨大的引擎搭配超多的燃料才行得通。同理，建立一个深度学习算法就必须要建造一个很大的神经网络作为引擎来支撑算法，于是我们就可以建造更大的神经网络来支撑更复杂的算法；而数据就是燃料，在如今这个数据化社会的时代，从医疗保健到金融到教育各个领域，我们能够较以前拿到更多的数据。巨大的引擎（神经网络）和不断累积的燃料（数据）结合在一起，使我们能建造巨型火箭（深度学习算法）去腾飞。近年的深度学习就是让火箭腾飞。大概在2010年，最大的神经网络有一千万个连接点，即模拟神经元和模拟线路连接。几年前我就在谷歌开始了一个云项目，用谷歌的基础网络（一千台电脑）建立十亿个连接点的神经元网络，百倍于2010年，这其实为深度学习带来很大进展。后来我意识到这是一项非常昂贵的技术，得用到一千台电脑。所以我和几个朋友希望能换一种方式，用其他技术来代替这么多台电脑。于是我们只用了三台电脑，使用GPU技术（GRAPHICS PROGRESSING UNIT），即用电脑里的一块硬盘设计图像处理技术，可以建立十倍于过去的庞大神经网络。用GPU作为基础技术，百度已经在硅谷及中国建立了越来越大的神经网络。从百度的角度来说，我们是第一个将GPU技术应用到深度学习的公司，这就像是一个火箭引擎，能够支撑我们完成很多深度学习的工作。我们也很高兴看到有很多公司正在追随我们的脚步。

　　接下来我们来谈谈语音识别。

　　举个实例来说明深度学习是如何改变互联网世界的。现在，百度很多用户使用语音搜索，因为中国有很多年幼的用户、年长的用户或文化程度不高的用户无法使用拼音打字搜索，所以语音是目前唯一可以让我们知道他们需求的搜索方式。手机在安静的环境中可以很好地识别你的语音，但如果在嘈杂的环境中，比如开车时或在熙攘的餐厅中，语音识别效果就不是很好。我们要想办法解决这个问题。以前的语音识别系统非常复杂，工程师要编写软件，将语音小片段输入系统中，通过语音匹配来识别你所说的话。几个月前，我们决定用神经网络来替换这种传统的语音识别方式，通过建立庞大的神经网络（火箭发动机引擎）来进行语音识别。对于火箭燃料，一般来说最大的语音识别数据为两千小时，但我们想使用七千小时的语音数据，是之前燃料的三倍多（大家可以查阅学术文章），可是又觉得不够，又说从这七千小时语音数据总结出十万多个小时的数据，终于准备好了火箭燃料。通过矩阵排列把这些数据结合在一起，我们可以在较短的时间当中建立一个庞大的语音识别系统，比目前其他的公共API系统都好很多，不仅在安静的环境中，即使在嘈杂的环境中也表现得很好。秘诀就是我们有很大的引擎和很多的燃料。

　　为什么要说这个语音识别问题呢？现在市场上有很多的相类似产品，而语音是互联网改革的一个重要因素。全世界都在改进移动互联网，在这个方面，中国其实领先于美国和其他国家很多。移动互联网已经成为我们生活里很重要的部分，所以我们会在小小的键盘上用打字的方式沟通。即使在嘈杂的环境中，如果我们通过讲话就给对方发消息，便能让语音识别更好地为我们服务。即使我在开车，我的手机在副驾驶座上，我也可以通过说话便能给我的另一半发送消息。如果语音识别继续改进的话，我很乐意围绕语音界面来重新设计手机的功能。如果语音识别能更好地为我们工作，它就会改变我们在座各位和手机的相互作用。

　　除了移动设备外，语音识别也会对互联网带来变个性的影响，包括汽车显示界面和家用电器等。我想在不久的将来，你可能不需要用到遥控器了。我家里有五个电视机遥控器，但总是找不到，以后我也不需要用到它了，直接对着电视机说话就行。我现在还没有下一代，但是我希望有一天我的儿子或孙子一辈，可以问我说：在我小时候，你跟你的微波炉讲话它却没有反应这是真的吗？太不礼貌了。我相信语音识别技术会给我们的生活带来很多改变。

　　总结一下，互联网的交流方式有很多，如文字、图像和语音等。以一个科学家的身份来说，互联网上有太多的数据需要处理，而我们可以以引擎和燃料通过深度学习的方式来解决这些问题。深度学习可以帮助计算机理解所有的数据，是目前已知的改变互联网的最好技术。通过这种人工智能技术，我们很有可能通过文字、图像和语音来改变和我们身边所有其他技术的交流方式，也可以带来其他领域如金融、医疗保健和教育这些方面的变化。你们可以看出来我非常兴奋，我相信人工智能能够让我们的生活变得更加美好。

　　另外还有些炒作的内容，过去几年有很多人提到了邪恶的机器人可能会带来负面影响，电脑变得比人更聪明由此掌控这个世界。尽管我们现在掌握的技术是非常好的，但神经网络与人脑相比还远远处于原始状态，我个人也不知道怎么建造出有自我感知能力的机器人。当然，我对于技术是很有激情的，我相信人工智能会改变我们的生活，给成千上万人的生活带来变化。有些炒作或担心我觉得没有必要。期待未来！非常感谢！

　　Q&A

　　问：Andrew，我想请教几个问题。这些算法并不是刚刚存在，十五年前就有研究，期间发生了很多变化。百度并不是唯一一家研究深度学习的公司，你的前东家谷歌也在努力钻研，很多其他公司也都在做。什么改变了？更多的燃料，更大的数据库？更快的处理能力，更大的引擎？

　　答：我了解到一个事情，就是比如你使用一个软件，在很慢的机器里没法运行，但用更快的电脑就可以了。我们现在的优势就是电脑越来越快，数据越来越多。做软件其实是个很难的事情，但是比起二十年前，做软件的环境已经好很多了。

　　问：现在价格已经显著下降了。Andrew，当年在谷歌由16个程序员使用一千台电脑没人做一个10亿连接点的链接是很夸张的。但是现在做这个就很便宜了是吧？

　　答：降低成本的很大一个原因是我们意识到，还有很多更好的技术值得应用。谷歌在云技术方面有很大的优势，当年我带领谷歌深度学习团队“绿色团队”工作时，我们用云技术建立神经网络是没问题的，我们用这个方法解决了很多问题。但是随后我们发现，我们可以不用云技术，转而用高效的超级计算机技术来降低成本，可以建立更大的模型。如果在云里面将需要成千的电脑来完成这项工作。电脑的寿命只有几年时间，因此必须要防止电脑坏掉。所以百度投资建造了HPC电脑，使用HPC技术建立神经网络比之前几代技术都要好很多，目前百度的这项技术是世界领先的。

　　问：刚才Andrew已经介绍了什么是深度学习。他提到一个有趣的事情是，很多人只需通过智能手机就可以上网。其中一个应用就是语音识别，深度学习可以让从未上过网的人们接触到网络，是这样吗？

　　答：智能手机是个很亲密的装置。我在中国有一个iPhone 6 plus，我很多美国朋友都问我为什么不用iPhone 6，plus太大了。但是在中国大家就觉得我的手机很小。在中国，智能手机大屏幕可以来工作，这是很好的机会，做更多的事。在美国我们一直在用桌上电脑，没有很多人用移动电脑。但是在中国这是很好的机会。

　　问：最后一个问题，Andrew谈到了一些关于深度学习的恐惧，当然他是夸张的，但是有些聪明的人都被吓到了。Elon Musk 和Steven Hawking找了一些人工智能专家组成了一个未来学院。你自己觉得为什么他们会如此恐惧和担忧？

　　答：有时候我觉得霍金掌握了一些关于秘密的人工智能技术，而我不知道。但我不觉得会有聪明的邪恶机器人掌控地球，不过这样的炒作实际上给人类社会提出了不同的挑战，比如就业。在很久时间里，技术给人类带来了很多机会，但从历史角度来说，技术提出了很多就业方面的挑战。比如美国，我们花了两百年从农业经济发展到如今不到2%的人从事农活。技术取代了农业专业，农民可以让后代做不同的工作，而我们的教育系统可以实现他们的愿望。我们现在面临的挑战是，技术的变革越来越快，因此需要重新训练人的技能，比如汽车产业，美国有三百五十万的卡车司机必须重新找工作。如今的教育系统面临着的困难是，要训练大量的人适应新的生活方式，而不是训练后代。我担心的是没办法及时训练需要的人。机器人的恶意炒作实际上是严肃的劳工话题，是学术界、政界的障眼法。

　　————关于BIG————

　　百度旗下科技活动品牌 The BIG Talk创办于2014年6月，致力于成为连接前沿科技和商业价值，解读未来趋势的思想平台。从2015年开始，The BIG Talk将成为季度性的全球峰会，每一期我们都将邀请各行业领先的科学家、企业家、科技博主与记者参会，共同讨论引领科技潮流的前沿话题。