汤晓鸥教授：有了原创技术中国的AI才有未来-观点-专题-爱吧机器人网

实际上人工智能难就难在并不是所有的东西都那么做的，有些东西是超出我们的智商的。比如说这张图片，哪个对我来说是更重要的，但是计算机是把前面的判断出来，这个现在是可以解的，现在我搜集大量小孩撒尿的照片还是可以训练出来的，但是不是那么容易的，有的时候领导讲话也是这个姿势。

下面这张图更难理解了，我用我小孩的图，你们做图像理解，你们能不能理解这些图。后来他们看了以后都放弃了这个研究方向，比如说这是我小孩的第一个女朋友，这是我在俄罗斯给他买的玩具，关系还是很好的，但是进展的有点快。他才六个月，很有科学家的探索精神。

然后我们又做了一些有趣的东西，把这个图像把物体切割出来，我们把一组图同时切割出来，再做一些好玩的东西。

接下来我们希望跟一些电影结合起来，我们就找了小兵张嘎卡通片，我们进行图像搜索，找出了相似的图像和照片，把这个替换掉了，这个用PS是很容易做的，但是十年前是很难做的。我们从检索到分割，所有的步骤都是动画做的，这是十年前的工作，也是发表在顶级的会议上。这个是小兵张嘎跟他的妹妹，这是我的小孩跟他的女朋友。这是小兵张嘎跟特务。

刚才讲的是人脸识别，图像方面我们也做了开创性的工作，在我们做之前，大家讲这张图有一些毛病，然后再评价这个Quality，我们做这个工作这张图是很完整的图，但是我们判断这张图有多美、多漂亮。比如说这两张图，按照传统算法，左边是模糊的图，右边是清晰的图，但是我们判断左边这张图是有意义的，怎么让计算机来判断一个图美，还是不美，其实我们也不知道怎么做。所以我让学生到图书馆把摄影书拿回来，我们再用计算机来识别，它的景深，物体的白色在什么位置，然后学突然这张图是漂亮，还是不漂亮的。它有什么用呢？我们在网上搜索了大量的图，搜索完了以后我们可以把漂亮的图放在前面，差的放在后面。或者说你在手机牌照的时候，我们可以教你怎么牌照，怎么取景，怎么样使用大光圈等等。

我们在MSN上还做了一些特效，加一些眼镜，如果大家现在用APP可以在脸上做各种各样的特效，这是我们十年前做的产品，已经在MSN上用了很长时间。但是我们做这么多产品，大家没有一点感觉，根本不知道我们做了什么东西，就是因为做的很辛苦，而且效果也没有那么好。

另外一个东西就是去雾，这是我们专门给北京做的，当时08年奥运会的时候，所有的报道都讲北京的雾霾太严重。所以我们就做了一个算法把雾去掉了，把三维也算出来了，后来奥运会就成功的举办了。

比如说传统的去雾算法是这样的，等我们去完雾以后是这样的，我们不但把雾去掉了，还能把前景和后景进行模糊。

刚才我讲的都是在深度学习发生之前，所以很多事做的非常难。突然有一天，有一个下棋的下了几局棋结果输了四盘，所有人都知道了人工智能这个词，如果他再多赢两盘的话，今天就是我来讲了，就是科协来讲了。如果我们听到虚拟增强现实、机器人、无人汽车这里面都有深度学习的影子，深度学习改变了整个产业，深度学习的核心有三块。

一是你要设计一个网络，这个网络很多人都可以设计。但是每个人设计的网络水平是不一样的，有的人设计的网络，它的智商大概跟猴子的智商差不多，有的设计出来小学生的智商，有的设计出来博士生的智商。你设计完了以后它的脑子是空的，比如说我68年出生的时候，我是问不出来那些问题的，要经过七年的学习，最后才达到我能上小学的水平，一定要经过学习的过程。机器学习就是大数据训练的过程，大数据训练就需要超大的数据，来训练无穷大的网络。这么大的数据，这么大的网络要训练，又需要大的机器，大的GPU集群，要进行并行运算。所以这三个就是巨大的门槛，为什么说谷歌和FaceBook这些公司才能取得巨大的进展，而我们创一个小的公司，忽悠一下做一些布局，就想做人工智能，这是不大可能的，其实这是有很多准备工作要做的。

我简单讲一下人工智能深度学习的历史，其实深度学习是06年就开始出现的。06年到2011年之前一直在走弯路，基本上是不管用的，在微软里面做语音识别，取得了巨大的突破，比传统算法高了十几个百分点，以前我们都是每年走一个点，现在相当于一年走过去十年的进步。2012年又取得了更大的进步，他刚做完这件事情四个月谷歌就买了这家公司，据说是五千万美元，我们觉得这对于一个教授来说，这个钱确实是挺多的。但是后来谷歌仅过了一年又买了一家公司花了6.6亿美金，只有12个人，一个产品也没有，号称是2012年做深度学习的。

所以我跟投资人一直强调一点，我们是2011年开始做深度学习的，他们是12个人，我们是30个人，过了一年多，大家都知道了，它下棋赢了，对谷歌造成的PR效应绝对值这个钱了。紧接着谷歌、雅虎大家都开始布局，而且进展是非常快的。

首先我回答一下我们经常做的事情，比如说人脸检测，我们是全球第一个用深度学习做人脸检测的，这是非常难的图，我们基本上把所有的脸都抓出来了，这是微软做出来的效果，这是我们跟微软相比，微软漏掉的图。所以我们的人脸检测目前是全球最准的检测器，还有人脸定位，我们也是第一个用深度学习做人脸定位的，我们的五点定位和后面的六十几点和106点都是我们做的，几乎所有的公司都在说汤老师我在用你们的算法，我们有些问题想问一下。在中国基本上别人用你的东西，你是挣不了钱的，但是一定要提供售后服务，这个是业界的标准。

最近我们做的另一个有趣的工作，如果我们在互联网上看到两个人或者是几个人的照片，我们可以用深度学习来判断这两个人的关系。我们用这两个人相互的姿态和相互的表情，能判断两个人到底是什么样的关系，是亲密的关系、朋友的关系，还是敌人的关系。比如说奥巴马和拜登，我们可以判断八个纬度不同的关系。

（播放视频）我们可以在视频里实时判断两个人的关系，比如说这段视频是夫妻两个人吵架。我们可以看到他们开始吵架了，这个时候他们的关系就好了，蓝线上来了，所以我们是实时判断两个人的亲密关系。