实际上 人工智能 难就难在并不是所有的东西都那么做的,有些东西是超出我们的智商的。比如说这张图片,哪个对我来说是更重要的,但是计算机是把前面的判断出来,这个现在是可以解的,现在我搜集大量小孩撒尿的照片还是可以训练出来的,但是不是那么容易的,有的时候领导讲话也是这个姿势。
下面这张图更难理解了,我用我小孩的图,你们做图像理解,你们能不能理解这些图。后来他们看了以后都放弃了这个研究方向,比如说这是我小孩的第一个女朋友,这是我在俄罗斯给他买的玩具,关系还是很好的,但是进展的有点快。他才六个月,很有科学家的探索精神。
然后我们又做了一些有趣的东西,把这个图像把物体切割出来,我们把一组图同时切割出来,再做一些好玩的东西。
接下来我们希望跟一些电影结合起来,我们就找了小兵张嘎卡通片,我们进行图像搜索,找出了相似的图像和照片,把这个替换掉了,这个用PS是很容易做的,但是十年前是很难做的。我们从检索到分割,所有的步骤都是动画做的,这是十年前的工作,也是发表在顶级的会议上。这个是小兵张嘎跟他的妹妹,这是我的小孩跟他的女朋友。这是小兵张嘎跟特务。
刚才讲的是 人脸识别 ,图像方面我们也做了开创性的工作,在我们做之前,大家讲这张图有一些毛病,然后再评价这个Quality,我们做这个工作这张图是很完整的图,但是我们判断这张图有多美、多漂亮。比如说这两张图,按照传统 算法 ,左边是模糊的图,右边是清晰的图,但是我们判断左边这张图是有意义的,怎么让计算机来判断一个图美,还是不美,其实我们也不知道怎么做。所以我让学生到图书馆把摄影书拿回来,我们再用计算机来识别,它的景深,物体的白色在什么位置,然后学突然这张图是漂亮,还是不漂亮的。它有什么用呢?我们在网上搜索了大量的图,搜索完了以后我们可以把漂亮的图放在前面,差的放在后面。或者说你在手机牌照的时候,我们可以教你怎么牌照,怎么取景,怎么样使用大光圈等等。
我们在MSN上还做了一些特效,加一些眼镜,如果大家现在用APP可以在脸上做各种各样的特效,这是我们十年前做的产品,已经在MSN上用了很长时间。但是我们做这么多产品,大家没有一点感觉,根本不知道我们做了什么东西,就是因为做的很辛苦,而且效果也没有那么好。
另外一个东西就是去雾,这是我们专门给北京做的,当时08年奥运会的时候,所有的报道都讲北京的雾霾太严重。所以我们就做了一个 算法 把雾去掉了,把三维也算出来了,后来奥运会就成功的举办了。
比如说传统的去雾 算法 是这样的,等我们去完雾以后是这样的,我们不但把雾去掉了,还能把前景和后景进行模糊。
刚才我讲的都是在深度学习发生之前,所以很多事做的非常难。突然有一天,有一个下棋的下了几局棋结果输了四盘,所有人都知道了 人工智能 这个词,如果他再多赢两盘的话,今天就是我来讲了,就是科协来讲了。如果我们听到虚拟增强现实、 机器人 、无人汽车这里面都有深度学习的影子,深度学习改变了整个产业,深度学习的核心有三块。
一是你要设计一个网络,这个网络很多人都可以设计。但是每个人设计的网络水平是不一样的,有的人设计的网络,它的智商大概跟猴子的智商差不多,有的设计出来小学生的智商,有的设计出来博士生的智商。你设计完了以后它的脑子是空的,比如说我68年出生的时候,我是问不出来那些问题的,要经过七年的学习,最后才达到我能上小学的水平,一定要经过学习的过程。 机器学习 就是 大数据 训练的过程, 大数据 训练就需要超大的数据,来训练无穷大的网络。这么大的数据,这么大的网络要训练,又需要大的机器,大的GPU集群,要进行并行运算。所以这三个就是巨大的门槛,为什么说谷歌和FaceBook这些公司才能取得巨大的进展,而我们创一个小的公司,忽悠一下做一些布局,就想做 人工智能 ,这是不大可能的,其实这是有很多准备工作要做的。
我简单讲一下 人工智能 深度学习的历史,其实深度学习是06年就开始出现的。06年到2011年之前一直在走弯路,基本上是不管用的,在微软里面做 语音识别 ,取得了巨大的突破,比传统 算法 高了十几个百分点,以前我们都是每年走一个点,现在相当于一年走过去十年的进步。2012年又取得了更大的进步,他刚做完这件事情四个月谷歌就买了这家公司,据说是五千万美元,我们觉得这对于一个教授来说,这个钱确实是挺多的。但是后来谷歌仅过了一年又买了一家公司花了6.6亿美金,只有12个人,一个产品也没有,号称是2012年做深度学习的。
所以我跟投资人一直强调一点,我们是2011年开始做深度学习的,他们是12个人,我们是30个人,过了一年多,大家都知道了,它下棋赢了,对谷歌造成的PR效应绝对值这个钱了。紧接着谷歌、雅虎大家都开始布局,而且进展是非常快的。
首先我回答一下我们经常做的事情,比如说人脸检测,我们是全球第一个用深度学习做人脸检测的,这是非常难的图,我们基本上把所有的脸都抓出来了,这是微软做出来的效果,这是我们跟微软相比,微软漏掉的图。所以我们的人脸检测目前是全球最准的检测器,还有人脸定位,我们也是第一个用深度学习做人脸定位的,我们的五点定位和后面的六十几点和106点都是我们做的,几乎所有的公司都在说汤老师我在用你们的 算法 ,我们有些问题想问一下。在中国基本上别人用你的东西,你是挣不了钱的,但是一定要提供售后服务,这个是业界的标准。
最近我们做的另一个有趣的工作,如果我们在 互联网 上看到两个人或者是几个人的照片,我们可以用深度学习来判断这两个人的关系。我们用这两个人相互的姿态和相互的表情,能判断两个人到底是什么样的关系,是亲密的关系、朋友的关系,还是敌人的关系。比如说奥巴马和拜登,我们可以判断八个纬度不同的关系。
(播放视频)我们可以在视频里实时判断两个人的关系,比如说这段视频是夫妻两个人吵架。我们可以看到他们开始吵架了,这个时候他们的关系就好了,蓝线上来了,所以我们是实时判断两个人的亲密关系。