4月29日消息,一年一度的GMIC全球移动 互联网 大会在北京举行,在未来峰会上,香港中文大学教授、信息工程学系系主任汤晓鸥表示:中国的 人工智能 技术想要成功,必须踏实做研究,更多的原创技术才能帮助到中国AI的未来。
汤晓鸥认为:“ 机器学习 就是 大数据 训练的过程, 大数据 训练需要海量的数据来训练无穷大的网络,这么大的数据需求以及GPU集群需求,并且要进行并行运算,所以这就是巨大的门槛,导致只有谷歌和FaceBook这些公司能取得大的进展, 人工智能 需要大量的前期准备,随便一个创业公司做 人工智能 ,是不大可能成功的”。
谈到中国 人工智能 的未来时,他指出:中国的原创技术不应该去B,也不应该去A,也不应该去T,我们应该去H,原创的技术才是核心能力,才是竞争力。(定西)
以下为汤晓鸥演讲实录:
今天的会场真的很大,我以前其实做过很多报告,从来没有碰到过这么多没人坐的地方。非常感谢长城会邀请我来做报告,其实我还是比较难请的。一般来说,这是我第一次做学术以外有点商业性质的报告,为什么第一次没有给长城会,我认为长城会更加高端大气,更加适合我演讲的风格。再一个是其他的讲坛没有请我,所以我也没法去。
我昨天晚上写了一个讲稿,我的题目叫做《 人工智能 的明天,中国去哪儿》,看起来是很大的题目,其实我讲的内容比这个更大,如果讲明天,一定要从昨天开始,后来我决定从1968年开始讲,因为我是1968年出生的,之前的事我也特别不是清楚。
1968年出生以后,我发现外面很乱,学校都不上课了。我就问我妈妈说,这是怎么回事,她说是文化大革命。然后我想,算了,既然学校不开,我也不用上学了,所以就等了七年,七岁的时候上学了,结果在学校一呆,就呆了四十年,四十年下来以后,第一次接触 人工智能 是1992年,在MIT我上了一门课,我记得当时那位教授发明了 人脸识别 的 算法 。当时大家都很激动,这个 算法 好像能够在实验室里很好的识别人脸,他说这个东西将来非常有用,可以在公安各种各样的场合进行应用。
但是等了整整十年,也没见到用起来。所以我就在我的实验室也开始做类似的实验,等我开始做才发现这个东西根本不靠谱,根本用不起来。但是我们还是跟国家申请了很多钱,因为要反恐,所以我们花了很多钱,但是做的东西其实没有太大用。后来我去了微软,到微软就好办多了,因为微软不搞监控。它的东西主要是玩,玩的话就无所谓管用还是不管用了,你觉得不好玩,你就不玩了。
当时我们一直有一个想法,怎么样把计算机视觉、 人工智能 的东西用到日常生活中。因为我们有一个非常强大的团队,我们不想只是发一些文章,希望它真正用起来。但是在2005年,这个东西基本上用不起来。你们在日常生活中看不到人工视觉任何的用途。所以我在很长时间从2005年开始,我所有讲座的题目都叫生活中的计算视觉。
我希望把我们这些 算法 能够在生活中起到一些作用。但是当时有一个问题,因为我们未来在顶级会议上发文章,大家做工程的知道,如果你用几页纸的公式,你这个东西基本上是没有什么屌用的,所以这两个矛盾是非常尖锐的。一方面你要保留你的工作,一方面你要做点有用的东西。后来我们决定必须要找最聪明的人,把两件事情结合在一起做起来。
所以我花了很多心思想,我们做什么东西才有用,让大家能够用起来。这时候我的孩子就出生了,他是03年出生的,出生以后我在微软和北京、香港之间来回跑,每次见到他的时候我会拍很多照片,因为见的机会比较少,他长的又比较漂亮,所以我拍了很多照片,而且不断的拍。拍了大量的照片以后太太很不高兴,你拍了一万多张,你不管,这些照片我也找不找,后来我跟的学生说,大家帮我整理一下照片吗?后来我们做了一个项目用计算机自动的帮助大家整理照片叫Photo Tagging,可能大家在手机上已经用这个了,但是我讲的都是十年前的工作,因为我讲的都是历史。十年前我们做了一项工作,里面有很多技术,我每讲一项技术其实都是一篇顶级会议的文章。
比如说我们做的人脸检测,我们把相册里面的人脸检测出来,然后再进行标注,做了各种各样的UI设计,我们把这个东西做到微软的Photo Tagging为里面。后来我们做图像的搜索,我想搜索一下我的小孩穿绿一衣服的照片,把穿这件衣服的照片搜索出来。后来我觉得前面这十几张挺漂亮的,我把它选出来,然后做了一个识别软件,你用计算机自动判断出来,这个照片里面哪些部分是重要的,你不能进行遮挡,同时你要把整个背景全部盖住,同时你要均匀的分布,所有的条件同时满足,要在几毫秒之内算出来,这个技术现在是不难的,但是十年前是相当难的。所以为什么那时候专门发表一篇文章专门干这件事情,我做了很多特别效果的软件,这时候我太太不跟我吵架了,她觉得我干了一点有用的事情。
我刚才给大家看的其实都是有照片的,我判断这个照片里面哪个地方重要,哪个地方不遮挡,我只要用人脸检测就可以了。但是如果是普通照片,什么地方我不应该遮挡,什么地方是重要的,这涉及到图像内容的分析,这就涉及到更加智能的东西。图像智能在学界是研究很久的,我们研究的时候前面也已经做了十几年了,但是我们是第一个用 大数据 的方法来做这件事情的,现在大家经常听到 大数据 ,其实十几年前已经做这件事情了,只是我们叫的名字不一样。
我们可以看到数字,过来三个学生,要了两万张图像,我们觉得很了不起的,现在的数据量是不一样的, 算法 也是不一样的。那个时候能够做到是相当了不起的,所以我们最后做出的结果是这样的,我们计算机可以判断出一张图像哪个是最重要的。
还有一个好玩的应用,这个东西你把图像缩小以后,你就看不清了,如果你把中间重要的部分切出来再缩小,你还是可以看清图片的,所以这个实际上还是很有用的,这是照片系统里面很多图很容易把里面重要的部分弄出来。