为什么给大家展示这个呢?一方面我知道,很多人是张国荣的粉丝,另一方面,其实合成张国荣的声音比合成一般人的声音要更难。为什么呢?因为他的国语语料相对来说比较少,所以,我们能够合成他的声音,就一定能合成很多很多人的声音。
对于百度来说,百度大脑的语音合成能力可以让每个人都有自己的声音模型,你只要按照我们的要求说50句话,我就学会了你说话的方式。当你拥有自己的合成声音之后,比如说家里的老人想经常听你说一说,你把这个声音合成出来让他听就好了。或者说你平时要加班,小孩睡觉之前想听个故事,你合成自己的声音给孩子讲一遍这个故事,听起来也会很亲切。所以大家可以看到,这些语音的能力会带来各种各样新的可能性。
下面我给大家讲一下图像。用一个比较专业的术语来讲,我们叫做计算机视觉。这也是现在广义的 人工智能 中非常重要的领域。说到图像的识别,我想大家自然而然会反应出来一个什么应用呢?应该就是我们通常讲的 人脸识别 的应用。 人脸识别 的准确率今天已经达到了99.7%,已经非常非常准确了。现场的屏幕能够识别出来我们一些嘉宾,根据他们的人脸,我们知道这个人是谁,这个准确率已经比较高了。刚才进来的时候,大家也可以看到一些 人脸识别 的展台,我们是可以识别很多很多人的面孔的。
那么, 人脸识别 这个技术是怎么实现的?我们要对人脸的特征提取它的关键点,把这些点打出来之后要做一些处理,把它连成一个面部表情,据此来识别这样一个人。这就使得当一个人的表情发生变化的时候,我们仍然能够识别出来这个特点是没有发生变化的,比如他在哭,他在笑,他在愤怒,他在迷茫,他的表情是不一样的,但是他的表情特征是不变的,所以我们仍然可以很准确地识别出这样一个人。
除了面部识别之外,图像识别还在很多领域也有应用。我们再看一个,这是上海的一个全景图,大家使用百度地图有时候需要看这样一个景,到一个陌生的地方之前,想看看到那看到的样子是什么。当然,这个图不是一个简单的图像的采集,我们采集了图像之后要对图像中各种各样的目标进行识别,这个大楼是什么样的大楼,那个路牌上面写的什么字,对写的这个字识别的话,跟 人脸识别 还不太一样,这里面有一个特殊的图像识别的技术就是OCR,这个是二十多年前我们的一个专利,到今天它的准确率已经非常高了,下面我们也是用一段视频给大家看一下百度地图是如何利用图像识别的。