我们来看一下这个案例。
【播放 语音识别 技术演示视频】
大家看到,在刚才的过程中,百度大脑一直在实时地识别双方的对话,尤其是从电话里面传出来的声音,有的时候并不是那么清晰,对于人来说要完全听清楚每一个字其实都是有一定难度的,但百度大脑的 语音识别 能力已经可以做到非常精准,并且可以根据用户的问题、实时推荐下一步的工作要怎样应对,这是一个 语音识别 应用在企业日常运作中的一个例子,就像我刚才讲的,应该还有很多很多应用场景,大家可以根据自己的背景去想象。
语音识别 是一方面,语音合成又是另外一个方面。语音合成是什么意思呢?就是机器可以把文字转换成语音,把它念出来、读出来。今天的语音合成也有了和过去非常不一样的体验,最主要的就是,它可以用比较自然的人的声音读出来,而不是像过去机器一样,每一个字之间的停顿都是一样长,是匀速的、没有表情的。这样的自然体验,当然对于用户的黏性来说也是有很大的作用。
现在,百度每天要响应2.5亿次的语音合成请求,这些请求用来干什么呢?比如说,过去人们看小说,今天可以在手机百度里面听小说。慢慢的人们听小说的时间也更长了,过去每个人平均在小说频道会花大概四十分钟左右的时间,现在要花将近两个半小时,就是因为把计算机合成出来的语音读出来给我们听,确实是一个很不错的体验,甚至是一种享受。那么这种读出来的小说,和我们平时听到的广播有什么本质上的不一样?其实非常不一样。广播是每一个人听到的东西是一模一样的,而今天的语音合成,它可以做到每一个人听到的东西都是不一样的,完全根据你个人的需求进行定制,这就是为什么它的(用户)黏性会很高,它能够具备自然发声的能力。不仅如此,其实我们可以想象一下,它如果能够模拟一个自然人的表达方式或发声能力,它就可以模拟任何一个你喜欢的人的说话方式。
不知道有没有人注意到,百度地图里导航功能就是用语音来进行的,其中有一个选项可以用我的声音进行导航。其实导航的那些话我并没有说过,机器只是根据我平时说话的情况合成了一个李彦宏的声音。这样的声音不仅在我身上可以做到,在很多其他人身上也可以做到。
我们现在来给大家展示一个合成的声音。我们合成了一下13年前已经去世的张国荣的声音,我们来放一段video。
【播放情感语音合成视频】