我们今天想重点介绍的四个功能:一个是语音的能力,一个是图像的能力,一个是 自然语言 理解的能力,还有一个就是用户画像的能力。这几个能力虽然都是属于 人工智能 中比较典型的应用,但是它的发展阶段也是很不一样的。比如说语音,现在就已经进入了相对比较成熟的阶段,在很多很多领域中都开始进入实用阶段,识别的准确率也已经很高了。图像最近几年也有了长足的进展。这两者都属于 人工智能 当中认知的部分,所以深度学习的 算法 非常适合处理这些形式。
相对来说, 自然语言 的理解、或处理能力就更加难一些,并处在一个更加早期的阶段,因为它除了认知方面的能力之外,还要求有推理、规划等等能力,才能够真正地理解 自然语言 。用户画像的能力,其实从传统意义上来讲并不是 人工智能 的领域,但是由于近年来 大数据 的发展,尤其是大型 互联网 公司有能力搜集很多用户的数据之后,再用 人工智能 的方法、用 机器学习 的方法,就可以把一个人的特征描绘得非常非常清楚。所以今天,用户画像也变成了 人工智能 、或者说变成了百度大脑的一个重要功能。
下面我就分别来讲一下这几个功能,这几个百度大脑的功能。
我们先看一下语音,刚才也讲了应该说今天 人工智能 发展的最成熟的一部分能力,而语音又分成两个方向,一个是语音的合成,一个是语音的识别。
我们先看看 语音识别 。今年MIT Technology Review(《MIT 科技 评论》)杂志,把百度的Deep Speech 2评为“2016改变世界十大突破技术”,这就是百度的 语音识别 引擎,它已经到了第二代,主要就是使用了深度学习的能力。这样的一个技术已经可以把 语音识别 的准确度做到多少呢?大概可以做到97%的准确率,这样的准确率已经达到、甚至有时已经超过了人对语音的识别能力。当然,我们讲这些能力不是为了简单地去炫耀这个数字有多好,我更感兴趣的是,当你有了这些能力时,它可以在什么领域应用,又可以在哪些方面帮助到我们,这其实才是最最让我们觉得兴奋的地方。我个人的想象力很有限,整个百度几万人的想象力也是有限的,但是这些能力如果赋予到很多很多人,赋予给几亿人、几十亿人,这个可能性几乎是无限的。先用我们比较有限的想象力来给大家举一个例子。
这是一个销售、电话销售的例子,是一个2B(To B)的应用。这个应用是什么意思呢?很多的公司其实都有电话销售这样的一个部门,都需要这样做。但是销售,尤其是电话销售这个行业,大家知道流动性是比较大的,很多销售都是新人,新人的话就会经过一定的时间培训才能够上岗,但即使是经过培训的话,也不一定有那些有经验的销售那么出活儿、出单。其实有经验、最优秀的销售和一般、较差的销售相比,在效率上有非常大的差别。我们怎么才能够让新手、让没有经验的销售,能够具备最优秀销售的销售能力?过去的做法是,把优秀的销售经验总结成册子让大家去学习,让这些销售去背,但是怎么活学活用还是需要一个过程的。而有了这么高精度的 语音识别 能力之后,我们就可以彻底改变这样一个状况了,甚至可以让一个刚刚上岗一个月的销售就具备最优秀销售的能力,也就是说,我们可以通过实时的 语音识别 甄别出用户或客户在问什么问题,然后我们再实时地在屏幕上告诉新的销售,最优秀的销售是怎么回答这个问题的。过去没有实时的 语音识别 的时候,你需要线下学,学完了之后上去用、很容易就忘了,但是有了这个系统之后,我们就可以解决这样的问题。