杨毅:我相信它肯定会越来越好。
李彦宏:谢谢杨毅。
【嘉宾杨毅下晨
李彦宏:这是有关 自然语言 理解的一些介绍,下面再给大家展示一个 自然语言 理解的应用。这个应用的领域其实也不是特别新,就是自动翻译。你要想把一种语言转换成另外一种语言,你必须得理解这种语言在说什么。它不是简单的把语音转成文字,更多的是需要你知道它是什么意思。今天的百度翻译已经可以支持27种语言、数百种不同方向的对译了。现在我们来看一下百度翻译有多大程度上能够理解人的 自然语言 。
【播放百度翻译演示视频】
李彦宏:这其实不是一个演示,这是一个实际的例子。今天当大家打开百度翻译,它已经具备了这样的能力。所以我们看到对于 自然语言 的理解一旦能够达到一定程度,它就又打开了很多新的可能性。
下面我们讲百度大脑的第四个能力,就是用户画像的能力。用户画像也是基于百度的 大数据 以及 机器学习 的方式所获得的一个能力。现在我们已经有接近10亿的用户画像,其中对于他们的识别我们已经用到了千万级的细分标签。这些标签主要在两个维度上体现,一个是通用的维度,它的人口学特征、短期的意图、位置属性;也有一些垂直行业的特征,他在金融领域是什么样的情况,它在保险、医疗、旅游、健康等领域都有什么样的爱好、习惯,这些东西都共同构成了我们的用户画像。
用户画像有什么用途?首先给大家举一个百度的例子。
最近几个月大家可能注意到了手机百度,除了上面的搜索框之外,下面增加了各种各样的文章。这些文章有时候是新闻,有时候不见得是新闻,但是确实是你感兴趣的东西。之所以它能够把你感兴趣的东西推荐出来,就是因为我们利用了百度的用户画像。我知道你是一个什么人,你喜欢看什么样的东西。有了这样的个性化推荐,过去两个月手机百度推荐的文章的阅读量增长了10倍,这种能力就是靠百度给用户打了60多万个标签,而每个用户都是这其中某些标签组合后描画出来的,所以它可以做到千人千面,准确地讲,不是千人千面,而是万人万面,亿人亿面,每个人对于百度来说都是不一样的个体。所以,每个人看到的信息和文章都是不一样的。
这是一个百度内部使用的例子,我们也认为用户画像可以在很多其他领域使用。我们再给大家展示一个外部的例子。这是6月份上映的电影《魔兽》,它的出品人是传奇影业,他们就是利用了百度大脑的用户画像功能来提升它的票房。那么它是怎么做到的呢?我们也来看一个视频。