从1945年到2015年,以 人工智能 为题讲述了许多很美的故事,模仿游戏便是其实之一。但春冬轮回,在 人工智能 的世界里,人们的幻想像一个小球一样,被抛得高高,也注定摔得惨惨(1974与1987年两次 人工智能 寒冬)。
这一次,人们对 人工智能 的幻想被扔得更高了。强 人工智能 、机器毁灭人类的说法时常有。但这更像是预言家的说法,像阴谋论。目前的 人工智能 还是基于逻辑与数据、没有直觉,对情感的理解与创造力更是无从谈起。
球被抛得高就一定会落得惨,甚至摔得粉碎。不过,做工程的人更谨慎些,要给这个球栓上一根绳子。这根绳子就是 从实际应用出发、从用户角度考虑 。
语音语义的现状可以大致描绘 人工智能 在工程界的应用情况。有自主语音语义相关技术且可以在国内使用其服务的几家公司有出门问问、科大讯飞、云知声、思必驰、百度(度秘)、腾讯(腾讯小鲸)以及Google(Google Now)、微软(小冰、小娜Cortana)、苹果(Siri)。
这些公司的语音语义技术到底谁牛?
微软小冰属于聊天 机器人 ,主打人机对话,每周例常解锁一种玩法。但微软小冰不能提供很多实质性的服务,比如查询机票、查询车票、叫车,这些出门问问却能做到。
如何客观的评价技术的优劣?在这个信息交流特别频繁的时代,被使用的 人工智能 算法 大都来自学术界的公开成果,很难有一家公司拥有不属于这个时代的技术。就从 语音识别 的角度上讲,各个公司的识别率大都在90%以上(这个问题实际上要复杂些,比如方言识别率、生僻词识别率等就有更多说法了)。当一家公司的技术只比另一家的好5%或者1%,用户便很难感受到优劣,技术被应用的场景便成了重要的不同之处。
人工智能 语音语义系统的基本实现方法
这些公司的语音语义技术都和 云 离不开关系。 人工智能 系统按照一套逻辑推理程序,在海量的数据中寻找其认为最正确的答案。这就意味着,被使用的 人工智能 系统其覆盖的领域越广就越是对数据以及运算能力饥渴。小型离线设备,如手机、家用电脑都无法满足这样的需求。解决办法是搭建一个拥有超强处理能力以及海量数据的 计算机集群 并将其接入网络,也就是我们所说的 云 。搭建了AI语音语义系统的云就是AI语音语义云,是这些AI公司的基础设施。
搭建了智能云之后,还需要合适的语音输入端口。这个端口可以来自公众号、APP这类软件,也可以来自音箱、可穿戴智能手表这类硬件。
如何正确看待目前市面上知名的语音语义系统?
1、科大讯飞的 讯飞语音云 包括语音合成、 语音识别 和搜索、语音听写等技术,该云对方言、生僻字的 语音识别 率较高。讯飞语音输入法就是基于此云开发的。科大讯飞 主要 做的是2B(面向企业用户)服务,将自己的 人工智能 服务授权给其他企业。另外,科大讯飞在最近几年也开始发力2C(面向消费者)的产品,比如智能音箱、录音宝、录音笔等硬件。可以看到,科大讯飞的产品多是智能化的传统产品,而非个人助理或聊天 机器人 。另外,科大讯飞偏向深耕 语音识别 ,而非语义理解和连续对话等。
2、出门问问主要做2C(面向消费者)硬件产品,其智能手表Ticwatch是国内销量较高的一款全交互智能手表。出门问问的 人工智能 语交互技术自成体系,包含 语音识别 、语音合成(TTS)、语义理解、垂直搜索、智能推送5个部分。其最大的特点是可以语音呼唤本地化生活服务,比如查询机票、看新闻、交友都可以通过手机APP或者手表完成。最近,出门问问推出了内测版的 魔法小问 ,要把 人工智能 从查询信息 如 今天有什么电影 提升到提供完整服务,如帮助用户订电影票。
3、云知声主要做2B业务,方向是智能家居和车载市场,这里便有了与出门问问类似的 软硬结合 的概念。
与 可穿戴设备、手机及电脑上的智能语音语义系统 不同,智能家居语音系统的声源可能很远且被噪音包围。也正因此,云知声把推广的重点放在了 声源识别、噪声抑制、回声消除 以及指令的识别上,而非对用户意图的理解上(语义理解)。
值得一提的是,在京东与科大讯飞宣布 在一起 的时候,阿里与云知声就达成了合作。不过,最近一段时间,也未有相关消息。
4、思必驰与云知声的方向挺相似,为企业客户提供智能硬件语音交互方案,在车载领域的合作多一些,比如车萝卜。最近,思必驰又宣布完成了融资,要把 智能语音融进硬件 这条路走得更远些。
5、图灵 机器人 主要做2B业务,其语音语义系统与小冰很相似,是连续对话 机器人 。图灵可以被嵌入微信公众号、APP、网站或者智能硬件,用户可以让它讲笑话、做游戏,也可以用它查快递、查新闻。最近图灵 机器人 接受了奥飞动漫的投资,走智能儿童玩具的路。
6、度秘是百度推出的一款与小冰类似的连续对话 机器人 。另外,用户可以在对话的同时,查询 图灵是谁 这样的信息 这借助了百度的搜索引擎。最近,百度推出了嵌入了 度秘 的实体 机器人 小度 。
7、腾讯小鲸目前公开的信息较少,主要被嵌入TOS系统。与Ticwear类似,TOS系统被搭载在智能手表当中。不过,小鲸的功能与其他语音助手类似,可以甚至闹钟、查询信息,但不能像出门问问那样直接叫车、订咖啡。
有资料显示,曾在Google Brain工作过的工程师创立了名为Scaled Inference的公司,该公司的种子轮投资者就包括腾讯首席探索官David Wallerstein和腾讯本身。另外,也有消息称,腾讯没有停止其他生物识别产品的研发。
这有点像微信当年的研发。
8、小冰、小娜(Cortana)、Siri和Google Now
微软小冰与微软小娜都基于必应搜索和深度 神经网络 等技术,属于2C产品。微软小娜如今可以在iOS、android、Window 10系统中使用,她更像一个秘书,可以打电话、发短信、发邮件以及查询上一场曼联的比分。但是微软小娜在国内手机中的功能少很多,语音响应很慢。