爱吧机器人网 » 技术 > 模式识别 > 正文

对人工智能多点耐心 百度汉语语音识别获重大突破

苹果、微软、谷歌、百度,这些公司或许是提到语音识别,用户脑海里会浮现出的名字。电影《Her》里,主人公西奥多不知不觉地爱上了幽默风趣又善解人意的虚拟女友萨曼莎,尽管后者其实只是人工智能系统的一个化身。

近日举行的中国人机语音交互领域权威的学术会议——全国人机语音通讯学术会议(NCMMSC2015)上,百度透露其在汉语语音识别方面获得重大突破。据悉,百度研发出了基于多层单向LSTM(长短时记忆模型)的汉语声韵母整体建模技术,并成功把连接时序分类(CTC)训练技术嵌入到语音识别传统技术建模框架中。该技术能够使机器的语音识别相对错误率降低15%,使汉语安静环境普通话语音识别的准确率接近97%,未来将大规模应用在百度语音搜索等产品上。

百度CEO李彦宏:加大力度支持去哪儿网

日前,百度语音技术部负责人贾磊媒体专访时称,语音识别和大数据、机器学习、云计算等技术相辅相成,共同推进人工智能发展。

他表示,机器成本、高效计算等问题,是阻碍语音识别技术发展的几个重要因素。而百度研究的CTC模型在解码部分的速度,比传统模型快5倍到10倍。配合专业的深度学习计算硬件,使后台消耗大大降低,有助于实现语音识别技术的大规模普及。

一次框架性创新

百度方面透露,该技术创新是一项框架性的创新。这一突破也标志着,百度在世界范围内率先攻克了在汉语领域使用CTC技术训练单向多层LSTM的高精度建模难题。

据了解,2011年深度学习技术引入语音识别领域,推进整个工业界的人工智能技术应用进入深度学习时代。随后的几年里,CNN(卷积神经网络)、LSTM(长短时记忆模型)、CNN混合LSTM的建模技术在语音识别工业产品中不停涌现,并持续提升语音识别产品效果。

眼下,百度把语音识别的相对错误率降低15%,又会带来何种变化?对用户而言,是识别率更准、识别速度更快。对语音服务提供者来说,成本会降低很多。

“语音识别正处于产业化爆发的边缘,但机器计算成本是一个很大的瓶颈。如果线上50%的搜索都由语音完成,而计算成本还和过去一样,那么没有公司能承担得起。”贾磊表示,语音服务要想大规模普及,必须降低后台服务器开销。

他随即说,百度语音识别研究的CTC模型在解码部分的速度比传统模型快5倍到10倍。配合专业的深度学习计算硬件,当未来语音服务大规模普及时,可以让后台计算成本大大降低。对新技术的追赶,需要大数据、大平台、极致计算等结合做支撑,因此百度这样的公司在未来有优势。

改善方言、口音和远场识别

媒体:既然将把此项技术用到百度语音搜索产品上,对应用时间表、应用前后的产品功能和用户体验差别等,能否讲讲?

贾磊:我预计最早11月末、最迟12月末上线。因为我们做的时候都是比着工业产品的体量去做的,包括模型体积、计算量、训练速度,全部跟工业要求是一致的,所以可以很快应用到产品中去。

用了之后,首先语音识别会更准,其次由于它的计算量会很小,解码速度更快,后台成本就会很低。这个模型对方言和口音的识别效果都有一定的改善,而且对远场识别也有一定改善。因为它是在一个建模单元的十几帧数据中提取出来一帧最本质最有代表性的特征来描述这个建模单元,而这个本质特征的描述不容易随着时间、地点而改变,所以对语音识别的稳定性有很大的提升。

媒体:就您研究观察,未来语音识别技术的发展趋势以及应用场景如何?

贾磊:第一,想解决口音、噪音的问题,训练数据还会继续加大,现在几万个小时训练数据是工业现状,我相信在不久的未来一定是十万小时。如果出现这么大的计算量,对计算能力的需求会更加强烈。所以大数据和高性能计算,是语音识别发展到目前最明显和清晰的趋势。

第二,是基于深度学习的个性化识别。人的口音千差万别,不可能有一个语音识别器识别所有的声音,一定要实现个性化。而这种基于深度学习的个性化识别,一定需要海量的存储空间和很大的数据吞吐传输能力,这个也只有具有大数据和云计算这种服务能力的公司能够提供。

第三个行业趋势,语音识别技术会和语意理解、交互技术等形成一整套语音的解决方案。因为人使用语音的目的不是把语音转成文字,而是使用语音去进行交互,并获得其所需的服务结果。这是未来的工业发展趋势,单纯的脱离了服务、脱离了平台、脱离了计算能力去做语音技术的时代已经过去了。百度有场景、有内容、有需求,语音一定会做得越来越好。

媒体:语音识别技术要和其他技术,比如大数据、机器学习和云计算等一起应用,结合技术层面来讲,现在时机是否成熟?

贾磊:这些技术是相辅相成的。作为人工智能学科的同业者,我的感觉是,短期去看人们倾向于高估技术的价值,从长期去看人们倾向于低估技术的价值。

现在,人们可能倾向于觉得人工智能技术很牛,能够解决一切问题。但是短期内它没有解决,因此人就会产生一个心理,这个技术没用。但是,要对人工智能技术有信心,企业要敢于投入。当然,初期商业上肯定会有一些损失,可能短时间里不会为公司带来商业价值;但长远来看,有助于研发新技术,并获得新的商业突破。(文/娜拉)


上一篇:这项技术能让指纹在黑暗中发光 方便警察取证
下一篇:微软又推“黑科技”:识别人脸喜怒哀乐表情
精选推荐
MIT用深度学习处理3D点云数据 应用于无人汽车等领域
MIT用深度学习处理3D点云数据 应用于无人汽车等领域

[2019-10-23]  如果你见过自动驾驶汽车,也许会对车顶上那个一直在旋转的圆柱体感到好奇。这是一个雷达传感器,无人驾驶汽车依靠它在现实世界中进行导航。 ...

人工智能准确预测患者一年内的死亡风险,原理却无法解释
人工智能准确预测患者一年内的死亡风险,原理却无法解释

[2019-11-13]  图片来自BURGER PHANIE SCIENCE PHOTO LIBRARY美国最新研究显示,人工智能通过查看心脏测试结果,以高达85%以上的准确率预测了一个人在一 ...

这些人型机器人是如此真实,你的肉眼几乎无法区分
这些人型机器人是如此真实,你的肉眼几乎无法区分

[2017-09-03]   我们生活在一个区分现实与幻想变得越来越困难的世界。由于机器人技术的进步,创造人工的人类正在逐渐接近完美的最终目标。我们现在看到的机器人不再只是一块发光二极管,......

麻省理工正研究植物机器人 让植物自主控制机器人
麻省理工正研究植物机器人 让植物自主控制机器人

[2018-12-08]  控制论通常指人类用机器人部件增强自己。我们听说过动物机器人或昆虫机器人,但我们很少听说植物机器人对吧?一个机器人其实是对植物有很大益处的,因为一般植物根本无法移动......

集群机器人领域最新研究:一种用于探测未知环境的微型无人机群
集群机器人领域最新研究:一种用于探测未知环境的微型无人机群

[2019-10-26]  (图:无人机扩散至不同方向来探索环境。当一个无人机注意到另一个无人机在它的首选方向,它将试图飞到另一个方向。若首选方向冲突,低优先 ...

可编辑神经网络,有望简化深度学习?
可编辑神经网络,有望简化深度学习?

[2019-10-04]  深度学习是一个计算繁重的过程。 降低成本一直是 Data curation 的一大挑战。 关于深度学习神经网络大功耗的训练过程,已经有研究人员 ...

比利时研发出可以自我愈合伤口的软体机器人
比利时研发出可以自我愈合伤口的软体机器人

[2017-09-03]  软体机器人是机器人技术的新兴领域; 他们“可以与人类相互作用,而不会杀死他们,并拿起像西红柿这样柔软的物体。” 从长远来看,布鲁塞尔大学队伍正在努力创建一个类似的材......

谷歌大脑发布ROBEL基准 鼓励用低成本机器人训练AI系统
谷歌大脑发布ROBEL基准 鼓励用低成本机器人训练AI系统

[2019-10-11]  训练AI系统的机器人D& 39;Claw和D& 39;Kitty用于控制机器人的人工智能系统,测量其性能所使用的基准通常仅限于为工业环境设计的昂贵硬件, ...

本周栏目热点

生物识别技术那么多,为啥偏偏“刷脸”火了

[1970-01-01]   你走到一家自助银行前,摄像头通过刷脸,自动识别你的身份为你开门;你站到ATM机前输入密码,再在摄像 ...

从原理入手,解析基于DSP的汉字语音识别系统的实现方式

[1970-01-01]   语音识别是机器通过识别和理解过程把语音信号转变为相应的文本文件或命令的高技术。作为专门的研究领域 ...

新剪刀手识别技术 虽然现在还不是很准确-模式识别

[2016-03-11]   在几年前的时候,指纹识别看上去还是一项非常高端的技术。的确,这可以让我们在工作和生活当中的很多事 ...

谷歌为何力推虹膜技术 分析其背后的价值链条-模式识别

[2015-12-11]   指纹识别、人脸识别技术正在趋于成熟,也正在被应用到更丰富的场景,逐渐改变我们生活的方方面面。但在 ...

宝马联合三星与松下 研发智能语音识别系统

[2015-12-28]   据美国媒体Autoevolution12月22日报道,宝马、三星和松下三家公司近日与语音识别公司Nuance合作开发新 ...