百度研究出深度学习语音识别系统DeepSpeech，嘈杂环境下-模式识别-技术-爱吧机器人网

百度研究出深度学习语音识别系统DeepSpeech，嘈杂环境下

2015-12-08 爱吧机器人网浏览量：

不久前，百度的首席科学家吴恩达（Andrew Ng）在接受采访时曾谈到了百度最近人工智能项目的进展情况，强调了近期百度重点是攻关语音识别。现在他们已经在这方面取得了突破。

这项成果的名字叫做Deep Speech，是一款采用深度学习技术的语音识别系统系统。其独特之处在于，它可以在饭店等嘈杂环境下实现将近81%的辨识准确率。

81%的准确率听起来似乎不算高。但是同样环境下，其他的商业版语音识别 API，包括Bing、Google以及Wit.AI等的最高识别率也只有65%。相比之下这就算十分突出的表现了。而且按照吴恩达的说法，这样的结果依然低估了Deep Speech与其他语音识别系统的准确率差异，因为Deep Speech进行比较时还把其他语音识别系统那些返回空白字符串的结果排除在外了。而且Deep Speech跟顶级的学术型语音识别模型（基于流行的数据集Hub5 00建模）相比也高出9个百分点。

百度首席科学家吴恩达称尽管这还只是一项研究，但是公司正在考虑将它集成到供智能手机和Baidu Eye之类的可穿戴设备使用的语音识别软件当中。而且百度还在开发与Amazon Echo类似、集成有语音助手的家电产品，名字叫做CoolBox。除此以外，百度在开发的智能自行车当然也能利用Deep Speech技术。

Deep Speech的基础是某种递归神经网络（RNN），这种递归神经网络经常被用于语音识别和文本分析。

但是Deep Speech的成功主要得益于一个长达10万小时的语音数据训练集。这是百度人工智能实验室团队用新颖的办法在嘈杂环境下建立的。其过程大致是这样的。首先百度收集了7000小时的语音会话数据，然后再将这些语音文件与包含有背景噪音的文件合成到一起，最后形成约10万小时的训练集。这些背景噪音包括了饭店、电视、自助餐厅以及汽车内、火车内等场景。相比之下，Hub5 00的数据集总共只有2300小时。

当然，这么庞大的数据大多数系统都不知道如何去处理。吴恩达表示，Deep Speech的成功很大程度上要取决于百度规模庞大的基于GPU的深度学习基础设施。GPU（图形处理器）往往是偏数学型计算的首眩许多深度学习系统都采用GPU避免通信瓶颈（不过微软的深度学习系统Adam 却走了不同的路线），但是像百度这样大规模的设施却是少见的。

百度的另一大改进，是对这个庞大的数据集采用了端到端的深度学习模型，而不是标准的、计算代价高昂的声学模型。传统上一般都会把语音识别分别为多个步骤，其中一步叫做语音调适，但是百度却不做这一步，而是给Deep Speech的算法提供大量的数据，然后让它去学习所有需要学习的东西。这种做法除了收获了准确率以外，还显著减少了代码库的规模。

这项研究是吴恩达领导的百度人工智能实验室多位研究人员的努力成果，论文发表在了康奈尔大学图书馆的arXiv.org网站上，感兴趣的可到此处下载。

精选推荐

美国喷气推进实验室的AI驱动无人机挑战人类飞行员

[2017-12-08] 随着无人机及其组件越来越小，效率越来越高，功能越来越强大，我们已经看到越来越多的研究开始让无人机自主飞行在半结构化的环境中，而不依赖于外部定位。宾夕法尼亚大学在......

搭载人工智能的太空机器人CIMON 2乘SpaceX抵达国际空间站

[2019-12-09] 12月5日，搭载人工智能的太空机器人西蒙2号（CIMON 2）乘坐SpaceX火箭Dragon货运舱，从佛罗里达州卡纳维拉尔角空军基地升空，前往国际空间 ...

农业将为高科技行业农业机器人的应用领域

[2017-12-17] 农业正在迅速成为一个令人兴奋的高科技产业，吸引了新专业人士，新公司和新投资者。技术发展迅速，不仅提高了农民的生产能力，而且促进了我们所知道的机器人和自动化技术的发展。...

麻省理工正研究植物机器人让植物自主控制机器人

[2018-12-08] 控制论通常指人类用机器人部件增强自己。我们听说过动物机器人或昆虫机器人，但我们很少听说植物机器人对吧？一个机器人其实是对植物有很大益处的，因为一般植物根本无法移动......

谷歌大脑发布ROBEL基准鼓励用低成本机器人训练AI系统

[2019-10-11] 训练AI系统的机器人D& 39;Claw和D& 39;Kitty用于控制机器人的人工智能系统，测量其性能所使用的基准通常仅限于为工业环境设计的昂贵硬件， ...

麻省理工又秀神技：推出如魔法般跳跃的方块机器人集群

[2019-10-31] 几天前，小编向大家介绍过麻省理工（MIT）研发的一种自组装机器人集群（点此阅览），它们可以用统一标准的小单元自动组装出各种大型结构。 ...

科学家从蟑螂获得启发教机器人更好地走路

[2017-12-11] Weihmann指出：“我特别感到惊讶的是，动物运动稳定机制的变化与腿部协调的变化是一致的。昆虫的慢运行非常稳定，因为它的重心很低，三条腿总是以协调的方式运动。...

谷歌在中国成立一个新的人工智能（AI）研究中心

[2017-12-13] 谷歌正在中国建立一个新的人工智能（AI）研究中心，希望进一步扩展到中国，以充分利用中国高度重视的人工智能技术。人工智能是目前地球上最具竞争力的领域之一，亚马逊，微软......

本站内容除了特别注明本站原创以外均来自互联网，文章观点不代表本站立场，文章版权归属原作者；如涉及版权问题，请联系smf101@163.com，我们会立即处理。谢谢配合！

本周栏目热点

生物识别技术那么多，为啥偏偏“刷脸”火了

[1970-01-01] 你走到一家自助银行前，摄像头通过刷脸，自动识别你的身份为你开门；你站到ATM机前输入密码，再在摄像 ...

从原理入手，解析基于DSP的汉字语音识别系统的实现方式

[1970-01-01] 语音识别是机器通过识别和理解过程把语音信号转变为相应的文本文件或命令的高技术。作为专门的研究领域 ...

新剪刀手识别技术虽然现在还不是很准确-模式识别

[2016-03-11] 在几年前的时候，指纹识别看上去还是一项非常高端的技术。的确，这可以让我们在工作和生活当中的很多事 ...

谷歌为何力推虹膜技术分析其背后的价值链条-模式识别

[2015-12-11] 指纹识别、人脸识别技术正在趋于成熟，也正在被应用到更丰富的场景，逐渐改变我们生活的方方面面。但在 ...

宝马联合三星与松下研发智能语音识别系统

[2015-12-28] 据美国媒体Autoevolution12月22日报道，宝马、三星和松下三家公司近日与语音识别公司Nuance合作开发新 ...