智能音箱专业级评测：语音交互/声音性能/拆机分解三方面深度解析-智能硬件评测-评测-爱吧机器人网

2017年12月4日，中国电子科技集团公司第三研究所（简称“中电三所”）联合中国电子学会消费者电子分会联合发布了，以“娱心悦耳，音智双全”为主题的智能音箱评测发布会。会上发布了目前市场关注度较为集中的五款智能音箱的评测方法与结果。

此次评测以中电三所下属国家广播电视产品质量监督检验中心、北京中电慧声科技有限公司、三所科技创新中心语音与智能声学实验室为技术支持，针对智能音箱交互性水平、声性能、拆机分析三大方面展开了深度评测。

智能音箱须具备扩声、语音交互、信息传输以及智能化附加功能。本次评测选择了叮咚、小米、若琪月石、问问音箱、天猫精灵等五款主流智能音箱，中电三所作为国内权威电声科研机构，组织行业专家设计评价方案、依托专业的实验设备和自身丰富的行业经验，创新评测方法，从交互性、声性能、拆机分析三维度对样品进行了评测。

在交互性能客观测试方面，通过主客观两个角度，分别从识别准确率、响应时间、唤醒率，以及交互体验、对话判断、执行响应、学习深度、主观感受八项评测项目对智能音箱交互性水平做出准确评价。更创建了自有语料库，兼顾关键词命令操控和网络智能检索，根据发音人性别、年龄、地域构成不同，录制了35位发生者音频，经过后期制作完成2100余条语料库命令，最终筛选出1000余条语音命令作为客观测试信号源，使评测结果更客观更科学更具参考价值。

智能交互性能客观分别在三种状态下进行，一种是不加任何干扰、噪声；二是只加干扰、不加噪声；三是只加噪声、不加干扰。如下是三种状态下五款智能音箱的识别准确率测试结果。

可以看到在干扰的状态下，对音箱的语音识别率准确性影响是很大的，导致它识别率下降、变差。在测试结果中，分别给出了平均值和中位值。由于测试样本声音差异较大，导致测试结果较为离散且有极端值，甚至0%和100%的识别率出现，极端值比较大，所以用平均值代表整体趋势。离散和极端值的出现，从也反映出本次评测样本选择比较合理，没有全部选择标准普通话样本。

响应时间测试使用语料库中标准普通话语音命令，测试结果选取了响应时间的最大值而非选平均值，因为考虑到响应时间越长用户使用体验越差。从测试结果上看，在网络流畅的状态下，不同的测试环境对响应时间的影响并不明显，这与各个音箱介入软件的平台完全语音语义理解部分功能有关。

唤醒率与智能音箱硬件麦克风阵列、软件算法关系密切。在2.5米处净信道、干扰状态、噪声状态下唤醒率均为100%，4米处唤醒率下降。通过拉距测试得知，距离影响唤醒的成功率，并且在唤醒之后的语音识别率更低。例如：用户说“天猫精灵”，它回答，用户再问它问题，它可能就无法正确回答。鉴于目前的情况下，我们要真的实现“动口不动手”，还是要离音箱更近一点，声音再大一点。

交互性主观评价采用单刺激连续质量评价方法（SSCQE方法），评价交互体验、主观感受、对话判断、学习深度、执行响应等五项评价指标，五项加权后标准偏差为S，经测试五款音箱标准偏差分别为：S叮咚=0.79， S问问=0.45， S若琪=0.34，S天猫=0.36， S小爱=0.57。

智能交互性能评测结论显示，多声源干扰对于智能音箱语音识别能力影响很大，如何甄别确实需要科学算法解决，且掩蔽效应如何合理设计优化算法，是智能音箱R&D正在努力的方向。当前各智能音箱支持的智能搜索类语音命令库范围还需要极大升级，很多命令都是回复，“不知道”或者“目前无此功能”。这直接导致用户的厌烦情绪，间接影响了智能音箱发展前景。智能音箱的联网优化需要进一步提高。

声性能测试方面，一个完美的音箱，应该在各个频段都具备饱满、平坦的特点，有些更注重饱满，有些更注重平坦。依据GB/T 12060.5-2011《声系统设备第5部分：扬声器主要性能测试方法》标准，在尖劈全消音室对音箱进行客观频响测试、失真测试、最大声压级测试。

以上是五款音箱的响应曲线与失真曲线。小米音箱人耳可闻的失真，最大声压级是70dB，可以保证播放语音类信号的时候声音洪亮，高频的时候有明显下降，会造成小米音箱播放中高频如琵琶，会声音发闷，不具备声音明亮感；若琪音箱有效频段可以有效覆盖中高频段，但低频失真过大；叮咚智能音箱采用四个全频单元，失真在较小范围内，在辅助单元的帮助下最大声压级可以达到76dB，无法完美展示含有中高频段的音乐；问问保证了有效覆盖中高频，失真控制在较小范围内，较高频段存在较大失真，造成听取较高频段的声音时候出现刺耳音；天猫从中频段开始有下降，全频段都有较大失真，最大声压级只有66dB，这款音箱在工艺设计上对音质有较大的损失。

通过以上数据统计，五款音箱有效频带都在100Hz以下，均可完美地表现语音交互效果，但市面上的智能音箱音质还与传统音箱有较大的差距。

依据GB/T 12060.13-2011《声系统设备第13部分：扬声器听音试验》、GB/T 15000 《标准样品工作导则》、GB/T 10240-88《电声产品声音质量主观评价用节目源编辑制作规范》邀请业内专家与受训普通听众共同对音箱进行低频力度、中频平坦度、高频饱满度、保真度、拟合度五项测试进行主观评价。通过拟人声和音乐欣赏两方面，判断语音清晰及洪亮程度，以及音质优劣。

在拆机分析方面，将基本硬件平台拆分为五个模块，分别是麦克风阵列、主控芯片DSP、扩声单元、数字功放、通信模块。对五款产品每个模块的材料选用进行了横向对比，展现了科研机构的专业性和严谨性。

1. 麦克风阵列，主要目的是拾取语音，加载数字音频处理算法可以实现降噪、回声抑制、去混响、声源定位，解决远场拾音问题,与远讲语音识别算法相匹配。

（1）小米AI麦克风阵列，六全向硅麦克风，I2S接口数字硅麦。

（2）天猫精灵麦克风阵列，六全向硅麦克风，TI ADC3101接口。

（3）叮咚麦克风阵列，7+1麦克风阵列，科胜讯CX20810-11Z接口。

（4）出门问问麦克风阵列，双麦克风，科胜讯CX20921接口。

（5）月石智能语音机器人麦克风阵列，六全向硅麦克风。

2.主控芯片，完成的功能是对语音语义的解析理解。与手机等移动设备相类似，包括处理器、存储器、内存等核心部件。主控单元主要完成前端语音信号的整合以及后端语音拾取进行整合。主控单元的选择需要在满足语音交互响应速度的前提下，尽量压缩成本和功耗。

被测的五款样品主控单元如下表：

3.扩声单元，提供用户认可的音质。智能音箱扩声部分设计有一定的限制，在发声单元的选择上，受到音箱尺寸限制，低音不足，辅助低音被动辐射器。另外，全双工的工作要求限制了音箱的最大音量，发声单元功率太大会影响音箱拾取用于语音的灵敏度。五款音箱扩声单元选用如下：

（1）小米AI

小米的主扩使用的是2.25寸全频扬声器，从低频一直到高频。配套了两个对称的32平方厘米的辅助低音被动辐射器。国内外知名音箱产品多数带有导向管，用导向管来补偿低音。但是导向管补偿低音的时候会带来风噪，无论前置还是后置都有风噪进入到音箱，就影响到低频带来噪声。而小米是采用45度的导向锥，改变了中高频的传播方向。

（2）天猫精灵

天猫精灵使用全频扬声器，带了两个对称的辅助低音被动辐射器组成。

（3）叮咚

叮咚智能音箱是4个1.5寸的全频带单元的，主扩。3寸1个低音单元，里面采用U形的导向管，同时在喇叭前面加了一个导音锥。

（4）出门问问

出门问问是1寸高音单元，有50W大功率，3寸低音单元，两侧配有两片被动辐射器，共振增强低音效果。

（5）月石智能语音机器人

月石智能音箱，两个6欧的3W的扬声器，也配备了两个波动辐射器。

4.数字功放模块，扬声器需要好的功放来支撑将我们播放的音频尽可能真实、低失真的传导到发声单元上。

功放单元五款产品中基本四款都是选用的TI公司的功放芯片，四款功放芯片不尽相同，其中有两种接口，小米选用的功放芯片具有I2S接口，即数字的音频接口，不需要经过第二次转换，并且该功能芯片支持多种速率，可以使用软件接口进行部分控制；天猫精灵的功放芯片略为简单；月石智能音箱功放芯片是一个模拟信号输入，搭载了TI公司的主控芯片。