近年来,音乐选秀类节目层出不穷,无论是歌手蒙面还是导师转身,其目的都在于寻找一种能够排除其他因素、回归音乐本身的评价方法。前不久,央视的一档歌唱类节目《渴望现场》就请来了这样一位客观公正的音乐评审——机器人“小渴”。
这台由中科院自动化研究所研制的机器人会对每位走进“歌咏亭”选手的演唱进行评分,只有分数超过80分才说明得到了“小渴”老师的青睐,并有机会走出“歌咏亭”与观众见面。
给歌唱者打分这听起来早已不是什么新鲜事,KTV里的评分系统甚至能够列举出与演唱者音色相近的歌星,那么“小渴”又有什么独门秘诀呢?“传统的音乐评分软件一般只是简单地把演唱者的音准和标准音做相似性对比来进行评价,说白了就是看你有没有跑调,这种单一的评价标准并不能全面地衡量音乐的好坏,更难以理解歌唱者所要传达的情感信息。”中科院自动化所研究院研究员王金桥解释说,相比之下“小渴”复杂多了,它是第一次从音准、音域、调性、节奏、语感、乐感六个维度对演唱进行客观评断,兼顾了音乐欣赏的维度和量化的难度,是用科技在评价艺术。
“机器人评价艺术其实是一件非常困难的事情,最大的难点在于如何让机器人去自动发现音乐中美的元素。”王金桥告诉《经济日报》记者,我们邀请了大批音乐专家从多个维度对演唱进行评分,在此基础上,通过卷积神经网络的层级式结构对音乐频谱进行层级式抽象和凝练,自动发现音乐中每一段每一句里蕴含乐符的共性之美。从而分别学习音乐中音准、音高、颤音振幅和颤音频率等规律,完成整段音乐的美学量化。
同时神经网络的逐层信息抽象特性能够帮助机器人从音阶传递到演唱技巧再到情感表达,进行逐层量化和分析,进而让机器人能够相对客观地学习专家对音乐的评判,最终实现对音符“美”的“理解”。
由于各个歌手在演唱方式、曲风等方面有所不同,歌声之间会呈现出较大的差异,但当海量音乐专家评分数据汇总在一起时,基本能够代表当前主流音乐评审专家对音乐的评价。基于
人工智能技术的音乐评判系统就是根据这些数据,让“小渴”对音乐进行较为客观和科学的评判。
此外,“小渴”的顺风耳——卷积神经网络所抽取到的多维语音特征具有精确量化的特性,在对音准信息进行量化区分时,精度能够达到1‰。在此基础上,再配合专家对歌声音准表现的经验打分作为监督信息,神经网络模型就能够对音准信息建立准确的数学表达模型,从而进行量化的音准打分。
而听起来最缥缈的“乐感”,也有特定的数学模型支撑。音乐作为一种艺术,需要传达某种情感,乐感就是人们了解这种感觉的感官能力。表现力是歌手演唱过程中的综合表现,目前的评判标准更多是依赖于音乐专家的权威判别。“专家用1到10十个分数对表现力进行打分,我们通过卷积网络、双向长短期记忆模型提取音乐表现力的特征,该特征能对音乐在时间维度上的表现力进行充分分析,从而模拟专家对音乐表现力的评判。”王金桥说。
从已经播出的多期节目来看,“小渴”对多种音乐唱法都能给出公正的评价,如秦腔、说唱、英文歌曲等。在现场,“小渴”是与歌手的麦克风直接相连,任何一点小小的瑕疵都能被它捕捉到。“在具体的打分过程中,机器人是听一句给一句的分数,专家可能偶尔走神没听见,但机器人不存在这种情况,并且不会受到现场气氛和环境的影响。”王金桥说,“小渴”对歌手的一视同仁、对打分的公正合理也同样得到了观众的认可,大家都亲切地称它为“史上最冷静的评审”。
“‘小渴’目前还是初级版本,我们会引入更多的算法和更多元的维度来评价音乐,我们也会尝试让它学着创造音乐,使一个个动人的音符完成美妙的组合。”谈及“小渴”的未来,王金桥和他的团队希望把它推广到各种音乐评分系统中,比如唱吧,KTV等。唱歌爱好者们可以结合“小渴”的评价,不断改进自己的唱法。有朝一日,说不定“小渴”也会从“音乐评审”升级为“梦想导师”。