爱吧机器人网 » 资讯 > 企业 > 正文

依图科技声纹识别权威竞赛夺冠,智能语音再下一城

作者:栗峰
编辑:唐里


\
在奥地利召开的机器语音国际顶会 InterSpeech 2019 上,国际声纹识别权威竞赛 VoxCeleb Speaker Recognition Challenge(VoxSRC)公布最新结果,依图科技大幅领先海内外多支强队获得冠军,再次展示了世界级人工智能算法实力。

不仅如此,依图团队使用小数据就取得了优于其他团队使用大数据得到的结果,充分表明中国声纹识别技术已达世界领先水平。

\
依图团队(logicworld)在全球权威声纹识别竞赛 VoxSRC 2019夺冠,等错误率(EER)0.0098,大幅领先第二名。

声纹识别为什么难?

声纹识别是一种通过声音判别说话人身份的技术。如果说语音识别是让机器判断「说了什么」,那声纹识别就是判断「是谁说的」,用于解决生物身份的确认和识别。

2012 年以来,深度学习技术逐渐进入声纹识别主流,这种方法纯粹采用数据驱动的方式,通过海量数据样本和深度神经网络模型,让机器自动去发掘声学特征中说话人的信息差异,从而「学会」声学特征中的说话人信息表示。

很显然,使用基于端到端深度学习的方法做声纹识别,拥有大量声纹数据样本,就有了无可置疑的优势。

目前,声纹识别应用还处于探索阶段,但其应用前景十分广阔。最容易想到的,比如会议录音的音频转录,在结合了声纹识别技术后,就能自动标注出谁在什么时候说了什么,轻松完成多人会议纪录,大幅提高工作效率。

随着技术的不断成熟和融合,声纹识别技术将逐渐融入日常生活,根据不同应用场景的特点进行针对性开发,将产生巨大的应用价值。

VoxSRC:声纹识别界的 ImageNet 竞赛

VoxSRC 是由英国牛津大学、韩国互联网巨头 Naver、斯坦福国际研究院(SRI International)和 MIT 的研究者联合发起的全球声纹识别竞赛,可以说是「声纹识别界的 ImageNet 竞赛」。在很大程度上,VoxSRC 结果反映了全球声纹识别技术最高水平。

VoxSRC 基于开源数据集 VoxCeleb,由牛津大学团队于 2017 年发布,后来逐渐扩充,现在是声纹识别领域规模最大、标注最完备的开源数据集之一。

VoxCeleb 来自 YouTube 名人采访视频,包含了 7000 多个不同种族、性别、口音、职业和年龄的说话人,在不同场合下超过 100 万段的说话声(utterance),时长加起来总共超过 2000 小时(每段音频的长度从 3 秒到 20 秒不等)。

除了数据量大且来源多样化,VoxCeleb 的音视频基本都含有背景噪音、笑声、重叠的说话声和其他杂音,非常考验算法的实战水平。

\
牛津大学发布并维护的VoxCeleb数据集是目前全球规模最大、标注最完备的开源声纹数据集之一,数据来源多样且都来自无约束场景,非常考验算法的实战水平。

此外,VoxSRC 的测试数据集是「盲的」(blind),即没有任何标注。这些数据无法用来训练或调整系统,确保了比赛结果的公正与准确(不会出现有团队过拟合数据的情况)。

今年的 VoxSRC 吸引了海内外多支队伍参与,有约翰霍普金斯大学、法国国家信息与自动化研究所、清华大学、中山大学等知名高校和研究机构,也有平安科技、NEC、君林科技等大企业。

竞赛的任务很明确,就是判断两段音频是出自同一个人,还是来自两个不同的人。算法的输出结果用等错误率(Equal Error Rate,EER)来衡量。

EER 是衡量声纹识别算法系统综合性能的重要指标,EER 值越小,系统的性能就越好。

什么是EER、FAR、FRR?

评估算法系统性能时常输出ROC 曲线,用于描述FAR(误识率)与FRR(拒识率)之间的关系。

简单说,在声纹识别中,误识率就是“把不应该匹配的声纹当成匹配声纹”的比例,拒识率则是“把应该匹配的声纹当成不匹配声纹”的比例。

在对安全要求非常高的应用场景,就会把FAR值设置得低一些,因为判断错一次的代价很大,但这样做的同时会导致FRR值上升,用户体验度下降。

\
等错误率(EER)是系统的误识率(FAR)和拒识率(FRR)相等时的错误率,即ROC曲线与45度角直线相交的点,是衡量声纹识别算法系统综合性能的重要指标。EER数值越小,系统性能越好。

为了评估数据量(训练样本多少)对系统性能的影响,这次 VoxSRC 竞赛给定了两种情况,一是固定数据集,另一个是无约束数据集。

固定数据集任务,参赛队伍使用的训练数据集是固定的,也即 VoxCeleb2,该数据集包含了来自 5994 个不同说话人超过 100 万段的说话声音频。
无约束数据集任务,参赛队伍在训练模型时,可以使用除竞赛测试集以外的其他任何数据,包括未公开发布的数据。
依图团队以 0.0098 的 EER 值获得本届竞赛冠军,也是唯一将 EER 值降低到 0.01 以内的团队。

特别值得一提的是,这个结果比其他团队无约束数据集任务的结果更好(无约束数据集任务的冠军 EER 值为 0.0126)。

中国最好的就是全球最好的

依图已经不是第一次在国际人工智能公开比赛中获得第一。

成立 7 年来,依图在视觉感知、自然语言处理、语音识别、智能决策等多算法领域发展,并且都独占鳌头。这次在全球声纹识别权威竞赛 VoxSRC 中夺冠,是对中国自有 AI 技术能够引领世界的又一个绝佳证明。

今年 5 月,依图发布自研云端 AI 芯片求索(questcore™),旨在提升智能密度,结合世界领先人工智能算法和先进芯片设计理念,同等功耗下的视觉推理性能是 NVIDIA GPU 的 5 倍。

基于求索构建的智能视频分析系统,将原本需要 16 台机柜的方案压缩到 1 台,降低数据中心整体建设成本 50%,运维成本 80%,让 10 万路智能视频解析系统成标配,50 万路成现实,大幅提升基础设施智能水平,为人工智能应用落地和普及奠定了坚实的基础。

8 月 29 日,依图获得科技部正式授牌,承建视觉计算国家新一代人工智能开放创新平台,促进芯片设计与人工智能的融合,同时针对不同业务场景打造一系列定制化芯片,支持智能城市、智慧医疗和智慧金融等行业。

未来,依图将在多算法领域持续投入,多模态技术融合,软硬件协同开发,将世界优胜人工智能算法与行业场景深度结合,推动人工智能应用落地。

上一篇:SandStar视达完成近亿元B轮融资,由国鹏资本领投
下一篇:ABB最大机器人工厂上海动工,预计2021年投入运营
精选推荐
基于生物启发的机器人很容易适应丢失附属器官
基于生物启发的机器人很容易适应丢失附属器官

[2017-12-17]  很多机器人被设计应用在危险环境,如灾难现场。在这些地方,他们的运动系统完全有可能被损坏。那这样会吓跑这些机器人吗?也许不是,如果它们像日本的东北和北海道大学创造的......

助力卷积神经网络时空特征学习 史上最大行人重识别视频数据集被提出
助力卷积神经网络时空特征学习 史上最大行人重识别视频数据集被提出

[2017-12-25]  本文提出了一个大型的、长序列的、用于行人重识别的视频数据集,简称LVreID。与现有的同类数据集相比,该数据集具有以下特点:1)长序列:平均每段视频序列长为200帧,包含丰......

亚马逊计划建一个4000万美元的机器人中心
亚马逊计划建一个4000万美元的机器人中心

[2019-11-07]  爱吧机器人网消息,亚马逊11月6日宣布了一项计划,计划在美国马萨诸塞州韦斯特伯勒建立一个4000万美元、35万平方英尺的机器人创新中心。新 ...

麻省理工学院最新研究:优化软体机器人的控制和设计
麻省理工学院最新研究:优化软体机器人的控制和设计

[2019-11-24]  软体机器人属于一个新的领域,它可能在诸如外科手术等领域发挥重要作用(手术时的纳米机器人需要在人体内部移动而不损伤软组织)。软体机器 ...

7种常见的机器人焊接类型
7种常见的机器人焊接类型

[2017-12-17]  机器人焊接是工业领域最常见的机器人应用之一,近几十年来主要由汽车行业驱动。机器人焊接在完成大批量,重复性的焊接任务时效率最高。...

通过对抗性图像黑入大脑
通过对抗性图像黑入大脑

[2018-03-02]  在上面的图片中,左边是一张猫的照片。在右边,你能分辨出它是同一只猫的图片,还是一张看起来相似的狗的图片?这两张图片之间的区别在于, ...

MIT研制出可以像植物一样生长的机器人
MIT研制出可以像植物一样生长的机器人

[2019-11-09]  麻省理工学院开发了一种新型机器人,这种机器人可以本质上自我延伸,其生长方式与植物幼苗向上生长的方式惊人相似。值得注意的是,研究人员 ...

谷歌大脑发布ROBEL基准 鼓励用低成本机器人训练AI系统
谷歌大脑发布ROBEL基准 鼓励用低成本机器人训练AI系统

[2019-10-11]  训练AI系统的机器人D& 39;Claw和D& 39;Kitty用于控制机器人的人工智能系统,测量其性能所使用的基准通常仅限于为工业环境设计的昂贵硬件, ...

本周栏目热点

将NLU技术引入企业服务领域,ForeTHought获900万美元A轮融资

[2018-12-07]  近日, ForeTHought宣布已经获得了由New Enterprise Associates领投的900万美元A轮融资,该公司希望将NLU技术引入企业领域,致力于帮助“知识类专员”,例如客户服务代表等......

星逻智能发布无人机综合操作系统UltraHive Mk 3“启”

[2019-07-10]  6月20-22日,2019世界无人机大会在深圳隆重举办,来自国内外的四百多家企业参会,千余架无人机精彩亮相。为赋能无人机而生的星逻智能自然不 ...

娃哈哈自主研发机器人 定位精度可达0.1毫米

[1970-01-01]    说到企业,政府扶持政策是一方面,但是企业能不能国强还得看企业本身能否自主创新。如今,很多企业都在试行机器换人实现生产的自动,现 ...

GoodNews:哈工现代 · 51CLOUD联合打造工业机器人智能云服务平台

[2020-03-24]  智能物流、智能家居、智能汽车……"智能云"服务已覆盖生活的方方面面;那么在制造业领域,有没有一种解决方案,能够综合运用大数据、云计算 ...

[2015-12-14]     12月12日,博林特公告,公司已完成工商变更登记手续,正式变更为沈阳远大智能工业集团股份有限公司,证券简称由博林特变更为远大智能。 ...