云知声数据标注团队：我们是怎样教机器人说话的-企业-资讯-爱吧机器人网

云知声数据标注团队：我们是怎样教机器人说话的

2018-08-21 AI第一线浏览量：

"如果机器在某些现实的条件下，能够非常好地模仿人回答问题，让提问者在相当长时间里误认它不是机器，那么机器就可以被认为是能够思维的。" —— 阿兰·图灵

人机对话是人类对人工智能最初的设想，也一直是人工智能领域的目标之一。

即使我们经常听到"这个问题我还没有学会"，但是不可否认，人工智能已经基本实现"可以说话"了。那么，机器人是怎样学习的呢？这就需要提到人工智能需求下诞生的一个新职业，也是人工智能背后的"隐形者"——数据标注专员。

云知声数据标注团队：我们是怎样教机器人说话的

众所周知，我们教小孩子认识海豚，就要拿海豚的图片告诉他，这是海豚。久而久之，他记住了海豚的特征，当他去动物园看到了海豚，就知道那是海豚。类比机器人，为了让机器人"像人一样说话"，我们先要教它学习，通过大量的学习之后，它才能对事物做出分辨。

在AI领域，教机器人学习必须有大量的训练集和测试集，训练集通俗说就像是我们学习时做的习题集，测试集像我们考试做的试题。测试集和训练集里的数据必须是支持算法可用的标注数据，而将采集的原始数据变成算法可用数据的过程叫做"数据标注"。即对采集来的文本、图片、语音数据进行梳理、整理、定性的过程。而数据标注专员就成了为人工智能的发展供应重要且源源不断的"数据燃料"的人。

云知声就有一个庞大的数据标注团队从事数据服务工作，并且，仅有的数据标注团队还在云知声的东南总部厦门公司哦。团队的小伙伴几乎每天默默戴着耳机对着电脑7-8小时，真的是此处无声胜有声！

云知声数据标注团队：我们是怎样教机器人说话的

数据标注是一项重复且繁琐的工作，如果把人工智能比作金字塔，最顶端的是人工智能应用（比如机器人、无人驾驶等），而最底端的则是数据服务，数据服务既是根基，也是人工智能必要且必不可少的一环。

数据标注工作真的像是工厂里的流水线操作吗？只是重复性地对数据进行标注吗？

云知声数据标注团队的负责人许建说，目前人工智能领域对于数据采集和标注的需求量非常大，数据采集后首先进行数据清洗，清洗之后才是数据标注，标注要求尽可能地详尽、清楚，最后的审查阶段对标记的数据进行正确率、精确度、完备性等方面的审查。实际是，数据质量会影响到算法效果，一旦标注人员出现了错误，也会影响到机器犯错。

云知声数据标注团队：我们是怎样教机器人说话的

目前主要有语音、图像、文本、视频数据的采集标注。云知声日常所涉及的是语音的标注，与智能产品进行语音交互和我们平时与人的交流对话相似，在生活中，你可能突然问你身边的人，"小云，现在几点了"，"现在3点十五分"，"小云"就是唤醒词，"现在几点了"就是命令词，唤醒词和命令词均要采集。为了让即便带有背景嘈杂声、或是略带方言口音也能准确识别，这背后有一个数量庞大的数据训练集支撑。每个语音命令需要采集至少100人的语音数据，既要罗列出所有可能的句子，又要搜集尽可能多的人不同的说话方式，覆盖到地域、性别、各年龄段。

比如我们的PandoraA1客房智能管家，当查询酒店服务时，就有多种表达方式，"提供什么服务"、"包括哪些服务"、"有哪些服务"、"有什么服务"等。同时，会有严格的性别、年龄段、口音采集人数占比，以保证最终的精准识别。

云知声数据标注团队：我们是怎样教机器人说话的

对每一个采集的词句，都要做到精细标注，采集的语音需要符合相应的技术要求，标注的时间点要精准控制在100毫秒以内。数据标注的速度决定了AI 产品的研发速度，提高标注的效率也就显得很重要。

为了配合数据标注团队的工作厦门展厅还藏着一个神秘的声学实验室，这里可以说是整个公司最安静的地方了。

云知声数据标注团队：我们是怎样教机器人说话的

声学实验室的主要用途是采集原始声音数据，为了贴近产品实际使用场景，整个装修布置符合家居场景。

实验室采用减振隔声墙体，房间被墙体隔开，墙面、吊顶与外部房间没有任何刚性连接，完全与外界隔绝。墙内的吸声材料主要由多孔的玻璃纤维板组成，具有较好的声音吸收能力，除了吸声材料外，声学实验室四周还布置了窗帘，可以让声音充分扩散，使整个空间内的声场均匀分布。地板采用的是地砖和吸声地毯，实现实验室与建筑基座的分隔，无反射和回声。

声学实验室内五脏俱全—标准麦克风、高保真音箱、声卡……应有尽有。

许建说，为了达到设备在实际应用场景中达到最优效果，在声学实验室采集时就要模拟真实环境，需要覆盖不同的噪音、信噪比、距离和角度。

为了保证支持远讲的语音产品出厂前的效果，在前期的采集阶段就要把产品在实际应用中受到的噪音干扰和不同距离、角度的声音效果考虑进去。

云知声数据标注团队：我们是怎样教机器人说话的

像我们有些设备是支持5米远讲识别的，就要求录音人距离录音设备一米、三米、五米距离的录音数据，同时会设置0°、-30°、-60°等不同角度的设备叠加采集。经常在采集的过程中根据场景需要加入音乐噪声、电视噪声、办公噪声、室外噪声等，模拟出真实场景的噪音干扰。

人工智能的发展，催生了数据标注这个新职业，随着人工智能大规模的落地应用，至少在未来的五六年内，人工智能像是一个嗷嗷待哺的婴儿，等待着数据的喂养。数据标注专员赋予冷冰冰的机器以鲜活的"生命"，教他们我们的知识，让他们变得有"温度"。

精选推荐

改变保险市场的格局：无人机如何通过更快的估算、响应时间和利益交付来

[2018-12-08] 市场研究公司IHS Markit预测，到2020年，专业无人机市场将通过农业，能源和建筑等行业利用测量，制图，规划等技术实现77 1％的复合年增长率（CAGR）。与此同时，消费者无人......

哈佛大学《自然》发表新驱动技术，让飞行机器人悬停且不受损伤

[2019-11-06] 哈佛大学研究人员发表在《自然》杂志上的一项最新研究，他们开发了一种由柔软的人造肌肉驱动的机器人蜜蜂（RoboBee），这种机器人在撞墙、 ...

美国喷气推进实验室的AI驱动无人机挑战人类飞行员

[2017-12-08] 随着无人机及其组件越来越小，效率越来越高，功能越来越强大，我们已经看到越来越多的研究开始让无人机自主飞行在半结构化的环境中，而不依赖于外部定位。宾夕法尼亚大学在......

亚马逊CEO杰夫·贝佐斯操控巨型有人驾驶机器人（巨型机甲）

[2017-03-21] 近日，亚马逊CEO杰夫·贝佐斯实现了每一个6岁儿童都会有的梦想，他控制了一个巨大的机甲机器人。据国外媒体Verge报道，前天（3月19日），贝 ...

2023年服务机器人市场将超过250亿美元

[2017-09-04] 全球服务机器人市场预计到2023年将达到250亿美元, 并在预测期内登记15% 的复合年增长率。短期中期回收期和投资回报率高 (ROI), 以及在教育和研究、临场感、防御、救援和安......

智能机器人困惑的时候知道该问什么问题

[2017-03-20] 照片：Nick Dentamaro 布朗大学上周，我们提到了麻省理工学院的一些研究，即通过链接人的大脑来帮助机器人在他们将要犯错误的时 ...

7种常见的机器人焊接类型

[2017-12-17] 机器人焊接是工业领域最常见的机器人应用之一，近几十年来主要由汽车行业驱动。机器人焊接在完成大批量，重复性的焊接任务时效率最高。...

谷歌《Nature》发论文称实现量子霸权 18亿倍速碾压世界最强超算

[2019-10-23] 谷歌坚称自己已经取得了量子霸权——这标志着计算研究领域的一个重要里程碑。谷歌首次发布声明是在今年9月，虽然遭到竞争对手的质疑，但就 ...

本站内容除了特别注明本站原创以外均来自互联网，文章观点不代表本站立场，文章版权归属原作者；如涉及版权问题，请联系smf101@163.com，我们会立即处理。谢谢配合！

本周栏目热点

将NLU技术引入企业服务领域，ForeTHought获900万美元A轮融资

[2018-12-07] 近日， ForeTHought宣布已经获得了由New Enterprise Associates领投的900万美元A轮融资，该公司希望将NLU技术引入企业领域，致力于帮助“知识类专员”，例如客户服务代表等......

星逻智能发布无人机综合操作系统UltraHive Mk 3“启”

[2019-07-10] 6月20-22日，2019世界无人机大会在深圳隆重举办，来自国内外的四百多家企业参会，千余架无人机精彩亮相。为赋能无人机而生的星逻智能自然不 ...

娃哈哈自主研发机器人定位精度可达0.1毫米

[1970-01-01] 　　说到企业，政府扶持政策是一方面，但是企业能不能国强还得看企业本身能否自主创新。如今，很多企业都在试行机器换人实现生产的自动，现 ...

GoodNews：哈工现代 · 51CLOUD联合打造工业机器人智能云服务平台

[2020-03-24] 智能物流、智能家居、智能汽车……"智能云"服务已覆盖生活的方方面面；那么在制造业领域，有没有一种解决方案，能够综合运用大数据、云计算 ...

博林特更名为远大智能

[2015-12-14] 　　12月12日，博林特公告，公司已完成工商变更登记手续，正式变更为沈阳远大智能工业集团股份有限公司，证券简称由博林特变更为远大智能。 ...