"如果机器在某些现实的条件下,能够非常好地模仿人回答问题,让提问者在相当长时间里误认它不是机器,那么机器就可以被认为是能够思维的。" —— 阿兰·图灵
人机对话是人类对人工智能最初的设想,也一直是人工智能领域的目标之一。
即使我们经常听到"这个问题我还没有学会",但是不可否认,人工智能已经基本实现"可以说话"了。那么,机器人是怎样学习的呢?这就需要提到人工智能需求下诞生的一个新职业,也是人工智能背后的"隐形者"——数据标注专员。
众所周知,我们教小孩子认识海豚,就要拿海豚的图片告诉他,这是海豚。久而久之,他记住了海豚的特征,当他去动物园看到了海豚,就知道那是海豚。类比机器人,为了让机器人"像人一样说话",我们先要教它学习,通过大量的学习之后,它才能对事物做出分辨。
在AI领域,教机器人学习必须有大量的训练集和测试集,训练集通俗说就像是我们学习时做的习题集,测试集像我们考试做的试题。测试集和训练集里的数据必须是支持算法可用的标注数据,而将采集的原始数据变成算法可用数据的过程叫做"数据标注"。即对采集来的文本、图片、语音数据进行梳理、整理、定性的过程。而数据标注专员就成了为人工智能的发展供应重要且源源不断的"数据燃料"的人。
云知声就有一个庞大的数据标注团队从事数据服务工作,并且,仅有的数据标注团队还在云知声的东南总部厦门公司哦。团队的小伙伴几乎每天默默戴着耳机对着电脑7-8小时,真的是此处无声胜有声!
数据标注是一项重复且繁琐的工作,如果把人工智能比作金字塔,最顶端的是人工智能应用(比如机器人、
无人驾驶等),而最底端的则是数据服务,数据服务既是根基,也是人工智能必要且必不可少的一环。
数据标注工作真的像是工厂里的流水线操作吗?只是重复性地对数据进行标注吗?
云知声数据标注团队的负责人许建说,目前人工智能领域对于数据采集和标注的需求量非常大,数据采集后首先进行数据清洗,清洗之后才是数据标注,标注要求尽可能地详尽、清楚,最后的审查阶段对标记的数据进行正确率、精确度、完备性等方面的审查。实际是,数据质量会影响到算法效果,一旦标注人员出现了错误,也会影响到机器犯错。
目前主要有语音、图像、文本、视频数据的采集标注。
云知声日常所涉及的是语音的标注,与智能产品进行语音交互和我们平时与人的交流对话相似,在生活中,你可能突然问你身边的人,"小云,现在几点了","现在3点十五分","小云"就是唤醒词,"现在几点了"就是命令词,唤醒词和命令词均要采集。为了让即便带有背景嘈杂声、或是略带方言口音也能准确识别,这背后有一个数量庞大的数据训练集支撑。每个语音命令需要采集至少100人的语音数据,既要罗列出所有可能的句子,又要搜集尽可能多的人不同的说话方式,覆盖到地域、性别、各年龄段。
比如我们的PandoraA1客房智能管家,当查询酒店服务时,就有多种表达方式,"提供什么服务"、"包括哪些服务"、"有哪些服务"、"有什么服务"等。同时,会有严格的性别、年龄段、口音采集人数占比,以保证最终的精准识别。
对每一个采集的词句,都要做到精细标注,采集的语音需要符合相应的技术要求,标注的时间点要精准控制在100毫秒以内。数据标注的速度决定了AI 产品的研发速度,提高标注的效率也就显得很重要。
为了配合数据标注团队的工作厦门展厅还藏着一个神秘的声学实验室,这里可以说是整个公司最安静的地方了。
声学实验室的主要用途是采集原始声音数据,为了贴近产品实际使用场景,整个装修布置符合家居场景。
实验室采用减振隔声墙体,房间被墙体隔开,墙面、吊顶与外部房间没有任何刚性连接,完全与外界隔绝。墙内的吸声材料主要由多孔的玻璃纤维板组成,具有较好的声音吸收能力,除了吸声材料外,声学实验室四周还布置了窗帘,可以让声音充分扩散,使整个空间内的声场均匀分布。地板采用的是地砖和吸声地毯,实现实验室与建筑基座的分隔,无反射和回声。
声学实验室内五脏俱全—标准麦克风、高保真音箱、声卡……应有尽有。
许建说,为了达到设备在实际
应用场景中达到最优效果,在声学实验室采集时就要模拟真实环境,需要覆盖不同的噪音、信噪比、距离和角度。
为了保证支持远讲的语音产品出厂前的效果,在前期的采集阶段就要把产品在实际应用中受到的噪音干扰和不同距离、角度的声音效果考虑进去。
像我们有些设备是支持5米远讲识别的,就要求录音人距离录音设备一米、三米、五米距离的录音数据,同时会设置0°、-30°、-60°等不同角度的设备叠加采集。经常在采集的过程中根据场景需要加入音乐噪声、电视噪声、办公噪声、室外噪声等,模拟出真实场景的噪音干扰。
人工智能的发展,催生了数据标注这个新职业,随着人工智能大规模的落地应用,至少在未来的五六年内,人工智能像是一个嗷嗷待哺的婴儿,等待着数据的喂养。数据标注专员赋予冷冰冰的机器以鲜活的"生命",教他们我们的知识,让他们变得有"温度"。