比起 人工智能 的图像、 语音识别 ,语义理解更有市常但是,让机器学会阅读理解人类语言是比较困难的,这也是 人工智能 遇到的重大挑战之一。
要在你的朋友圈里找出一位没有看过《权力的游戏》的朋友是不是特别困难。这部由美国作家乔治RR马丁所写的小说,经过HBO改编成电视剧后圈粉无数,甚至连 人工智能 系统也是它的粉丝。
加拿大 人工智能 初创公司Maluuba日前就推出了一款 机器学习 系统,可以让计算机像人类一样阅读文章,理解小说故事的情节。
不同于图片和声音识别技术,让机器正确理解人类知识和语言更加困难。这也是 人工智能 遇到的重大挑战之一。因为语言理解领域缺乏大规模标记数据集, 机器学习 时,很难对该领域的相关环境进行模拟。尽管 互联网 上包含无数的网页,上面拥有无数的文字内容,但还没有人能找到以机器能够理解的形式将内容输给机器。简单地说,机器还没有掌握人类学习知识的方法。
因此,让机器学会阅读理解人类语言是一个里程碑式事件,也是真正 人工智能 应该达到的目标。谷歌、Facebook和IBM等公司也在关注 机器学习 阅读理解能力。但从目前的测试结果看,这家加拿大的初创公司已经领先谷歌等巨头,走在了前面。
EpiReader对 自然语言 的理解超过谷歌、Facebook
Maluuba推出的系统名为EpiReader,研究人员设计这个系统的目的在于用来解决特定类型的理解任务。研究人员会将一段文字的默写字词抹去,EpiReader需要根据上下文语境来补全信息。据研究人员介绍,EpiReader使用了2层 神经网络 ,这是一种模拟人类大脑神经元的计算机系统。第一层 神经网络 能让系统基于对于段落的理解挑选可能存在的答案,第二层 神经网络 用来评估第一层给出的答案,并最终给出一个正确的回答。
Maluuba用了大量的文本对EpiReader进行了测试。与去年谷歌DeepMind用CNN和《每日邮报》的30万篇新闻稿,Facebook用98本儿童经典读物做文本测试相比,EpiReader测试的文本数量更多,能让机器构建起词汇语义理解的框架。
从测试结果看,EpiReader在填空题中分别得到了74%和67.4%的准确率。根据《the Verge》的报道,国内许多 人工智能 的专家认为,这个测试结果是目前所有 机器学习 语义理解中的最高分,打败了谷歌的DeepMind,Facebook和IBM沃森在今年3月份公布的结果。