何晓冬：语言与视觉的跨模态智能-人工智能-技术-爱吧机器人网

何晓冬：语言与视觉的跨模态智能

2020-02-22 CAAI会员中心浏览量：

0 引言

本文谈谈我（何晓冬）在语言与视觉的跨模态智能研究与产业应用方面的一些思考。

在人工智能领域中，模态是指智能体接收和输出信息的特定方式。当前人工智能领域研究的主要模态包括语音、文本、图像、视频等。近30来，计算机及相关技术的高速发展产生了大量的不同模态的信息(语音、文本、图像、视频，以及多样的结构化数据等)，并进而催生出针对不同模态的专业领域研究，例如人类语言技术(Human Language Technology，HLT)、计算机视觉（Computer Vision，CV)等。

语言与视觉的跨模态智能

鉴于跨模态研究方向的重要性，本文将从表征学习、跨模态信息融合和典型应用三个角度简要介绍近年来跨模态领域，特别是语言与视觉跨模态领域的主要研究方向及相关研究进展，并探讨跨态方向未来的研究趋势。

1 研究发展状况

语言与视觉跨模态领域的研究可从以下3个角度来进行归纳。

1.1 跨模态表征学习

跨模态表征学习研究将多个模态数据所蕴含的语义信息投影到连续向量表征空间以进行信息融合和推理（见图1）。与单模态表征学习（如文本表征模型Deep Structured Semantic Models （DSSM）、Bidirectional Encoder Representations for Transformers（BERT）等）往往只关注单一模态数据自身的特点不同，跨模态表征学习需要同时从多个异质信息源（例如视觉、文字、语音等）中通过联合学习提取被研究对象的特征，并需要将不同模态的语义信息投影到一个统一的表征空间。之前常用模型包括Deep Multimodal Similarity Models （DMSM）等模型，而近期在单一文本模态BERT的启发下提出的一系列图像/视频与文本融合的模型，比如VL-BERT等代表了这个方向的最新研究展。跨模态表征学习还包括通过建立跨模态的统一的语义空间将信息富集的模态上学习的知识迁移到信息匮乏的模态，比如跨模态的小样本学习、领域自适应等。该研究方向旨在对于缺乏标注数据、样本存在大量噪声，以及数据收集质量不可靠的情况下，尝试将其他模态上学习到的知识迁移到目标模态，以提高其性能。

图 1 跨模态语义空间与表征学习

1.2 跨模态信息融合

1.3 跨模态智能应用

典型的语言和视觉跨模态任务，包括图像/视频转文字(Image/Video Captioning)、文字转图像 (Text-to-Image Synthesis)、视觉问答(VQA)、跨模态检索(Cross Modal/Media Retrieval)、视觉+语言导航(Vision-and-Language Navigation)、跨模态人机对话与交互(Multimodal Dialogue and HumanComputer Interaction)等。这些任务一方面驱动了跨模态智能各方面的基础研究，另一方面也在实际场景中得到了广泛的应用。随着跨模态研究的深入，更多的应用还将被提出。

2 前景和机遇

在上面提到的研究方向之外，以下3个研究与应用方向在未来也有很大的发展空间。

2.1 跨模态常识知识学习

2.2 跨模态情感智能

高级的情感智能是人类特有的一种认知能力。人类的交流天然是情感丰富的，并且往往跨越多个模态（语言、视觉、结构化知识等）。为建造高度拟人化的人机交互智能体，机器需要能理解以及生成跨模态的情感内容，能与人进行有同理心的跨模态情感交流。这个方面的基础研究不但可帮助我们理解认知智能机理，也有很大的实际应用价值。比如目前直播，以及短视频等文娱媒介极大地满足了众多用户的情感寄托需求，由此积累了大量用户，产生巨大商业价值。在这个方向业界已经有了一些尝试，比如微软的小冰机器人就将情感安抚作为一个主要的能力。跨模态情感智能的难点在于如何感知和对齐在不同模态下情感的微妙的表达，并保证不同模态之间数据的一致性与合理性。该任务属于跨模态研究的跨模态融合问题，目前该问题尚未有成熟的相关研究。

2.3 大规模复杂任务导向跨模态智能人机交互系统

服务产业智能化对人工智能技术而言是个巨大的机遇，也是个巨大的挑战。以电商为例，在业务不断拓展的背景下，电商产业面临的是超大规模的数据应用和零售全链条复杂人机交互的场景，需要对10亿级别的用户提供个性化的高效率的零售服务体验，所以急需大规模复杂任务导向跨模态智能人机交互技术的支撑。为此，在推动开源开放跨模态人机交互系统框架，构建大规模数据集和算法验证平台，开展跨媒体信息智能技术的基础研究等几个方面均充满机遇。而在这些方面的基础研究和技术突破也将为更广泛的服务产业的智能化提供支撑。

3 总结

语言与视觉跨模态智能的研究关注于将偏感知的视觉智能与偏认知的语言智能相结合，使得智能体能获取更全面的能力。目前跨模态的研究尚处于初级阶段，是新兴的研究方向，但却是人工智能发展历程上的重要节点。如何建造具有多重模态感知能力的智能体，并利用不同模态数据之间的联系来提升智能体对世界的认知能力是一个重要的课题。本文对跨模态研究的背景和研究方向做了简单的梳理，希望能进一步激发人工智能学者对语言与视觉跨模态研究的兴趣，推动这一研究领域的进展。

（参考文献略）

选自《中国人工智能学会通讯》

2020年第10卷第1期特约专栏

何晓冬

博士、京东集团技术副总裁、人工智能研究院常务副院长、IEEE/CAAI Fellow。华盛顿大学(西雅图)等院校兼职教授。曾任多个国际一流学术期刊编委，发表了100多篇论文，谷歌学术论文引用超过1.5万次。

精选推荐

助力卷积神经网络时空特征学习史上最大行人重识别视频数据集被提出

[2017-12-25] 本文提出了一个大型的、长序列的、用于行人重识别的视频数据集，简称LVreID。与现有的同类数据集相比，该数据集具有以下特点：1）长序列：平均每段视频序列长为200帧，包含丰......

美国人工智能公司Skymind进入福建全面开展业务

[2017-12-11] 人工智能在当今这个时代对大家来说想必是非常熟悉的，这也是我国近十几年来一直追求的目标，未来的时间里这也将是全人类追求的目标。就目前来看，近年来，人工智能或在我国迎......

农业将为高科技行业农业机器人的应用领域

[2017-12-17] 农业正在迅速成为一个令人兴奋的高科技产业，吸引了新专业人士，新公司和新投资者。技术发展迅速，不仅提高了农民的生产能力，而且促进了我们所知道的机器人和自动化技术的发展。...

美国喷气推进实验室的AI驱动无人机挑战人类飞行员

[2017-12-08] 随着无人机及其组件越来越小，效率越来越高，功能越来越强大，我们已经看到越来越多的研究开始让无人机自主飞行在半结构化的环境中，而不依赖于外部定位。宾夕法尼亚大学在......

可编辑神经网络，有望简化深度学习？

[2019-10-04] 深度学习是一个计算繁重的过程。降低成本一直是 Data curation 的一大挑战。关于深度学习神经网络大功耗的训练过程，已经有研究人员 ...

机器人从工业走向家庭库卡KUKA目标是引领中国市场

[2017-12-08] 机器人正在改变着人们的生活方式，而库卡KUKA想要在中国这个大蛋糕中占有一块大份额，库卡公司正在引领市场...

机器人灵巧手将成为智能机器人的下一个重大突破

[2018-01-25] 计算机科学教授兼东北地区助手机器人实验室负责人罗伯特·普拉特（Robert Platt）说：“机器人手操作是下一步要解决的问题。想象一下，一个机器人可以在现实世界中用手去做事......

九台“猎豹”机器人组队踢球，麻省理工高材生们的高级趣味

[2019-11-09] 本周，在麻省理工学院10号楼外草坪上展开了一场别开生面的足球比赛。在绿草如茵的基利安球场上，一群由人工智能驱动的机器人就是这场比赛的 ...

本站内容除了特别注明本站原创以外均来自互联网，文章观点不代表本站立场，文章版权归属原作者；如涉及版权问题，请联系smf101@163.com，我们会立即处理。谢谢配合！

本周栏目热点

说一说那些进入日常生活的智能机器人

[1970-01-01] 　　从《星球大战》里的机器人英雄，到前些年大受欢迎的电影《我，机器人》，无数的科幻作品里都少不了机器人元素，人们将之视为未来感的 ...

奇点大学：人工智能与“奇点理论”

[1970-01-01] 　　就在前几天和行业内的几个朋友吃饭时，内容在不经意间又转向了那个老生常谈的话题-到底什么是在智能电视上最好的交互方式上，于是乎五 ...

说客小π情感机器人体验【评测】

[2015-12-29] 　　前言　　随着语音识别技术的发展，声控灯、语音输入法、语音交互等各具特色 ...

Facebook人工智能机器人生成照片以假乱真

[1970-01-01] 　　无论你是否认为面部识别令人毛骨悚然，很明显全球多家科技公司正在继续投资开发更强大的图像智能技术。　　无论是微软的猜年龄机器人， ...

麻省理工智能机器人最新技术机器手指研究获得突破

[2015-12-27] 　　麻省理工智能机器人最新消息，今年在研究机器手方面跨出了一大步，现在它又 ...