多伦多大学团队的成就标志着深度学习研究的热潮兴起,以及人工智能的复兴。深度学习开始应用于多个领域,使得计算机在执行音频和文本处理等任务时变得越来越能干。
VisualGenome图像的标记比ImageNet更多,包括图像中各种物体的名称和细节、这些物体之间的关系以及正在发生的动作蕴含的信息等等。这些识别标记是使用众包方式完成的,该技术由李菲菲的斯坦福同事MichaelBernstein开发。
未来,使用VisualGenome的案例训练出来的算法不只是能够识别物体,还应该拥有对更复杂视觉场景的分析能力。
何为场景分析?李菲菲说道:“一个人坐在一间办公室内,但是什么样的布局,里面的人是谁,他在做什么,周围有什么摆设,当时正发生什么事?——我们需要将感知、认知与语言相连接。”
而这些技术最终可以应用中方方面面,比如除了在线图片管理等较简单的应用,它还可以用于帮助机器人或自动驾驶汽车更精确地识别周围场景。它们可以指导计算机理解物质世界,从而获得更多的常识。
机器学习专家兼人工智能初创公司MetaMind创始人RichardSochar表示,语言很大程度上是关于描述视觉世界的。
VisualGenome并不是唯一一个面向人工智能研究的图像数据库。比如,微软也有一个名叫CommonObjectsinContext的数据库,同时,谷歌、Facebook和其它公司也在加强人工智能算法分析视觉场景的能力。
<上一页 1 2