李菲菲和同事曾创立ImageNet,一个包含了超过100万张带有内容标记的图片的数据库。每一年的ImageNet大型视觉识别挑战赛,就是使用这个数据库来测试计算机自动识别图像内容的能力。最近一次ImageNet大赛是在2015年12月,微软凭借多达152层的深层神经网络获胜。
计算机视觉革命是一场持久的斗争。2012年,这项技术迎来了关键的转折点,那时加拿大多伦多大学赢得了ImageNet比赛,他们使用非监督的逐层贪心训练算法成功让机器基于目前最大的图像数据库进行分类识别,而不是依靠人为制定的规则。多伦多团队的成就标志着深度学习的繁荣以及更普遍人工智能的复兴。深度学习已经在许多其它领域得到了应用,也让计算机能更好地处理其它重要任务,比如音频和文本处理。
多伦多大学团队的成就标志着深度学习研究的热潮兴起,以及人工智能的复兴。深度学习开始应用于多个领域,使得计算机在执行音频和文本处理等任务时变得越来越能干。
VisualGenome图像的标记比ImageNet更多,包括图像中各种物体的名称和细节、这些物体之间的关系以及正在发生的动作蕴含的信息等等。这些识别标记是使用众包方式完成的,该技术由李菲菲的斯坦福同事MichaelBernstein开发。
未来,使用VisualGenome的案例训练出来的算法不只是能够识别物体,还应该拥有对更复杂视觉场景的分析能力。
何为场景分析?李菲菲说道:“一个人坐在一间办公室内,但是什么样的布局,里面的人是谁,他在做什么,周围有什么摆设,当时正发生什么事?——我们需要将感知、认知与语言相连接。”