几年前,人工智能技术之机器学习有了一项重大的突破:能够识别图片中的事物,而且准确率极高。而目前该技术的瓶颈在于,机器能否理解图片中事物蕴含的意义。
一个名叫VisualGenome的新图像数据库或将推动计算机实现此目标,并帮助测量计算机在理解真实世界进程中获得的进步。教导计算机分析视觉场景是人工智能的根本。这不仅将产生更多有用的视觉算法,而且能够帮助训练计算机更有效地进行交流。因为,语言与物质世界的表现具有非常紧密的联系。
VisualGenome由专门从事计算机视觉研究的教授以及斯坦福大学人工智能实验室主任李菲菲(音译)与几位同事合作开发。“我们关注计算机视觉中最困难的问题,它们是连接从感知到认知的桥梁。”李菲菲表示,“不只是输入像数数据然后识别颜色、阴影等这类要素,而是真正将其转化成3D的认识,以及对完整的视觉语义世界的理解。”
李菲菲和同事曾创立ImageNet,一个包含了超过100万张带有内容标记的图片的数据库。每一年的ImageNet大型视觉识别挑战赛,就是使用这个数据库来测试计算机自动识别图像内容的能力。最近一次ImageNet大赛是在2015年12月,微软凭借多达152层的深层神经网络获胜。
计算机视觉革命是一场持久的斗争。2012年,这项技术迎来了关键的转折点,那时加拿大多伦多大学赢得了ImageNet比赛,他们使用非监督的逐层贪心训练算法成功让机器基于目前最大的图像数据库进行分类识别,而不是依靠人为制定的规则。多伦多团队的成就标志着深度学习的繁荣以及更普遍人工智能的复兴。深度学习已经在许多其它领域得到了应用,也让计算机能更好地处理其它重要任务,比如音频和文本处理。
1 2 下一页>