对于计算机而言,通过后期制作软件来布置场景实际上相当不易。它不仅需要确定所述对象的适当位置,同时需要尝试预测对象在目标位置的外观:比例,遮挡,姿势和形状等等。
幸运的是,人工智能有望伸出援助之手。上周NeurIPS 2018大会公布了一篇论文(“Context-Aware Synthesis and Placement of Object Instances(对象实例的情景感知合成和放置)”,韩国首尔国立大学,美国加州大学美熹德分校,以及Google AI的研究人员描述了一种能够以“语义连贯”的方式来将对象插入至图像中的系统。
研究人员写道:“对于将对象插入符合情景语义的图像之中,这是一项具有挑战性和有趣的任务。与此同时,这项任务与众多实际
应用密切相关,包括图像合成,AR和VR内容编辑…这样的对象插入模型可能有助于众多的图像编辑和场景解析应用程序。”
他们的端到端框架包括两个模块:一个模块确定在哪里插入对象;另一个模块确定插入后的样式。系统将利用GAN,或者由生成器(生成样品和鉴别器)组成的二体神经网络,然后试图区分生成的样本和真实世界的样本。因为系统同时对插入图像的分布建模,所以两个模块能够相互通信并相互优化。
论文作者写道:“这项研究的主要技术创新在于,我们构建了一个端到端的可训练神经网络,能够从联合分布中为新对象采样合理的位置和形状。合成对象实例既可以用作基于GAN的方法的输入,也能够从现有数据集中检索最近的区段以生成新图像。”
研究人员解释道,生成器可以预测“可信的”的位置并生成具有“语义连贯”比例,姿势和形状的对象蒙版,特别是关于对象在场景中的分布方式,以及如何自然地插入对象。随着时间的推移,
人工智能系统将能够根据场景条件学习每个类别的不同分布。例如在城市街道的图像中,人类往往出现在人行道上,而汽车通常出现在道路上。
在测试中,研究人员的模型能够插入逼真形状的对象。当图像识别器YOLOv3应用于AI产生的图像时,检测合成对象的召回率是0.79。更有说服力的是,在对亚马逊Mechanical Turk工作人员的调查中,43%的受访者认为人工智能生成的对象是真实对象。
论文指出:“这表明我们的方法能够执行对象合成和插入任务。由于我们的方法能够同时建模‘在哪里’和‘什么样’,它可以用于解决其他计算机视觉问题。未来有趣的研究之一是处理对象之间的遮挡。”