人工智能深度学习利用生成敌对网络的无监督目标定位纯粹
机器学习(特约点评:人工智能深度学习利用生成敌对网络的无监督目标定位对于目标定位研究指出了新的方向,这个创新点趣说人工智能必须推荐。来自网友小星的推荐!)
简介:对象本地化旨在确定给定场景中目标对象的位置。最近,基于深度学习的方法如Faster R-CNN [1],YOLO [2],SSD [3]在实时性能方面取得了显着的改进。然而,这些技术利用完全监督学习,需要用于训练的分类标签和边界框注释。由于这些信息被认为是昂贵的,因此获取海量数据非常困难,这为实际
应用带来了限制。为了减轻数据注解的负担,已经提出弱监督学习方法。弱监督对象本地化仅在培训期间使用分类标签,因此数据注释变得易于管理。其中,类激活映射(CAM)[12]是一种有代表性的弱监督对象定位方法。 CAM旨在通过可视化CNN的内部层来提取热图,并通过后期处理来查找边界框。 CAM的主要思想是有助于物体分类的像素与物体的位置一致。但是,即使是最便宜的信息,对象类别,在许多应用程序中也可能无法承受。
对于注解依赖性的基本解决方案,已经出现了无监督对象定位技术。与完全监督或弱监督的对象定位相比,这个问题被认为更具挑战性,因为除了给定的图像之外,没有额外的信息。不像监督的或弱监督的方法,无监督的对象定位技术尚未采用深度神经网络。传统技术如[13,14,15,16,17]仍然依赖手工特征提取,基于图形的理论或优化,从而限制了实时性能。同时,深度神经网络模型在特征提取方面被认为是非常出色的,在大多数模式识别问题中胜过以前的手工制作模型,甚至实现了实时性能。在最近的成功推动下,我们的目标是将深度神经网络应用于无监督对象本地化,期望提高性能和时间效率。更具体地说,在本文中,我们首次提出了一种基于生成对抗网络(GAN)[18]的端到端无监督对象定位方法。
贡献:GAN是无监督的生成模型,通过隐式密度估计学习生成真实的数据分布。 GAN由一个发生器和一个鉴别器组成。在训练中,发生器以鉴别器不能区分由发生器产生的假图像的方式进行训练。同时,鉴别器学会将它们与真实图像区分开来。通过这种对抗性竞争,GAN生成的图像变得难以与实物区分开来。在许多生成模型中,GAN被称为能够生成最清晰逼真的图像。
在本文中,我们利用GAN鉴别器进行无监督对象定位。在不使用先验或注释的情况下,GAN成功生成了遵循数据分布的图像。如果发生器被训练产生主导对象(即最常出现的对象),我们期望鉴别器将更多地关注主导对象在区分真实还是假的空间位置。但是,GAN鉴别器可能并不总是使用主导对象作为决策标准。自然图像可以包括主导对象以外的各种对象。如果GAN模型也学习了各种对象,那么这意味着鉴别器不仅考察主导对象,而且还考察用于区分真假的其他对象或背景。
有趣的是,生成各种对象与GAN训练中的各种图像生成直接相关。 GAN训练的最新进展倾向于修改损失函数[19],或增加一个正则化术语[20,21]来鼓励不同的图像世代。同时,GAN的早期模型仅限于学习数据分布的主要模式。随之而来的现象称为模式崩溃,这是GAN培训中的主要问题。尽管这种模式崩溃被认为是不可取的,但我们预计这种病态行为在我们的应用中非常有用;我们观察到数据集中最常出现的对象是在模式崩溃时产生的。基于这一观察,我们认为一个主导对象对应于数据分布中的主要模式。出于这个原因,我们选择一个早期的GAN模型来进行物体定位。所提出的方法以无监督的方式训练GAN模型,并且使用CAM从经训练的鉴别器中提取热图。然后,对热图进行后处理,以确定对象定位的边界框。图1显示了我们的方法的框图。在整个过程中,没有监督,也不需要任何额外的标签信息,如负样本。我们的模型接收单个图像作为输入,并输出热图或边界框。 通过利用公开可用的数据集,我们证明了GAN解决无监督对象本地化问题的可行性。 此外,我们表明,与具有弱监督对象定位的模型相比,我们模型的定量和定性表现是合理的。 就我们所知,我们的命题是第一个用于无监督对象定位的端到端深度神经网络模型,我们相信这种方法可以作为无监督对象定位研究的重要基线。
方法:在本节中,我们将详细解释我们对所提议的方法的方法。我们将首先介绍提议的网络,然后解释选择GAN和数据增强的标准。我们将最终描述实现细节。建议的网络。我们在GAN鉴别器的最后一个卷积层的末尾添加一个全局平均池(GAP)层,并以完全连接的方式将这个GAP层连接到二进制分类层。请注意,GAP图层和以前的CAM的分类图层之间的权重表明最后一个卷积图层的每个激活图有多大的贡献来决定分类标签。同样,我们的体重代表每幅激活图对正确区分真实图像和假图像的贡献。从这样训练的GAN提取的热图可以通过遵循与CAM相同的后处理来产生边界框。如图1所示,我们在训练阶段使用了一个发生器和一个鉴别器,而我们在测试阶段只使用了鉴别器。另外,我们假设像其他弱监督方法一样,图像中只有一个对象。这意味着所提出的方法将只为每个图像绘制一个边界框。
选定的GAN。最近的GAN模型在防止模式崩溃方面取得了有意义的进展,并试图封装所有数据分布模式。这相当于生成出现在数据集中的所有对象。在这种情况下,鉴别器可能会考虑用于分类的整个图像区域。这是因为它不仅学习主导对象,而且还学习其他对象或背景,而这些对象或背景相对较少。虽然这些GAN在生成力的角度上优于GAN的早期模型,但它们对于物体定位是不利的。
另一方面,GAN的早期模型容易陷入模式崩溃,从而产生频繁出现在数据集中的主导对象,主要模式,而忽略数据集中出现较少的对象。有人可能会争辩说,主要模式不仅可以对应主要对象,还可以对应纹理或颜色特征。确实,具体的纹理和颜色与主要模式密切相关。但是,他们中的大多数与主导对象强烈关联。因此,我们认为这对物体定位是可取的,模式崩溃对于物体定位可能是有利的。
我们选择三种GAN模型变体:DCGAN,WGAN-GP和DRA-GAN。 DCGAN利用一个非饱和目标函数,该函数可以用反向Kullback-Leibler(KL)散度和Jensen-Shannon(JS)散度的加权和来表示。这种反向KL损失对于梯度消失是强大的,然而,很容易陷入模式崩溃[43]。同时,Fedus et。 Al [45]通过实验证明WGAN-GP和DRAGAN使用的GP术语对防止模式崩溃是有效的。因此,为了研究模式崩溃对物体定位的影响,我们比较了DCGAN与WGAN-GP和DRAGAN。
数据增强。数据增加通过添加处理后的图像来增加训练数据量;例如,改变照明,增加噪声,引入遮挡等。增强数据被认为是原始数据的摄动,并且已知稳定网络训练。最近,介绍了这种数据增强提高了弱监督对象本地化的本地化性能。因此,我们也期望数据增强可以影响基于GAN的无监督对象本地化。具体来说,我们应用了GoogLeNet中使用的光度和空间失真增加数据。我们的实验研究表明这些技术如何影响GAN的学习过程和本地化表现。
实施细节。我们根据他们的论文决定选定GAN的超参数和网络架构。而对于DRAGAN,我们实现了非饱和目标函数,如[45]所建议的那样。所有GAN模型的批量大小为128,训练迭代次数为200k。我们在弱监督方法中选择CAM [12]作为参考技术。虽然CAM的最初实现基于AlexNet和GoogLeNet,但我们用预激活ResNet [46]替换基线CNN来实现CAM。请注意,预激活ResNet是最先进的CNN分类网络。我们选择批量大小为34层的34层体系结构256.训练迭代是100k。我们也遵循原始文件[46]来决定实施ResNet-34的超参数。具体来说,我们使用动力学优化器,动量为0.9。学习速率最初是每25K迭代衰减10倍。重量衰减是1e-4。
结论:在本文中,我们提出了第一个用于无监督对象定位的端到端深度神经网络模型。为此,我们以无监督的方式训练GAN,然后使用CAM可视化GAN鉴别器关注的区域。各种实验研究表明,我们的方法在定性和定量评估中取得了有意义的物体定位性能。当将GAN模型应用于物体定位问题时,我们发现模式塌陷与物体定位之间存在正相关关系。此外,我们观察到数据增强可以有效提高基于DCGAN模型的本地化性能。作为未来的工作,由于模式崩溃对于基于GAN的对象本地化是可取的,我们研究的目标可能与常规GAN模型相反。因此,我们将设计一个专门用于物体定位的新型GAN。此外,我们发现用于对象本地化的度量(例如,GT-已知的Loc)对于测量本地化性能并不是最佳的。我们将调查一个更好的物体定位度量。