爱吧机器人网 » 技术 > 机器学习 > 正文

利用生成对抗网络进行无监督目标定位

人工智能深度学习利用生成敌对网络的无监督目标定位纯粹机器学习(特约点评:人工智能深度学习利用生成敌对网络的无监督目标定位对于目标定位研究指出了新的方向,这个创新点趣说人工智能必须推荐。来自网友小星的推荐!)

简介:对象本地化旨在确定给定场景中目标对象的位置。最近,基于深度学习的方法如Faster R-CNN [1],YOLO [2],SSD [3]在实时性能方面取得了显着的改进。然而,这些技术利用完全监督学习,需要用于训练的分类标签和边界框注释。由于这些信息被认为是昂贵的,因此获取海量数据非常困难,这为实际应用带来了限制。为了减轻数据注解的负担,已经提出弱监督学习方法。弱监督对象本地化仅在培训期间使用分类标签,因此数据注释变得易于管理。其中,类激活映射(CAM)[12]是一种有代表性的弱监督对象定位方法。 CAM旨在通过可视化CNN的内部层来提取热图,并通过后期处理来查找边界框。 CAM的主要思想是有助于物体分类的像素与物体的位置一致。但是,即使是最便宜的信息,对象类别,在许多应用程序中也可能无法承受。

人工智能深度学习利用生成敌对网络的无监督目标定位纯粹机器学习
对于注解依赖性的基本解决方案,已经出现了无监督对象定位技术。与完全监督或弱监督的对象定位相比,这个问题被认为更具挑战性,因为除了给定的图像之外,没有额外的信息。不像监督的或弱监督的方法,无监督的对象定位技术尚未采用深度神经网络。传统技术如[13,14,15,16,17]仍然依赖手工特征提取,基于图形的理论或优化,从而限制了实时性能。同时,深度神经网络模型在特征提取方面被认为是非常出色的,在大多数模式识别问题中胜过以前的手工制作模型,甚至实现了实时性能。在最近的成功推动下,我们的目标是将深度神经网络应用于无监督对象本地化,期望提高性能和时间效率。更具体地说,在本文中,我们首次提出了一种基于生成对抗网络(GAN)[18]的端到端无监督对象定位方法。

贡献:GAN是无监督的生成模型,通过隐式密度估计学习生成真实的数据分布。 GAN由一个发生器和一个鉴别器组成。在训练中,发生器以鉴别器不能区分由发生器产生的假图像的方式进行训练。同时,鉴别器学会将它们与真实图像区分开来。通过这种对抗性竞争,GAN生成的图像变得难以与实物区分开来。在许多生成模型中,GAN被称为能够生成最清晰逼真的图像。

在本文中,我们利用GAN鉴别器进行无监督对象定位。在不使用先验或注释的情况下,GAN成功生成了遵循数据分布的图像。如果发生器被训练产生主导对象(即最常出现的对象),我们期望鉴别器将更多地关注主导对象在区分真实还是假的空间位置。但是,GAN鉴别器可能并不总是使用主导对象作为决策标准。自然图像可以包括主导对象以外的各种对象。如果GAN模型也学习了各种对象,那么这意味着鉴别器不仅考察主导对象,而且还考察用于区分真假的其他对象或背景。

人工智能深度学习利用生成敌对网络的无监督目标定位纯粹机器学习
有趣的是,生成各种对象与GAN训练中的各种图像生成直接相关。 GAN训练的最新进展倾向于修改损失函数[19],或增加一个正则化术语[20,21]来鼓励不同的图像世代。同时,GAN的早期模型仅限于学习数据分布的主要模式。随之而来的现象称为模式崩溃,这是GAN培训中的主要问题。尽管这种模式崩溃被认为是不可取的,但我们预计这种病态行为在我们的应用中非常有用;我们观察到数据集中最常出现的对象是在模式崩溃时产生的。基于这一观察,我们认为一个主导对象对应于数据分布中的主要模式。出于这个原因,我们选择一个早期的GAN模型来进行物体定位。所提出的方法以无监督的方式训练GAN模型,并且使用CAM从经训练的鉴别器中提取热图。然后,对热图进行后处理,以确定对象定位的边界框。图1显示了我们的方法的框图。在整个过程中,没有监督,也不需要任何额外的标签信息,如负样本。我们的模型接收单个图像作为输入,并输出热图或边界框。 通过利用公开可用的数据集,我们证明了GAN解决无监督对象本地化问题的可行性。 此外,我们表明,与具有弱监督对象定位的模型相比,我们模型的定量和定性表现是合理的。 就我们所知,我们的命题是第一个用于无监督对象定位的端到端深度神经网络模型,我们相信这种方法可以作为无监督对象定位研究的重要基线。

方法:在本节中,我们将详细解释我们对所提议的方法的方法。我们将首先介绍提议的网络,然后解释选择GAN和数据增强的标准。我们将最终描述实现细节。建议的网络。我们在GAN鉴别器的最后一个卷积层的末尾添加一个全局平均池(GAP)层,并以完全连接的方式将这个GAP层连接到二进制分类层。请注意,GAP图层和以前的CAM的分类图层之间的权重表明最后一个卷积图层的每个激活图有多大的贡献来决定分类标签。同样,我们的体重代表每幅激活图对正确区分真实图像和假图像的贡献。从这样训练的GAN提取的热图可以通过遵循与CAM相同的后处理来产生边界框。如图1所示,我们在训练阶段使用了一个发生器和一个鉴别器,而我们在测试阶段只使用了鉴别器。另外,我们假设像其他弱监督方法一样,图像中只有一个对象。这意味着所提出的方法将只为每个图像绘制一个边界框。

选定的GAN。最近的GAN模型在防止模式崩溃方面取得了有意义的进展,并试图封装所有数据分布模式。这相当于生成出现在数据集中的所有对象。在这种情况下,鉴别器可能会考虑用于分类的整个图像区域。这是因为它不仅学习主导对象,而且还学习其他对象或背景,而这些对象或背景相对较少。虽然这些GAN在生成力的角度上优于GAN的早期模型,但它们对于物体定位是不利的。

人工智能深度学习利用生成敌对网络的无监督目标定位纯粹机器学习
另一方面,GAN的早期模型容易陷入模式崩溃,从而产生频繁出现在数据集中的主导对象,主要模式,而忽略数据集中出现较少的对象。有人可能会争辩说,主要模式不仅可以对应主要对象,还可以对应纹理或颜色特征。确实,具体的纹理和颜色与主要模式密切相关。但是,他们中的大多数与主导对象强烈关联。因此,我们认为这对物体定位是可取的,模式崩溃对于物体定位可能是有利的。

我们选择三种GAN模型变体:DCGAN,WGAN-GP和DRA-GAN。 DCGAN利用一个非饱和目标函数,该函数可以用反向Kullback-Leibler(KL)散度和Jensen-Shannon(JS)散度的加权和来表示。这种反向KL损失对于梯度消失是强大的,然而,很容易陷入模式崩溃[43]。同时,Fedus et。 Al [45]通过实验证明WGAN-GP和DRAGAN使用的GP术语对防止模式崩溃是有效的。因此,为了研究模式崩溃对物体定位的影响,我们比较了DCGAN与WGAN-GP和DRAGAN。

数据增强。数据增加通过添加处理后的图像来增加训练数据量;例如,改变照明,增加噪声,引入遮挡等。增强数据被认为是原始数据的摄动,并且已知稳定网络训练。最近,介绍了这种数据增强提高了弱监督对象本地化的本地化性能。因此,我们也期望数据增强可以影响基于GAN的无监督对象本地化。具体来说,我们应用了GoogLeNet中使用的光度和空间失真增加数据。我们的实验研究表明这些技术如何影响GAN的学习过程和本地化表现。

实施细节。我们根据他们的论文决定选定GAN的超参数和网络架构。而对于DRAGAN,我们实现了非饱和目标函数,如[45]所建议的那样。所有GAN模型的批量大小为128,训练迭代次数为200k。我们在弱监督方法中选择CAM [12]作为参考技术。虽然CAM的最初实现基于AlexNet和GoogLeNet,但我们用预激活ResNet [46]替换基线CNN来实现CAM。请注意,预激活ResNet是最先进的CNN分类网络。我们选择批量大小为34层的34层体系结构256.训练迭代是100k。我们也遵循原始文件[46]来决定实施ResNet-34的超参数。具体来说,我们使用动力学优化器,动量为0.9。学习速率最初是每25K迭代衰减10倍。重量衰减是1e-4。

结论:在本文中,我们提出了第一个用于无监督对象定位的端到端深度神经网络模型。为此,我们以无监督的方式训练GAN,然后使用CAM可视化GAN鉴别器关注的区域。各种实验研究表明,我们的方法在定性和定量评估中取得了有意义的物体定位性能。当将GAN模型应用于物体定位问题时,我们发现模式塌陷与物体定位之间存在正相关关系。此外,我们观察到数据增强可以有效提高基于DCGAN模型的本地化性能。作为未来的工作,由于模式崩溃对于基于GAN的对象本地化是可取的,我们研究的目标可能与常规GAN模型相反。因此,我们将设计一个专门用于物体定位的新型GAN。此外,我们发现用于对象本地化的度量(例如,GT-已知的Loc)对于测量本地化性能并不是最佳的。我们将调查一个更好的物体定位度量。


上一篇:入坑机器学习?送你一篇麻省博士的学习心得
下一篇:上交大&南科大最新PRL论文:成功用机器学习实现量子态分类器
精选推荐
谷歌《Nature》发论文称实现量子霸权 18亿倍速碾压世界最强超算
谷歌《Nature》发论文称实现量子霸权 18亿倍速碾压世界最强超算

[2019-10-23]  谷歌坚称自己已经取得了量子霸权——这标志着计算研究领域的一个重要里程碑。谷歌首次发布声明是在今年9月,虽然遭到竞争对手的质疑,但就 ...

什么是机器人学?机器人学简介
什么是机器人学?机器人学简介

[2017-12-14]  机器人学是工程学与科学的交叉学科,包括机械工程,电气工程,计算机科学等。机器人技术涉及机器人的设计、制造、操作和应用,以及用于控制、感官反馈和信息处理的计算机系统。...

MIT最新“人机”互连系统 让双腿机器人复制人体技能
MIT最新“人机”互连系统 让双腿机器人复制人体技能

[2019-11-01]  MIT的小爱马仕想借用你的大脑 ,图片来自: João Ramos爱吧机器人网消息,麻省理工学院(MIT)的研究人员展示了一种新型遥操作系 ...

人工智能民主化能否实现取决于科技巨头
人工智能民主化能否实现取决于科技巨头

[2017-12-29]  我们经常听到像谷歌和微软这样的公司说他们希望人工智能民主化。这是一个很好的词,民主化。 但这些公司如何界定“民主化”还不清楚,像AI本身一样,它似乎有点炒作的味道...

苹果AI主管透露自动驾驶汽车项目关于机器学习方面的进展
苹果AI主管透露自动驾驶汽车项目关于机器学习方面的进展

[2017-12-11]  苹果隐秘的自动驾驶汽车项目多年来一直在转移焦点,但今年似乎正在加速。 4月份,公司获得了在加利福尼亚州进行自动驾驶汽车测试的许可证,而在6月份,苹果公司首席执行官库......

深度神经网络揭示了大脑喜欢看什么
深度神经网络揭示了大脑喜欢看什么

[2019-11-06]  爱吧机器人网编者按:近日,《自然-神经科学》发表了一篇论文,研究人员创建了一种深度人工神经网络,能够准确预测生物大脑对视觉刺激所产 ...

美国Natilus公司试飞水上无人货机 设计简单成本降低
美国Natilus公司试飞水上无人货机 设计简单成本降低

[2017-12-28]  Natilus创业公司成立于2014年,其梦想是建造大型无人机,以半价提供比船舶快得多国际货运。在十二月份,Natilus计划在旧金山湾测试一个9米翼展的小型原型无人机的水上滑行能力......

2022年全球工业机器人市场将达到790亿美元
2022年全球工业机器人市场将达到790亿美元

[2017-09-04]  预计到 2022年, 全球工业机器人市场将达到790亿美元, 并在预测期内登记11 5% 的复合年增长率。随着发展中国家中小型企业需求的不断增长, 采用自动化技术以确保生产质量......

本周栏目热点

盘点全球十大最具影响力的机器人摇篮

[1970-01-01]    人工智能(AI)研究现正迅速发展,如无人驾驶汽车、计算机在《危险边缘》智力竞赛节目中获胜、数字私人助手Siri、GoogleNow和语音助手C ...

深度学习反向传播算法(BP)原理推导及代码实现

[2017-12-19]  分析了手写字数据集分类的原理,利用神经网络模型,编写了SGD算法的代码,分多个epochs,每个 epoch 又对 mini_batch 样本做多次迭代计算。这其中,非常重要的一个步骤,......

如何在机器学习项目中使用统计方法的示例

[2018-07-23]  事实上,机器学习预测建模项目必须通过统计学方法才能有效的进行。在本文中,我们将通过实例介绍一些在预测建模问题中起关键作用的统计学方法。...

[2017-08-28]  模拟退火(Simulated Annealing,简称SA)是一种通用概率算法,用来在一个大的搜寻空间内找寻命题的最优解。1、固体退火原理:将固体加温 ...

Machine Learning-感知器分类算法详解

[2018-05-31]  今天我们来讲解的内容是感知器分类算法,本文的结构如下:什么是感知器分类算法,在Python中实现感知器学习算法,在iris(鸢尾花)数据集上训练一个感知器模型,自适应线性神......