在上面的图片中,左边是一张猫的照片。在右边,你能分辨出它是同一只猫的图片,还是一张看起来相似的狗的图片?这两张图片之间的区别在于,右边的图片被算法调整了一点,使得称为卷积神经网络(CNN)的一种计算机模型很难说出它到底是什么。在这种情况下,美国有线电视新闻网认为它正在看一只狗,而不是一只猫,但最值得注意的是大多数人都是这么认为的。
这就是所谓的对抗性图像的一个例子:这是一种专门用来欺骗神经网络,对他们所看到的东西做出不正确决定的图像。谷歌大脑的研究人员决定通过开发能够使计算机和人类认为他们在看某种东西但实际上不是的对抗性图像,试图弄清楚愚弄人工神经网络的相同技术是否也能欺骗我们脑海中的生物神经网络。
什么是对抗性图像?
由卷积神经网络驱动的视觉分类算法通常用于识别图像中的物体。你训练这些算法,通过向其展示许多熊猫图片来识别它们,并让CNN比较图片以找出它们之间共同的特征。一旦CNN(通常称为“分类器”)在其训练图片中识别出足够的熊猫特征,它就能够在您展示的新图片中可靠地识别熊猫。
人类通过寻找抽象特征来识别熊猫:小黑耳朵,大白头,黑眼睛,毛皮等等。 而CNN识别所依靠的却不是这些,而可能会是一些对人类而言没有任何意义的东西,因为我们对世界的理解方式与CNN截然不同。利用这一点有可能设计出“对抗图像”,这些图像通过仔细计算输入信息比如噪音图像,使得新生成的图像在人类看起来几乎与原图相同,但对分类器来说完全不同,分类器在尝试识别它们时会出错。这是一个熊猫的例子:
Image:OpenAI
一张熊猫的图像,当与对抗性输入相结合时,可以让一个分类器认为它正在看长臂猿
基于CNN的分类器大约60%认为左边的图片是熊猫。但是,如果你稍微改变(“扰动”)图像,通过增加看起来像一束随机噪声(在中间图像中被高度夸大)的图像,那么同一个分类器就会变成99.3%的确定它正在看长臂猿。这种攻击可以如此成功以及对图像几乎察觉不到的变化,原因是因为它针对的是一种特定的计算模型,并且可能不会愚弄其他可能采用不同训练方法的模型。
可能导致多个不同分类器产生相同错误的对抗性图像需要更强大 - 对于一个模型而言,微小的变化不会削弱它。 “健壮”的对抗性图像往往不仅仅涉及图像结构的轻微调整。换句话说,如果你希望你的对抗性图像从不同的角度和距离有效,那么这些调整需要更加重要,或者像人们所说的那样,更加明显。
针对人类
以下是两个强大的对抗性图像的例子,它们对我们人类更有意义:
图片:OpenAI(左)和Google Brain(右)
两个强大的对抗图像,显示分类器如何最有可能识别其内容。
左侧的猫的图像被分类为计算机,这种模型对于几何转换是敏感的。如果你仔细观察,或者甚至用不着那么仔细,你可以看到图像已经被引入的一些我们认为是计算机特性的棱角和方框干扰了。而右侧的香蕉图象,被分类器归类为烤面包机,这种模型对于不同的观察点来说是敏感的。当然,我们人类可以立即认出香蕉,但它旁边的怪异干扰图肯定有一些可识别的烤面包机般的特征。
当你生成一个非常强大的对抗性图像来欺骗大量不同的模型时,对抗性图像通常开始显示出“具备对人类有意义的特征的发展”,如上例所示。换句话说,一个可以欺骗一个模型的对抗性图像可能在人类看起来没什么两样,但是当你想出一个图像可以同时欺骗五个或十个模型时,你的图像可能依赖于人类可能使用到的视觉特征。
就其本身而言,这并不一定意味着一个人可能会认为一只猫的四方形图像真的是一台电脑,或者一个旁边有奇怪图形的香蕉是烤面包机。然而,它所暗示的是,通过尽可能接近地选择与人类视觉系统相匹配的模型,有可能将人类对抗性图像的发展定位在人类身上。
愚弄眼睛(和大脑)
深度卷积神经网络和人类视觉系统之间有一些相似之处,但总的来说,CNN看起来更像计算机而不是人类。也就是说,当一个CNN呈现一个图像时,它正在查看一个矩形像素的静态网格。由于我们眼睛的工作原理,人类在我们所看到的地方大约五度视角内能看到很多细节,但在该区域之外,我们可感知的细节呈线性下降。
因此,与CNN不同的是,(对比)模糊人类图像的边缘并不是非常有用,因为这不是我们的眼睛会检测到的。研究人员能够通过添加一个“视网膜层”来模拟这一点,该视网膜层修改了输入到CNN中的图像,以模拟人眼的特征,其目标是“使CNN的信息对人的视觉系统也有用”。
我们应该注意到,人类通过移动我们的眼睛来弥补这种情况,但是研究人员以他们的实验方式补偿了这一点,以便保持人类和CNN之间的比较有效。
使用这个视网膜层是研究人员对他们的机器学习模型进行的人类特性调整。为了生成实验的对抗图像,他们测试了10种不同的机器学习模型的候选图像,每种机器学习模型都可靠地将(比方说)一只猫的图像错误地分类为(比方说)一只狗的图像。如果所有10个模型都被愚弄了,那么这个候选图像就开始进行人类实验。
它有作用吗?
实验涉及三组图像:宠物(猫和狗),蔬菜(卷心菜和西兰花)和“危害”(蜘蛛和蛇)。对于每一个群体来说,一个成功的敌对形象能够欺骗人们选择群体中的错误成员,当它实际上是一只猫时,将其识别为一只狗,反之亦然。受试者坐在电脑屏幕前,显示一个特定组的图像,时间为60到70毫秒,然后他们可以推动两个按钮中的一个来识别他们认为他们正在看的图像。图像显示的短时间减小了CNN如何看待世界和人类如何做的差异;研究人员说,本文顶部的图片是不寻常的,因为效果依然存在。
实验期间显示给受试者的图像可能是未经修改的图像、对抗性图像、其中扰动层在应用之前翻转颠倒的图像,或者其后扰动被完全应用于不同图像的图像。最后两种情况确保控制扰动层本身(扰动层的结构是否有所不同,而不仅仅是它是否在那里?)并确定扰动是否真的可以欺骗人们选择某一个而不是另一个,而不是让他们整体不太准确。
下面是一个例子,显示可以准确识别狗的图像的人的百分比,以及用于改变图像的扰动层。请记住,人们只有60毫秒和70毫秒之间才能看到每张图片并作出决定:
图片:谷歌大脑
狗的未经修改的图像,被人类和计算机误认为是猫的狗的对抗性图像,以及具有扰动层的图像垂直翻转以用作对照。
以下是总体结果:
图表:Google Brain
这项研究的结果显示了人类在识别与对抗性图像相反的真实图像方面的准确程度。
该图显示了选择正确图像的准确性。如果你选择了猫,它确实是一只猫的形象,你的准确性是好的。如果你选择了猫,而这实际上是一只看起来像猫的狗的形象,那么你的准确性是不好的。
正如您所看到的,识别未经修改的图像或带有翻转扰动层的图像时,人们识别对抗性图像时明显更可能是准确的。这表明敌对形象攻击事实上可以从CNN传递给人类。
虽然这些攻击是有效的,但它们也比人们预想的更微妙 - 没有四四方方的猫或烤面包机图形或任何类似的东西。由于我们可以看到扰动层本身并在它们被破坏之前和之后检查图像,所以试图弄清究竟是什么使我们陷入困境是很有诱惑力的。然而,研究人员指出,“我们的对抗性例子旨在欺骗人类的感知,所以我们应该小心使用主观的人类认知来理解它们的工作方式。”
他们愿意对一些不同类别的修改做一些概括,包括“扰乱物体边缘,尤其是通过垂直于边缘的中频调制;通过增加对比度和创建纹理边界来增强边缘;修改纹理;以及利用图像中的暗区,小扰动的感知幅度可能更大。“您可以在下面的图片中看到这些示例,红框突出显示效果最明显的位置。
图片:谷歌大脑
这些例子展示了对抗图像被修改的方式。
这有什么意义
还有很多更多的事情,而不仅仅是一个巧妙的技巧。研究人员能够证明他们的技术是有效的,但他们并不完全确定,为什么在抽象的层面上几乎是存在的:
“我们的研究提出了基本的问题,如对抗性的例子如何工作,CNN模型是如何工作的,以及大脑如何工作。对抗性攻击是否从CNN转移到人类,因为CNN中的语义表征与人脑中的类似?他们是否转移了,因为CNN和人脑中的表征都与某些固有的语义表征相似,而这些语义表征自然对应于现实?”
如果你真的想要你的面条烘烤,研究人员很乐意通过指出如何用“视觉对象识别......很难定义客观正确的答案。图1客观上是狗还是客观上是一只猫却愚弄人认为这是一只狗?”换句话说,敌对图片在什么情况下试图欺骗你以为它是这样的东西?
这里可怕的东西是可能利用CNNs的感知操纵与人类操纵之间的重叠这一事实的一些方式。这意味着机器学习技术可能潜在地用于巧妙地改变图片或视频之类的东西,这种方式可能会改变我们对它们的看法(以及对它们的反应),而我们没有意识到发生了什么。从论文:
“例如,一个深层模型的集合可能会受到人脸等级可信度评分的培训。这样就有可能产生对抗性干扰,增强或减少人类对可信度的印象,这些干扰图像可能会用于新闻报道或政治广告。
更多的投机风险涉及制造感官刺激的可能性,这种刺激以更多样化的方式破坏大脑,并且效果更大。作为一个例子,已经观察到许多动物对超常刺激敏感。例如,杜鹃小鸡发出求助鸣叫和相关的可视行为,导致其他物种的鸟类喜欢将杜鹃鸡当自己的后代喂养。敌对的例子可以被看作是神经网络超常刺激的一种形式。令人担忧的可能性是,旨在影响人类行为或情绪的超常刺激,而不仅仅是图像的感知类别标签,也可能从机器转移到人类。”
当然,这些技术也可以以积极的方式使用,研究人员也提出了使用图像扰动“改善显着,或注意力,执行类似空中交通管制或放射影像检查的任务,这有可能乏味或者讨厌,但是注意力不集中的后果是可怕的。”此外,“用户界面设计师可以使用图像扰动来创建更自然直观的设计。”嗯。这很好,但我更担心整个黑客大脑如何看待人们是否值得信赖,你知道吗?
其中一些问题可以在未来的研究中得到解决 - 有可能确定究竟是什么使某些对抗性例子更容易转移到人类身上,这可能会提供关于我们大脑如何工作的线索。反过来,这可以帮助我们理解和改进越来越多地用于帮助电脑更快,更有效地学习的神经网络。但我们必须小心谨慎,并且要记住,就像那些电脑一样,有时候我们太容易愚弄了。
来自Google Brain的Gamaleldin F. Elsayed,Shreya Shankar,Brian Cheung,Nicolas Papernot,Alex Kurakin,Ian Goodfellow和Jascha Sohl-Dickstein的敌对案例可在
arXiv上找到。
【爱吧机器人网原创编译,禁止转载】