形状与纹理

下面这些图片猛一看很普通,其中的物品我们都能够辨识出了。但仔细辨认就会发现图片中的纹理都被更换成了其它物品的纹理。


这些图片是通过特定设计和修改,用于训练计算机视觉模型,这使得模型的性能得到提高。通过这个结果可以进一步揭示出人类视觉演化的细节。


Courtesy of Robert Geirhos


上面这些研究是针对现在基于深度人工神经网络模型的计算机视觉算法存在的脆弱性而进行。


使用大量普通照片训练的计算机视觉模型可以取得很好的性能,有的时候可能会超过人类。但它们也会存在一些容易被攻击的弱点。


比如下面这张图片,一个训练好的物体识别计算机视觉模型可以识别出其中存在着食蜂鸟。通过增加设计好的对抗扰动之后,虽然图片整体上没有太大的改变,但计算机算法却将其识别成金翅雀。



为什么计算机视觉和人类视觉之间会出现这样的差异,来自德国的研究小组给出了答案:人类是关注于图片中物体的外形,而深度学习网络则通常是一类与物体的纹理。


比如下面这张照片,人类是可以分辨出其中存在的小猫的,但一般的计算机神经网络可能将其判断为大象了。


配有大小皮肤的小猫


但德国图宾根大学(University of Tubingen)计算神经学家马蒂亚斯贝斯格(Matthias Bethge)和心理物理学家费利克斯威克曼(Felix Wichmann)的实验室里的一队科学家采用了一种更加定性的方法。


去年,这个小组训练一个对被某种特定噪音影响的图像进行分类的神经网络时,发现它可以比人类做得更好。但是,当这些图像以一种稍微不同的方式改变时,它就完全失效了,尽管在人类看来,新的这两种情况看起来几乎一样。




为了解释这个结果,研究人员想到即使是只包含极小的噪声其特征也会变化很大的特征量——纹理。贝斯格(Bethge)和威克曼实验室的研究生、这项研究的主要作者罗伯特·吉尔霍斯(Robert Geirhos)说:“如果一直增加噪音,物体的形状基本上是完好无损的。但是图像中的局部结构会随着噪音的添加很快被扭曲。”所以他们想出了一个聪明的方法来测试人和深度学习系统是如何处理图像的。


“通常情况下,人类认为神经网络应该做的事情和他们实际采用的方法之间存在着巨大的差异,包括多大程度上他们重现了人类的行为”。



乍一看,人工智能偏爱纹理甚于形状似乎有些奇怪,但这是有道理的。克里格斯科特(Kriegeskorte)说:“你可以把纹理想象成更微小尺度上的形状。这种微小尺度更容易被系统捕捉到:包含纹理信息的像素数量远远超过构成物体边界的像素数量,而网络的最初几步包括检测线和边缘等局部特征。多伦多约克大学(York University)的计算视觉科学家约翰索索斯(John Tsotsos)说。“纹理就是将以相同方式排列的线段分组。”


“它把图像分成小块,就像现在的模型开始做的那样,但是,接下来并不是整合这些信息逐步提取高级特性,而是直接判断每个小块的内容。它只是将这些小块加在一起来确定对象的身份,而没有考虑每个小块之间的全局空间关系。然而,它却能以惊人的准确度识别物体。



实物的形状和纹理都可以有助于对于物品进行分类。人类之所以偏好于形状在于人类生活在三维空间中,往往会在不同的光线、角度下观察实物,同时附加上触觉感知,所以就获得了更多实物的外形信息。相比之下,人工神经网络在训练中则更关注与局部的纹理。


为了弥补算法的缺陷,提高计算机视觉对于实物整体的感知,对于训练数据集合中的物品纹理的改变,就会产生更好的效果。


这个研究结果会加深我们对于深度学习现状的理解,并克服目前所遇到的局限。



参考文献:

(1) https://www.quantamagazine.org/where-we-see-shapes-ai-sees-textures-20190701/




车模图片



基于FPGA 超声导航的直立车模


机械储能车模


快乐的车模封箱


透明胶粘住的轮胎与轮毂