摘要:面部漫画是一种艺术形式的绘画面孔,以夸张的方式传达幽默或讽刺。在本文中,我们提出了第一个用于不成对的照片到漫画翻译的生成网络(GAN),我们将其称为“CariGAN”。它使用两个组件明确地模拟几何夸张和外观风格:CariGeoGAN,仅模拟从面部照片到漫画的几何到几何的转换,以及CariStyGAN,它将样式外观从漫画转移到面部照片而没有任何几何变形。这样,一个困难的跨域翻译问题被分解为两个更容易的任务。经过研究表明,与最先进的方法相比,我们的CariGAN产生的漫画更接近手绘的漫画,同时更好地保持了身份。此外,我们的CariGAN允许用户控制形状夸张度并通过调整参数或给出示例漫画来改变颜色/纹理样式。

简介
漫画可以被定义为通过素描,铅笔笔划或其他艺术绘画以简化或夸大的方式绘制人物(通常是面部)的艺术形式。作为传达幽默或讽刺的一种方式,漫画通常用于娱乐,作为礼品或纪念品,通常由街头小贩提供。艺术家具有从其他人那里捕获主题的独特面部特征的惊人能力,然后夸大这些特征。
已经有一些互动合成面部漫画的尝试[Akleman 1997; Akleman等。 2000;陈等人。2002; Gooch等人。 2004],但它需要专业技能才能产生富有表现力的结果。提出了一些自动系统,它们依赖于手工制作的规则[Brennan 2007; Koshimizu等。 1999;梁等人。2002;莫等人。 2004],通常来自艺术家的绘画程序。然而,这些方法仅限于特定的艺术风格,例如草图或某种卡通,以及预先设定的夸张模板。
近年来,深度学习作为从例子中学习的代表性技术(特别是来自大数据),已经成功地用于图像到图像的翻译[Hinton and Salakhutdinov 2006;黄等人。 2018; Isola等。 2017年; Kim等人。 2017年;刘等人。 2017年; Yi等人。 2017年;朱等人。 2017b。众所周知,世界上大多数照片和漫画的例子都是不成对的。因此,以自动编码器[Hinton和Salakhutdinov 2006],Pix2Pix [Isola等人]的监督方式进行翻译可能是不可行的。2017],和其他配对的图像翻译网络。建立具有数千个图像对的这样的数据集(即,由艺术家绘制的面部照片及其相关漫画)将太昂贵且乏味。
另一方面,产生漫画有两个关键:形状夸张和外观风格化,如图1(a)(b)所示。神经风格转移方法[Gatys等。 2015年;约翰逊等人。 2016年廖等人。 2017],通过深度神经网络将艺术风格从给定参考转移到照片,擅长造型外观,但不夸大几何形状,如图1(c)所示。有一些作品[黄等人。 2018;刘等人。 2017年;朱等人。 2017a,b]提出了无监督的跨域图像转换,其原则上将同时学习几何变形和外观转换。然而,照片和漫画之间的形状和外观的巨大差距对这些网络提出了巨大的挑战,因此它们产生令人不愉快的结果,如图1(d)所示。
为了产生接近漫画艺术家作品的合理结果,人们不得不问“漫画世代的期望质量是什么?”。形状夸张不是扭曲,完全否定真相[Redman 1984]。夸张的形状应该保持面部构件的相对几何位置,并且只强调主体的特征,与其他部分不同。最终的外观应该忠实于漫画的视觉风格,并保持与输入面的一致性,如其他面部生成器所述。 [Brennan 2007; Liang et al.2002; Mo et al.2004]。此外,生成必须是多样的和可控的。给定一个输入面部照片,它允许生成不同类型的漫画,甚至控制结果通过漫画,或通过用户互动(例如,调整夸张的形状)。它可以是现有的互动漫画系统的有用和补充。

在本文中,我们提出了第一个用于不成对的照片到漫画翻译的生成对抗网络(GAN),我们称之为“CariGANs”。它使用两个组件明确地模拟几何夸张和外观风格:CariGeoGAN,它只模拟从面部照片到漫画的几何到几何的转换,以及CariStyGAN,它将风格从漫画转移到面部照片而没有任何几何变形。两个GAN分别训练每个任务,这使得学习更加健壮。CariGeoGAN和CariStyGAN之间的不成对图像对之间的关系使用循环一致性网络结构,这种结构广泛用于跨域或无监督的图像转换[Huang et al.1188; Zhu et al。2017b]。最后,夸张的形状(从CariGeoGAN获得)通过图像变形夸大程式化的脸(从CariStyGAN获得)。
在CariGeoGAN中,我们使用面部地标的PCA表示而不是地标本身作为GAN的输入和输出。该表示隐含地强制执行网络中的面部形状约束。此外,我们考虑CariGeoGAN中的一个新的特征性损失,以鼓励夸大不同的面部特征,并避免任意扭曲。我们的CariGeoGAN输出地标位置而不是图像,所以在图像变形之前可以调整夸张度。 它使结果可控并且几何形状多样。
至于款式,我们的CariStyGAN设计用于像素到像素的样式传输,没有任何几何变形。为了在训练CariStyGAN中排除几何干扰,我们通过从CariGeoGAN派生的反向几何映射将所有原始漫画与照片形状相翘,创建一个中间漫画数据集。通过这种方式,CariGeoGAN实现的几何到几何平移与CariStyGAN实现的外观到外观的转换成功脱钩。此外,我们的CariStyGAN允许多模态图像转换,通过改变输入噪声来遍历漫画风格空间。它还支持示例引导的图像转换,其中转换输出的样式由用户提供的示例漫画控制。为了进一步保持外观造型的同一性,我们增加了感知损失[Johnson et al。 2016年]进入CariStyGAN。它约束了程式化结果以保留输入的内容信息。
通过我们的CariGAN,可以将野外人脸照片自动翻译成具有几何夸张和外观风格的漫画,如图1(f)所示。我们已经将我们的方法与最先进的方法进行了广泛的比较。感知研究结果显示,与最先进的技术相比,我们的CariGAN产生的漫画更接近手绘漫画,同时更好地保持了身份。我们进一步扩展了新应用的方法,包括生成视频漫画,以及将漫画转换为真人照片。
总之,我们的主要贡献是:
(1)我们提出了第一个深层神经网络,用于不成对的照片到漫画的翻译。它通过使用两个单独的GAN明确地建模几何和外观的平移来实现几何夸大和外观风格化。
(2)我们提出了几何夸张的CariGeoGAN,这是第一次尝试使用循环一致性GAN进行几何中的跨域平移。为了限制形状的扩展,我们采用了两个主要的新颖扩展,如地标的PCA表示和特征损失。
(3)我们为外观风格呈现CariStyGAN,它允许多模态图像翻译,同时通过添加感知损失来保留生成的漫画中的身份。
(4)我们的CariGAN允许用户通过简单地调整参数或给出示例漫画来控制几何和外观风格的夸张度。
相关工作
最近的文献提出了解决照片到漫画转移任务的两个主要方向:传统的基于图形的方法和最近基于深度学习的方法。基于图形的方法。在计算机图形学中,将照片翻译成漫画或卡通很有趣,并且已经研究了很长时间。这些技术可以分为三组。

该类别开发了变形系统,允许用户以交互方式操纵照片[Akleman 1997; Akleman等。2000;陈等人。 2002; Gooch等人。 2004年]。这些方法通常需要专业知识和经验丰富的艺术家的详细参与。
第二类定义了手工艺规则,以自动区分与均值(EDFM)的差异。 Brennan [Brennan 2007]是第一个提出EDFM理念的人。以下作品[Koshimizu et al。 1999; Le等人。2011;廖和李2004;刘等人。 2006;莫等人2004; Tseng and Lien 2007]改进了EDFM的规则,以更好地代表面部特征的独特性。除了2D夸张之外,还有一些工作利用基于张量的3D模型来夸大面部特征[Yang et al。2012]。然而,关于EDFM的有效性存在一个核心问题:这些手工制定的规则是否忠实地反映了漫画家的绘画风格。
第三类方法直接从漫画家绘制的成对照片漫画图像中学习规则。例如,Liang等人[Liang et al。 2002]通过使用偏最小二乘法(PLS)分析图像漫画对之间的相关性来提出学习原型。 Shet等人。 [Shet等人。 2005]训练级联相关神经网络(CCNN)网络以捕获与面部组件相关的绘制风格。然而,在实践中,难以获得大的配对训练集。从一次性或一些样本中学习使得覆盖现有漫画的差异变得无效。
神经风格转移。最近,受到CNN力量的启发,Gatys等人的开创性工作。 [加蒂等人。2015]提供了一种将给定艺术作品的风格自动转移到任何图像的通用解决方案。为了提高质量,已经提出了许多后续工作[Liao et al。 2017年; Szirányi和Zerubia 1997],速度[Chen et al。 2017b;约翰逊等人。 2016],或视频扩展[Chen et al。 2017A。尽管他们成功地将照片或视频转换成铅笔,水彩,油画等许多艺术风格,但由于这些方法在保留图像内容的同时传递特定风格的纹理和颜色,因此无法生成具有几何夸张的漫画。
图像到图像的翻译网络。基于GAN提出的一系列工作用于一般的图像到图像转换。 Isola等。 [Isola等。 2017]开发pix2pix网络,通过监控图像对进行训练,并在许多翻译任务上实现合理的结果,如照片到标签,照片到草图和照片到地图。 BicycleGAN [Zhu et al。2017b]将其扩展到多模式翻译。一些网络包括CycleGAN [Zhu et al。 2017a],DualGAN [Yi et al。 2017],Disco-GAN [Kim et al。 2017],UNIT [Liu et al。2017],DTN [Taigman等。对于不成对的一对一翻译,已提出2016年等,而MNUIT [Huang et al。 2018]被提议用于不成对的多对多翻译。这些网络通常在不成对的翻译任务上取得成功,这些翻译任务仅限于颜色或纹理变化,例如,从马到斑马,从夏到冬。对于照片到漫画的翻译,他们无法对几何和外观变化进行建模。相比之下,我们通过两个分离的GAN明确地对两个平移进行建模:一个用于几何到几何的映射,另一个用于从外观到外观的转换。两个GAN分别采用循环一致的网络结构(例如,Cy-cleGAN [Zhu等人2017a],MNUIT [Huang等人2018]),因为每种类型的翻译仍然建立在未配对的训练图像上。
METHOD
对于漫画生成,基于从示例学习的先前方法依赖于成对的照片到漫画图像。艺术家需要为每张照片绘制相应的漫画。因此,由于金钱和时间的高成本,为监督学习构建这样的配对图像数据集是不可行的。实际上,在因特网上发现了大量的漫画图像,例如Pinterest.com。如何从不成对的照片和漫画中学习照片到漫画的翻译是我们的目标。同时,生成的漫画应该保留面部照片的身份。设X和Y分别为面部照片域和漫画域,两个域之间不存在配对。对于照片域X,我们从CelebA数据库中随机抽取10,000张脸部图像[Liu et al。 2015] xi i = 1,...,N,xi X,涵盖不同的性别,种族,年龄,表情,姿势等。为了获得漫画领域Y,我们从中收集了8,451个手绘的讽刺漫画。互联网具有不同的绘画风格(例如,卡通,铅笔画)和各种夸张的面部特征,yi i = 1,...,M,yi Y.我们想要学习映射Φ:X Y,它可以将输入x X转移到样本y =Φx,y Y.这是跨域图像转换的典型问题,因为照片域和漫画域在几何形状和纹理外观上可能明显不同。我们无法通过其他现有的图像到图像的翻译网络直接学习从X到Y的映射。相反,我们将Φ解耦为两个映射Φдeo和Φapp分别为几何和外观。
CONCLUSIONS
我们为不成对的照片到漫画翻译提出了第一种深度学习方法。我们的方法通过分别用两个GAN学习几何夸张和外观风格来再现漫画艺术。我们的方法在视觉质量和保持身份方面略微提高了现有方法。它更好地模拟了一些手绘漫画程度。此外,我们的方法支持用户灵活控制,以改变形状夸张和外观风格的结果。我们的方法仍然受到一些限制。首先,我们在面部形状中观察到的几何夸张比其他面部特征更明显,并且不能覆盖耳朵,毛发,皱纹等的一些小的几何夸张。那是因为在脸部轮廓上总共有63个地标中有33个。这些地标的变体在PCA表示中占主导地位。可以通过添加更多地标来解决此限制。其次,最好让我们的CariGeoGAN和我的CariStyGAN一样多模态,但我们未能解开几何中的内容和风格,因为它们的定义仍然不清楚。至于外观样式,我们的结果忠实于漫画数据集中常见的参考样式(例如,素描,卡通),但不太忠实于一些不常见的样式(例如,油画),如图20所示。是因为我们的CariStyGAN无法通过有限的数据来学习正确的样式解耦。最后,我们的CariStyGAN经过低分辨率(256 256)图像的训练和测试,我们考虑应用[Karras等人的渐进式增长思想。 2017]在我们的CariStyGAN中逐步添加高分辨率图像的细节(例如,1080p HD)。这些很有趣,并将在未来的工作中进行探索。
原文标题:
CariGANs: Unpaired Photo-to-Caricature Translation
文章来源:人工智能安全机器人医
IEEE Spectrum
《科技纵览》
官方微信公众平台
往期推荐

