详细解读Ian Goodfellow ICCV2017演讲PPT《解读GAN的原理与应用》

程序员文章站 2022-03-16 17:12:04

...

转自：
@TOChttps://blog.csdn.net/qq_40667584/article/details/78422718

PPT下载：http://www.iangoodfellow.com/slides/2017-10-22.pdf

PPT1：生成对抗网络

PPT2：生成模型

生成模型有两种方法：

密度（概率）估计：就是说在不了解事件概率分布的情况下，先假设随机分布，然后通过数据观测来确定真正的概率密度是怎样的。

样本生成：就是手上有一些训练样本数据，通过训练后的模型来生成类似的“样本”。

PPT最底下一排图片来自于ImageNet的数据库，左边是训练图片，右边可以看作是一个理想的生成模型所产生的照片（实际上右边的照片依然是从ImageNet库里选取的，我们的系统目前还没有成熟到可以生成这种真实感）。

PPT3：最大似然估计

在生成模型这一过程中，需要用到最大似然估计这一方法。最大似然估计就是给定了观察数据以评估模型参数（也就是估计出分布模型应该是怎样的）的方法。

PPT4：对抗网络框架

整个训练过程包含两步，判别器用 D 表示，生成器用 G 表示，真实数据库样本用X 表示，噪声用Z 表示。

第一步，只有判别器D参与。

我们把X样本输入可微函数D中，D输出0-1之间的某个值，数值越大意味着X样本是真实的可能性越大。在这个过程中，判别器D尽可能使输出的值靠近1，因为这一阶段的X样本就是真实的图片。

第二步，判别器D和生成器G都参与。

我们首先将噪声数据Z给生成器G，G从原有真实图像库里学习概率分布，从而产生假的图像样本。然后，我们把假的数据交给判别器D。这一次，D将尽可能输入数值0，这代表着输入数据Z是假的。所以这个过程中，判别器D相当于一个监督情况下的二分类器，数据要么归为1，要么归为0。

PPT5：我们能用GAN来做什么？

模拟环境和训练数据

PPT6：苹果公司发表的第一篇论文就是尝试解决AI公司面对的问题

PPT7：用于模拟训练数据

  Unlabled real images 未标记的真实图像

Refiner精炼器 synthetic合成的 refined精确的

苹果发表自己的第一篇论文，题目叫做《通过对抗训练从模拟与无监督图像中学习》，论文描述了如何利用计算机生成的图像而不是用真实图像改进算法识别图像能力的训练。

采用模拟(S)+无监督(U)学习，任务是学习一个使用未标记的真实数据从精练器改进合成图像的真实性，同时保留注释信息。

PPT8：用于域适应的GAN

谷歌发表在CVPR 2017的论文《无监督像素级域适应与生成对抗网络》。论文中的方法是以无监督的方式学习一个像素空间中从一个域到另一个域的变换。基于生成对抗网络（GAN）的方法能够使源域（source-domain）图像看起来就像是来自目标域（target domain）的一样。相当于变换背景。

PPT9：缺失数据

  面临缺乏数据的情况时，可以通过生成模型来补足。

PPT10：内容识别填充。

在填充图片的缺失或损坏的部分时，图像补全和修复是两种密切相关的技术。Yeh等人的一篇论文《基于感知和语境损失的图像语义修补》。介绍了使用DCGAN(深度卷积生成对抗网络)来进行图像补全。

DCGANs的基本架构就是使用几层“反卷积”网络。“反卷积”类似于一种反向卷积，这跟用反向传播算法训练监督的卷积神经网络（CNN）是类似的操作。

PPT11：体验一下半监督学习。

PPT12：强制判别器

将生成式对抗网络（GAN）拓展到半监督学习，通过强制判别器来输出类别标签。共有N类，D用于鉴别是N+1类中的一个，+1的是对应G生成的一类。这种方法可以用于创造更加有效的分类器，并且可以比普通的GAN产生更加高质量的样本。

PPT13：多个正确的答案

   多标签预测（同时完成real/fake, 样本类别等的预测）

PPT14：下一个视频帧预测（未来帧预测）

真实的情况

主要完成的任务是根据视频中已有帧的相关数据预测某一帧所对应的下一帧数据，通过GAN对其之前数据规律的学习，合成其未发生的下一帧数据。这可以使我们通过海量数据的学习，达到预测未来未发生事件的效果。

PPT15：下一个视频帧预测

图中所示3张人物头像数据，图1为原始图像，图2是通过传统图像合成方式所得图像，图3为通过GAN生成的图像。通过图2和图3的对比可以发现通过GAN合成的图像边缘模糊情况大大减轻，图像分辨率有所提高，纹理与原图也更接近。这是Lotter等人在2016年提出了一种新颖的“PredNet”结构。

PPT16：下一个视频帧预测

均方误差平均绝对误差对抗性

这个是Michael Mathie人2015年提出的。主要是用对抗式训练进行视频预测的，研究解决了一个非常重要的问题，那就是，当你训练一个神经网络（或者其他任何模型）来预测未来，如果要预测的东西有多种可能性时，一个网络以传统的方式进行预测（比如，用最小平方），将会预测出所有可能性的平均值。在视频的例子中，有很多模糊的混乱。对抗式训练能让系统产出其想要的任何东西，只要是在鉴别器喜欢的任何数据库内就可以，这解决了在不确定条件下进行预测的“模糊”难题。

PPT17:现实生成任务

根据环境需要生成相应数据

PPT18：哪些是真实的照片？

在自动生成任务中，公司 Vue.ai 开发了一种将取代模特的自动生成试装照片的系统，该系统使用GAN技术，可以控制所需模特照片的体型、肤色、身高、鞋子等等，不仅是模特，摄影师和工作室都可以不需要了。这项技术使用了GAN。这个系统由两个AI组成：生成器试图生成一张看起来很好的图像，而判别器则决定这张图像是否看起来足够好。

PPT19：跳过了预测模拟和解决推理问题两部分

   到了了解有用的嵌入

   讲如何得到数据的embedding（特征表示）信息。

PPT20：向量空间运算

在特征表示学习这块，Radford 等人在2015年提出了DCGAN。他们主要是想从大量无标签数据集中学习可重复使用的特征表示。实际上，可以利用不限数量的无标签图像和视频来学习一个好的中间表示，这个表示可以用在大量有监督的学习任务上，例如图像分类。提出一种方法，可以建立好的图像表示，通过训练对抗生成网络（GAN），并且反复利用生产网络和辨别网络的一部分作为有监督任务的特征提取，其实就是一个反向的CNN。做个向量/矩阵加减，将加减后得到的向量/矩阵还原成有意义的图片。在这里，DCGAN是把矩阵对应到有意义的图片。即：戴墨镜的男人 -不戴墨镜的男人 +不戴墨镜的女人=戴墨镜的女人。

PPT21：GAN可以持续多久？

在样本生成这一过程，生成对抗网络实现这些需要多久？

PPT22：帝王蝶金翅雀雏菊

Odena等人在2016年提出了Auxiliary Classifier(辅助分类器)GANs（AC-GANs）。论文中主要提出AC-GAN模型，在D上加了分类器，在输出样本真假的同时输出类别，在D的输出部分添加一个辅助的分类器来提高条件GAN的性能。针对任务，提出这种新的Inception Accuracy(初始精度)的评价方法，并引入了MS-SSIM用于判断模型生成图片的多样性。

PPT24:在GAN动物园追踪更新

  按月份统计的GAN文件累计数

  由这个图，我们知道这两年特别是2017年相关GAN命名的文章增长很迅速。