基于域自适应先验知识引导GAN的图像生成方法及系统技术方案

技术编号：34483326 阅读：24 留言：0更新日期：2022-08-10 09:00

本发明专利技术公开了一种基于域自适应先验知识引导生成对抗网络的图像生成方法及系统，该方法包括：数据集准备、数据集预处理、训练源域网络模型中的源域生成器、训练目标域网络模型中的目标域生成器、图像增广、训练源域网络模型中的源域判决器和目标域网络模型中的目标域判决器。本发明专利技术提出的GAN中，生成器包括源域分支和目标域分支。源域分支用于学习大量与目标域相似数据的内容信息，利用BN层的仿射参数迁移和域混合技术，将源域的知识迁移到目标域中，解决了目标域数据有限的问题。为了进一步提升生成图像的质量，通过在目标域分支中引入空间自适应归一化模块，在目标域图像生成过程中引入主要目标的先验知识，提升了生成图像中目标的准确性。目标的准确性。目标的准确性。

全部详细技术资料下载

【技术实现步骤摘要】
基于域自适应先验知识引导GAN的图像生成方法及系统

[0001]本专利技术涉及图像生成技术，属于计算机视觉、人工智能领域，特别涉及一种基于域自适应先验知识引导生成对抗网络的图像生成方法及系统。

技术介绍

[0002]本部分的陈述仅仅是提供了与本专利技术相关的
技术介绍
，并不必然构成现有技术。
[0003]随着生成对抗网络(Generative Adversarial Networks，GAN)的提出，图像生成领域迎来研究热潮，基于GAN的图像生成模型已在风格迁移、图像修复、超分辨率、图像翻译等任务领域都取得令人满意的效果。
[0004]一般来说，GAN模型由两部分网络组成，其一是生成器子网络，用于生成图像，另一部分是判决器子网络，用于保证生成的图像与目标图像保持一致。网络的训练过程也是两个子网络相互博弈并共同优化的过程。GAN网络的复杂结构使得其参数较为庞大，因此训练GAN往往需要较为大量的数据。如果数据量不足，则将导致图像生成质量不高，生成图像模式崩溃(mode collapse)等问题。然而在某些特定任务中（例如医学图像生成），很难收集到大量的数据，将导致模型性能下降。
[0005]针对数据有限的情况，采用迁移学习是提升网络性能的一个有效思路。在迁移学习中，域自适应技术火热，该技术能够将源域训练数据和目标域数据在潜空间内的特征表示进行对齐。可以认为两个域的数据被网络提取出同样或相似的特征，因此大量的源域数据提取特征能有效帮助目标域数据的训练，从而提升在数据有限情况下训练出的模型的性能。/>[0006]GAN在一定的训练策略下虽然能生成符合训练集图像分布的数据，但生成图像的质量难以保证，常会出现内容模糊等情况。这通常由于网络中的正则化方式不恰当引起。空间自适应归一化(Spatially
‑
Adaptive Normalization，SPADE)一定程度解决了该问题，它通过对额外的语义分割标签进行卷积计算得到正则化层中的仿射参数。语义标签中具有实例的区域，会在网络提取的特征图中更加显著，从而加强了特征图的语义性，使得生成图像的结果更加逼真。

技术实现思路

[0007]为了解决成对数据及数据标签难以获得的问题，本专利技术提出一种基于域自适应的先验知识引导GAN的图像生成方法和系统。本专利技术提出的GAN中，生成器包括两个分支，源域分支和目标域分支。源域分支用于学习大量与目标域相似数据的内容信息，利用批次正则化层的仿射参数迁移和域混合技术，将源域的知识迁移到目标域中，解决了目标域数据有限的问题。为了进一步提升生成图像的质量，通过在目标域分支中引入空间自适应归一化模块，在目标域图像生成过程中引入主要目标的先验知识，提升了生成图像中目标的准确性。为了提高重要目标区域在判别过程中的重要性，在判别器中引入空间自适应归一化模块，使其能够重点关注目标区域。
[0008]为实现上述内容，本专利技术采用如下技术方案：本专利技术提供一种基于域自适应先验知识引导生成对抗网络的图像生成方法，包括以下步骤：S1. 数据集准备：针对任务需求收集成对的图像和所述图像对应的语义分割标签，作为训练时的目标域数据；从互联网收集与目标域中翻译后的图像相似或相关的图像，不需要标签，作为训练时的源域数据；S2. 数据集预处理：统一所述的目标域数据和源域数据中所有图像数据的尺寸；S3. 训练源域网络模型中的源域生成器：使用所述的源域数据训练模型时，模型的输入为一个噪声向量，该噪声向量经过一个全连接层处理后，将新的向量重组成统一的尺寸，此时模型使用批次正则化（Batch Normalization）作为正则化层。
[0009]本专利技术的期望是使得网络能够生成一张相似于目标域中的翻译后图像。当网络具备这个能力时，可认为该网络保存了生成翻译后图像的内容信息。
[0010]S4. 训练目标域网络模型中的目标域生成器：使用所述的目标域数据训练模型时，模型接受的输入数据为待翻译图像和待翻译图像的语义分割标签，该语义分割标签用于为空间自适应归一化正则化做条件正则化，加强待翻译图像对生成的翻译后图像的约束；S5. 图像增广：使用自适应判决器进行增强，输入自适应判决器前的图像经过随机的增强，自适应判决器只判决增强后的图像。这种方式可以扩宽图像的分布，提供更大的梯度帮助训练；S6. 训练源域网络模型中的源域判决器和目标域网络模型中的目标域判决器：源域网络模型中的源域判决器与目标域网络模型中的目标域判决器不共享正则化层；训练目标域网络模型中的目标域判决器时，该目标域网络模型中的目标域判决器接受的是目标域真实图像或合成图像，和真实图像的语义分割标签，所述的语义分割标签同样用于空间自适应正则化层作条件正则化。以此来更加关注局部的目标。
[0011]优选地，在所述的数据集准备步骤中，收集的图像分为待翻译图像，待翻译图像语义分割标签，翻译后图像和翻译后图像语义分割标签，对应放置于四个文件夹中，作为目标域数据；使用与翻译后图像有关的公开数据集或从互联网上收集与翻译后图像相关的图像，作为源域图像，单独放置在一个文件夹中。
[0012]优选地，在所述的数据集预处理步骤中，为所述的目标域数据中每一组的四个数据设定好命名规则，方便成组。
[0013]优选地，在训练源域网络模型中的源域生成器的步骤中，所述的噪声向量经过一个全卷积层升维，成为一个65536维度的向量，然后将65536维度的向量转换成256*256维的矩阵，之后输入到卷积层中，卷积后的正则化使用批次正则化层；源域生成器生成图像的过程需要经过降采样后再上采样生成256*256的假源域图像；源域判决器接收的图像是真实源域图像或假的源域图像，但是源域判决器接收的图像是经过增强后的图像。
[0014]优选地，在所述的训练目标域网络模型中的目标域生成器步骤中，翻译前的图像和翻译后的图像并不处于同一分布，因此空间自适应正则化层不对目标域生成器的最后的上采样层进行约束，只在前面的下采样层和特征提取层进行约束。这样最后几层可以被目标域判决器更好的指导，从而使生成结果更接近翻译后图像，且保留翻译前图像的特征。由
于源域具有大量数据，且批次正则化层可以学习到图像域的内容不变信息，因此训练时，将对应层的批次正则化层的仿射参数迁移到空间自适应归一化层中，帮助加强源域和目标域的联系。
[0015]优选地，在所述的训练目标域网络模型中的目标域生成器步骤中，目标域生成器接收待翻译图像和待翻译图像语义分割标签，待翻译图像的尺寸为256*256像素，不需要像训练源域网络时经过全连接层，直接进入卷积层网络；经过卷积后的特征图使用空间自适应归一化，在空间自适应归一化正则化中的特征图（feature map）基础正则化使用实例正则化（Instance Normalization）的计算方式，仿射变换则通过额外输入的待翻译图像语义分割标签进行，首先输入的待翻译图像语义分割标签经过一次卷积得到输出后，分别经过两个卷积得到两个张量，这两个张量作为仿射变换参数中的偏移量（β）和缩放量（γ），然后先用源域批次正则本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于域自适应先验知识引导生成对抗网络的图像生成方法，其特征在于，包括以下步骤：S1. 数据集准备：针对任务需求收集成对的图像和所述图像对应的语义分割标签，作为训练时的目标域数据；从互联网收集与目标域中翻译后的图像相似或相关的图像，不需要标签，作为训练时的源域数据；S2. 数据集预处理：统一所述的目标域数据和源域数据中所有图像数据的尺寸；S3. 训练源域网络模型中的源域生成器：使用所述的源域数据训练模型时，模型的输入为一个噪声向量，该噪声向量经过一个全连接层处理后，将新的向量重组统一成图像的尺寸，此时模型使用批次正则化层；S4. 训练目标域网络模型中的目标域生成器：使用所述的目标域数据训练模型时，模型接受的输入数据为待翻译图像和待翻译图像的语义分割标签，该语义分割标签用于空间自适应归一化层做条件正则化，加强待翻译图像对生成的翻译后图像的约束；S5. 图像增广：使用自适应判决器进行增强，输入自适应判决器前的图像经过随机的增强，自适应判决器只判决增强后的图像；S6. 训练源域网络模型中的源域判决器和目标域网络模型中的目标域判决器：源域网络模型中的源域判决器与目标域网络模型中的目标域判决器不共享正则化层；训练目标域判决网络时，目标域判决器接受的是目标域真实图像或合成图像，和真实图像的语义分割标签，所述的语义分割标签同样用于空间自适应归一化层作条件正则化；最后得到判决结果。2.如权利要求1所述的基于域自适应先验知识引导生成对抗网络的图像生成方法，其特征在于，在所述的数据集准备步骤中，收集的图像分为待翻译图像，待翻译图像语义分割标签，翻译后图像和翻译后图像语义分割标签，对应放置于四个文件夹中，作为目标域数据；使用与翻译后图像有关的公开数据集或从互联网上收集与翻译后图像相关的图像，作为源域图像，单独放置在一个文件夹中。3.如权利要求1所述的基于域自适应先验知识引导生成对抗网络的图像生成方法，其特征在于，在所述的训练源域网络模型中的源域生成器的步骤中，所述的噪声向量经过一个全卷积层升维，成为一个65536维度的向量，然后将65536维度的向量转换成256*256维的矩阵，之后输入到卷积层中，卷积后的正则化使用批次正则化层；源域生成器生成图像的过程需要经过降采样后再上采样生成256*256的假源域图像；源域判决器接收的图像是真实源域图像或假的源域图像，但是源域判决器接收的图像是经过增强后的图像。4.如权利要求1所述的基于域自适应先验知识引导生成对抗网络的图像生成方法，其特征在于，在所述的训练目标域网络模型中的目标域生成器的步骤中，翻译前的图像和翻译后的图像并不处于同一分布，因此空间自适应归一化不对目标域生成器的最后上采样层进行约束，只对不包含上采样的其他层进行约束。5.如权利要求4所述的基于域自适应先验知识引导生成对抗网络的图像生成方法，其特征在于，在所述的训练目标域网络模型中的目标域生成器的步骤中，将对应层的批次正则化层的仿射参数迁移到空间自适应归一化中，帮助加强源域和目标域的联系。6.如权利要求1所述的基于域自适应先验知识引导生成对抗网络的图像生成方法，其特征在于，在所述的训练目标域网络模型中的目标域生成器的步骤中，目标域生成器接收
待翻译图像和待翻译图像语义分割标签，...

【专利技术属性】
技术研发人员：张凯，史洋，聂秀山，逯天斌，
申请(专利权)人：山东力聚机器人科技股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人