一种基于动态自注意力生成对抗网络的图像合成方法技术

技术编号：30013682 阅读：12 留言：0更新日期：2021-09-11 06:16

本发明专利技术公开了一种基于动态自注意力生成对抗网络的图像合成方法，属于计算机视觉领域。该方法首先选择生成对抗网络作为基本框架，并对训练图片进行归一化，还对正态分布进行采样得到噪声样本。本发明专利技术借鉴了Linformer算法和动态卷积算法，并对发明专利技术中使用的多头自注意力机制进行改进，增加了每个自注意力头之间的联系和约束，使得这些自注意力头可以去学习到图像的各种模式知识。本发明专利技术充分地发挥了动态自注意力机制和生成对抗网络的优势，提出的动态自注意力模块可大幅度降低多头自注意力机制的计算复杂度，并改善生成对抗网络的模式崩塌和训练不稳定等问题。式崩塌和训练不稳定等问题。式崩塌和训练不稳定等问题。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于动态自注意力生成对抗网络的图像合成方法

[0001]本专利技术属于计算机视觉领域，主要涉及图像的合成问题；主要应用于图像修复、编辑、增强以及检索等领域。

技术介绍

[0002]图像合成是利用计算机视觉技术理解图像内容，并根据需求生成指定图像的技术。它一般可分成两种类型：无监督图像合成和有监督图像合成。无监督图像合成多指学习从噪声分布到图像分布的映射函数，并通过映射函数合成图像。有监督图像合成，是指学习图像数据条件分布，进而生成给定条件下的图像。图像合成作为计算机视觉领域的一个热点问题，它是图像修复、编辑和增强的基础。其不仅可以解决军事、医疗和安全等领域视觉数据缺失问题，还可以应用于影视娱乐、平面设计等领域。
[0003]由于人类对于图像的细节和边缘等信息十分敏感，因此图像合成算法需要保证图像合成的真实性和多样性。为了提高合成图像的真实性和多样性，许多学者使用深度生成技术来改善以往的图像合成算法。然而，当目标数据分布非常复杂时，早期的深度生成方法常面临着计算量大和难以求解的问题。在2014年Goodfellow等人提出的生成对抗网络方法出色地解决了这一问题。相比以往的深度生成方法，生成对抗网络具有以下几点明显的优势：1.生成对抗网络方法仅需增加生成器的输出维度和判别器的输入维度即可生成较大维度的样本。2.生成对抗网络对数据分布不做任何先验假设，因而不需要人工设计模型的分布。3.生成对抗网络方法合成的数据分布十分接近真实样本的数据分布，合成图像的真实性和多样性可以得到很好地保证。由于生成对抗网络这些明显的...

【技术保护点】

【技术特征摘要】
1.一种基于动态自注意力生成对抗网络的图像合成方法，该方法包括：步骤1：对数据集进行预处理；获取cifar10数据集后，首先根据该数据集的类别标签将图像进行分类，然后利用one
‑
hot向量对类别标签进行编码；最后将图片像素值进行归一化，并且将数据保存为张量以便生成对抗网络来使用；步骤2：构建卷积神经网络；构建卷积神经网络包括两个子网络，一个为生成器，另一个为判别器；生成器输入为高斯噪声，它的输出为图像，而判别器的输入为图像，输出为标量；生成器网络的第一层为线性全连接层，之后依次接着三个上采样残差网络块，最后再连接一个标准卷积块；判别器网络依次采用两个下采样残差网络块，两个标准残差网络块，以及线性全连接层；标准卷积块，上采样残差网络块，下采样残差网络块以及残差网络块如图4所示。步骤3：构建动态多头的注意力模块；设一个高斯噪声送入卷积神经网络中的生成器后，通过生成器中的上采样残差网络块输出得到的特征图为X，大小为H
×
W
×
C，其中C为特征图的通道数，H和W分别为特征图的高和宽；将X改变形状至N
×
C，其中N＝H
×
W；第一步是计算X的动态注意力权重其中M为自注意力头的个数；第二步将X输入到分组卷积中，并得到query特征图组集合，key特征图组集合，value特征图组集合；第三步利用动态注意力权重z在3个特征图组集合中选择出对应的最优query特征图，key特征图，value特征图；第四步利用降维变换E和降维变换F分别对选中的key特征图与value特征图进行降维变换，并利用query特征图与降维后的两个特征图去重建特征图X；步骤4：设计总神经网络；将步骤3中的动态多头自注意力模块嵌入到步骤2中的生成器当中，嵌入位置在生成器最后一个上采样残差网络块之后；在训练时，高斯噪声送入生成器后，通过生成器中的上采样残差网络块输出得到特征图X，特征图X经过步骤3中的动态多头自注意力模块后得到重建特征图X
*
，重建特征图X
*
再经过生成器中的输出卷积层得到输出图片，并将生成器的输出图片作为判别器的输入。步骤5：设计损失函数；在步骤1中获取到的图片记为I；并对正态分布进行随机采样得到向量步骤2中的生成器网络记为G，判别器网络记为D；生成器G的输入为v，它的输出记为G(v)；判别器的D输入为I和G(v)，它们的输出分别记为D(I)和D(G(I))；网络的损失为：输入为I和G(v)，它们的输出分别记为D(I)和D(G(I))；网络的损失为：输入为I和G(v)，它们的输出分别记为D(I)和D(G(I))；网络的损失为：为判别器的损失函数，为生成器的损失函数；分别表示对I和v求期望；步骤6：训练总神经网络；利用步骤5构建的损失函数进行网络训练，在更新G时固定D的参数，而更新D时则固定G的参数，每次迭代交替更新一次；步骤7：测试总神经网络；
在步骤6中训练好模型，只取生成器G；将正态分布中的不同噪声样本输入到G中，即可得到多张不同的输出图片。2.如权利要求1所述的一种基于动态自注意力生成对抗网络的图像合成方法，所述步骤3的具体方法为：步骤3.1：计算动态注意力权重这一步计算每一个自注意力头被选择的概率值，M为自注意力头的个数；z由注意力模块π得到，表示z向量的第i维分量，并且它表示...

【专利技术属性】
技术研发人员：王博文，潘力立，李宏亮，孟凡满，吴庆波，许林峰，
申请(专利权)人：电子科技大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人