一种基于对比学习的图像翻译方法技术

技术编号：37143232 阅读：24 留言：0更新日期：2023-04-06 21:52

本发明专利技术公开了一种基于对比学习的图像翻译方法，包括：将输入图像输入生成器；将生成器生成的图像和目标域的真实图像输入判别器；计算生成对抗网络的损失；将生成器的输入和输出图像重新输入生成器中的编码器，并将输入图像和输出图像的编码向量输入到映射网络中得到同一特征空间中的输入图像和输出图像的特征向量，计算输入图像和输出图像的特征向量之间的对比损失；使用焦点损失对对比损失进行优化；对生成对抗网络损失和优化后的对比损失进行反向传播，对网络进行优化。本发明专利技术利用对比损失生成的模型能够大大减少训练内存占用和训练时长，同时达到比单向图像转换和双向图像转换细节明显的图像转换效果。转换细节明显的图像转换效果。转换细节明显的图像转换效果。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于对比学习的图像翻译方法

[0001]本专利技术属于图像处理
，尤其涉及一种基于对比学习的图像翻译方法。

技术介绍

[0002]图像翻译作为计算机视觉中一种应用比较广泛的技术，旨在学习一种映射关系，实现源域图像到目标域图像的转换。生成对抗网络凭借神经网络强大的表达能力，具有强大的图像生成能力，现已成为图像翻译的一种主流技术。
[0003]现今，随着互联网的不断普及，基于生成对抗网络的图像翻译技术的应用场景越来越普遍，其中包括图像上色，图像高分辨率转换，以及图像编辑等众多应用场景。在自动驾驶领域中将高清晰度城市场景图转换成语义标签图，接着输入识别系统以进行下一步分析。而短视频等应用中，需要对视频增加各种变装效果，其中需要图像翻译的技术支持。同时根据真实照片来生成艺术风格图像也为设计师提供创作参考，以上这些都表现出图像翻译技术广泛的应用价值和巨大的商业价值。
[0004]图像翻译往往采用循环一致性损失或者采用预先定义的内容感知损失以保证领域之间的相关性。然而循环一致性损失需要额外的对称网络，模型较大，不利于训练；内容感知损失需要预先定义，衡量存在偏差，限制了生成器的生成能力。

技术实现思路

[0005]专利技术目的：为了克服现有技术中存在的不足，提供一种基于对比学习的图像翻译方法，能够有效衡量转换图片前后的内容相关性，解决了图像翻译中模型较大以及衡量内容一致性存在较大偏差的问题，相较传统模型具有更好的生成效果。
[0006]技术方案：为实现上述目的，本专利技术提供一种基...

【技术保护点】

【技术特征摘要】
1.一种基于对比学习的图像翻译方法，其特征在于，包括如下步骤：S1：将输入图像输入生成器，生成器包括编码器和解码器；S2：将生成器生成的图像和目标域的真实图像输入判别器，得到判别器的输出，即生成图像预测概率和真实图像预测概率；S3：根据生成图像预测概率和真实图像预测概率，计算生成对抗网络的损失；S4：将生成器的输入和输出图像重新输入生成器中的编码器，得到输入图像和输出图像的编码输出，并将输入图像和输出图像的编码向量输入到映射网络中得到同一特征空间中的输入图像和输出图像的特征向量，计算输入图像和输出图像的特征向量之间的对比损失；S5：使用焦点损失对对比损失进行优化；S6：对生成对抗网络损失和优化后的对比损失进行反向传播，对网络进行优化，使用优化后的网络实现图像翻译。2.根据权利要求1所述的一种基于对比学习的图像翻译方法，其特征在于，所述步骤S1中生成器的结构为：采用U
‑
Net网络结构，包括编码器G
enc
和解码器G
dec
,，其中编码器G
enc
由3层卷积层组成；编码器和解码器之间有一个转换模块Transormation，用于两个领域之间的图像转换；编码器由n层上采样组成；编码器和解码器之间进行了对应卷积层的跳跃连接。3.根据权利要求1所述的一种基于对比学习的图像翻译方法，其特征在于，所述步骤S2中判别器的网络结构为：以CycleGAN的判别器为基础来构建带有注意力模块的判别网络结构，改进原CycleGAN中的判别网络PatchGAN，在保持原网络的感受野大小，加入密集残差块和注意力机制。4.根据权利要求1所述的一种基于对比学习的图像翻译方法，其特征在于，所述步骤S3中生成对抗网络的损失的计算方法为：生成对抗损失为极大极小损失，公式如下：其中，D为判别器，G为生成器，X表示源域，Y表示目标域；x表示源域图像，y表示目标域图像；D(y)为对于真实图像的预测概率，D(G(x))为对于生成图像G(x)的预测概率，该损失表示预测概率与真实概率之间交叉熵损失。5.根据权利要求1所述的一种基于对比学习的图像翻译方法，其特征在于，所述步骤S4中编码输出的具体过程为：使用生成器G中的编码器G
enc
提取图像的高阶语义信息；G
enc
中的某一中间特征图上的每一个空间位置代表输入图像的一个图像块，更深的层对应更大的图像块；借鉴SimCLR模型，选择中间L层，并通过一个小的两层MLP网络H
l
传递特征图，生成一组特征其中表示第l个选定层的输出，其中l∈{1,2,
…
,L}，记s∈{1,2,
…
,S
l
}，其中S
l
是每层中的空间位置数，将相对应的特征称为和其他非对应的特征称为其中C
l
是每层的通道数；同理，将输出图像编码为
6.根据权利要求5所述的一种基于对比学习的图像翻译方法，其特征在于，所述...

【专利技术属性】
技术研发人员：邢志强，董小舒，郭博，辛付豪，余思尧，张典，王杨红，吴欢，
申请(专利权)人：南京莱斯电子设备有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人