一种基于对比学习的图像翻译方法技术

技术编号:37143232 阅读:24 留言:0更新日期:2023-04-06 21:52
本发明专利技术公开了一种基于对比学习的图像翻译方法,包括:将输入图像输入生成器;将生成器生成的图像和目标域的真实图像输入判别器;计算生成对抗网络的损失;将生成器的输入和输出图像重新输入生成器中的编码器,并将输入图像和输出图像的编码向量输入到映射网络中得到同一特征空间中的输入图像和输出图像的特征向量,计算输入图像和输出图像的特征向量之间的对比损失;使用焦点损失对对比损失进行优化;对生成对抗网络损失和优化后的对比损失进行反向传播,对网络进行优化。本发明专利技术利用对比损失生成的模型能够大大减少训练内存占用和训练时长,同时达到比单向图像转换和双向图像转换细节明显的图像转换效果。转换细节明显的图像转换效果。转换细节明显的图像转换效果。

【技术实现步骤摘要】
一种基于对比学习的图像翻译方法


[0001]本专利技术属于图像处理
,尤其涉及一种基于对比学习的图像翻译方法。

技术介绍

[0002]图像翻译作为计算机视觉中一种应用比较广泛的技术,旨在学习一种映射关系,实现源域图像到目标域图像的转换。生成对抗网络凭借神经网络强大的表达能力,具有强大的图像生成能力,现已成为图像翻译的一种主流技术。
[0003]现今,随着互联网的不断普及,基于生成对抗网络的图像翻译技术的应用场景越来越普遍,其中包括图像上色,图像高分辨率转换,以及图像编辑等众多应用场景。在自动驾驶领域中将高清晰度城市场景图转换成语义标签图,接着输入识别系统以进行下一步分析。而短视频等应用中,需要对视频增加各种变装效果,其中需要图像翻译的技术支持。同时根据真实照片来生成艺术风格图像也为设计师提供创作参考,以上这些都表现出图像翻译技术广泛的应用价值和巨大的商业价值。
[0004]图像翻译往往采用循环一致性损失或者采用预先定义的内容感知损失以保证领域之间的相关性。然而循环一致性损失需要额外的对称网络,模型较大,不利于训练;内容感知损失需要预先定义,衡量存在偏差,限制了生成器的生成能力。

技术实现思路

[0005]专利技术目的:为了克服现有技术中存在的不足,提供一种基于对比学习的图像翻译方法,能够有效衡量转换图片前后的内容相关性,解决了图像翻译中模型较大以及衡量内容一致性存在较大偏差的问题,相较传统模型具有更好的生成效果。
[0006]技术方案:为实现上述目的,本专利技术提供一种基于对比学习的图像翻译方法,包括如下步骤:
[0007]S1:将输入图像输入生成器,生成器包括编码器和解码器;编码器主要用于将输入图像的特征编码成特征向量,解码器主要将特征向量解码成目标域里的图像;
[0008]S2:将生成器生成的图像和目标域的真实图像输入判别器,得到判别器的输出,即生成图像预测概率和真实图像预测概率;
[0009]S3:根据生成图像预测概率和真实图像预测概率,计算生成对抗网络的损失;
[0010]S4:将生成器的输入和输出图像重新输入生成器中的编码器,得到输入图像和输出图像的编码输出,并将输入图像和输出图像的编码向量输入到映射网络中得到同一特征空间中的输入图像和输出图像的特征向量,根据对比学习的定义概念来定义图像翻译中的对比学习方法,采样输入图像上的图像块和输出图像上的图像块,划分正负样本,提出对比损失,计算输入图像和输出图像的特征向量之间的对比损失;
[0011]S5:使用焦点损失对对比损失进行优化,解决其中正负样本采样不均的问题;
[0012]S6:对生成对抗网络损失和优化后的对比损失进行反向传播,对网络进行优化,使用优化后的网络实现图像翻译。
on machine learning.PMLR,2020:1597

1607),选择中间L层,并通过一个小的两层MLP网络H
l
传递特征图,生成一组特征其中表示第l个选定层的输出,其中l∈{1,2,

,L},记s∈{1,2,

,S
l
},其中S
l
是每层中的空间位置数,将相对应的特征(正示例)称为和其他非对应的特征(负示例)称为其中C
l
是每层的通道数;
[0023]同理,将输出图像编码为
[0024]所述步骤S4中对比损失的计算具体为:
[0025]优化目标是在特定位置匹配相应的输入输出图像块;将同一输入中的其他图像块作为负样本并将其命名为NCEIT Loss(NCE Loss for Image Translation),对比损失的表达如下:
[0026][0027]其中,H为两层的MLP网络,G为生成器,X为源域,S
t
表示某一特征图上的特征点数,对应于图像,也就是图像块的数量;L表示中间层的数量。
[0028]值得注意的是,本专利技术中也可以利用数据集中其他图像的图像块作为负示例;将数据集x中的随机负片图像编码为并使用以下外部编码,在这个变体中,使用一个辅助的移动平均编码器来维护一个大的、一致的负样本字典,与MoCo(He K,Fan H,Wu Y,et al.Momentum contrast for unsupervised visual representation learning[C]//Proceedings ofthe IEEE/CVF conference on computervision andpattern recognition.2020:9729

9738)类似,可以从更长的历史记录中对图片进行采样,这比端到端更新和内存库更有效;对比损失的表达如下:
[0029][0030]其中,数据集负片从外部字典来自源域中的Z

采样,其数据计算使用移动平均编码器和移动平均MLP为了简便计算,采用同一输入上的图像块作为负示例。
[0031]进一步地,所述步骤S5中:对比学习在采样时通常存在采样不平衡问题,导致映射网络H区分正负样本的能力降低,大量的负样本使得H难以学习到正样本的特征,不利于生成器和判别器的训练。为了缓解这种正负样本分配不均问题。本专利技术方法中使用焦点损失对目标损失进行优化。
[0032]焦点损失(Focal Loss,FL)是交叉熵损失(Cross

Entropy Loss,CE)的改进版本,它通过为难分类的或容易错误分类的示例(即带有噪声纹理的背景或部分对象的或感兴趣的对象)分配更多的权重来处理类不平衡问题,并对简单示例(即背景对象)降低权重。
[0033]已知优化目标是在特定位置匹配相应的输入输出图像块。将同一输入中的其他图像块作为负样本并将其命名为NCEIT Loss(NCE Loss for Image Translation)。
[0034][0035]其中,S
t
表示某一特征图上的特征点数,对应于图像,也就是图像块的数量;L表示中间层的数量。在多个特征图上计算NCEIT Loss,因为多个特征图的所代表的语义信息以及对应于输入图像上的图像块大小不同,在多个特征图上计算噪声对比估计损失有益于H网络学到更多的信息,H网络用于将输入以及输出图像块映射到同样的嵌入空间,同时将相关图像块映射到相近的特征空间,将不相关的图像块映射到相距较远的特征空间。对于每一个输出图像块来说,只有位置与之相同的输入图像块为其相关信号,而其他位置的图像块为负激励信号,对于几十大小的特征图,会产生正样本数量远远小于负样本数量,大量负样本的梯度信息会覆盖掉唯一的正样本梯度信息,因此,为解决上述问题,引入焦点损失。具体如下:
[0036]记则
[0037][0038][0039]其中,γ为调整简单样本的权重衰减速率;
[0040]得到的对比损失NCEIT Loss公式如下:
[0041][本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于对比学习的图像翻译方法,其特征在于,包括如下步骤:S1:将输入图像输入生成器,生成器包括编码器和解码器;S2:将生成器生成的图像和目标域的真实图像输入判别器,得到判别器的输出,即生成图像预测概率和真实图像预测概率;S3:根据生成图像预测概率和真实图像预测概率,计算生成对抗网络的损失;S4:将生成器的输入和输出图像重新输入生成器中的编码器,得到输入图像和输出图像的编码输出,并将输入图像和输出图像的编码向量输入到映射网络中得到同一特征空间中的输入图像和输出图像的特征向量,计算输入图像和输出图像的特征向量之间的对比损失;S5:使用焦点损失对对比损失进行优化;S6:对生成对抗网络损失和优化后的对比损失进行反向传播,对网络进行优化,使用优化后的网络实现图像翻译。2.根据权利要求1所述的一种基于对比学习的图像翻译方法,其特征在于,所述步骤S1中生成器的结构为:采用U

Net网络结构,包括编码器G
enc
和解码器G
dec
,,其中编码器G
enc
由3层卷积层组成;编码器和解码器之间有一个转换模块Transormation,用于两个领域之间的图像转换;编码器由n层上采样组成;编码器和解码器之间进行了对应卷积层的跳跃连接。3.根据权利要求1所述的一种基于对比学习的图像翻译方法,其特征在于,所述步骤S2中判别器的网络结构为:以CycleGAN的判别器为基础来构建带有注意力模块的判别网络结构,改进原CycleGAN中的判别网络PatchGAN,在保持原网络的感受野大小,加入密集残差块和注意力机制。4.根据权利要求1所述的一种基于对比学习的图像翻译方法,其特征在于,所述步骤S3中生成对抗网络的损失的计算方法为:生成对抗损失为极大极小损失,公式如下:其中,D为判别器,G为生成器,X表示源域,Y表示目标域;x表示源域图像,y表示目标域图像;D(y)为对于真实图像的预测概率,D(G(x))为对于生成图像G(x)的预测概率,该损失表示预测概率与真实概率之间交叉熵损失。5.根据权利要求1所述的一种基于对比学习的图像翻译方法,其特征在于,所述步骤S4中编码输出的具体过程为:使用生成器G中的编码器G
enc
提取图像的高阶语义信息;G
enc
中的某一中间特征图上的每一个空间位置代表输入图像的一个图像块,更深的层对应更大的图像块;借鉴SimCLR模型,选择中间L层,并通过一个小的两层MLP网络H
l
传递特征图,生成一组特征其中表示第l个选定层的输出,其中l∈{1,2,

,L},记s∈{1,2,

,S
l
},其中S
l
是每层中的空间位置数,将相对应的特征称为和其他非对应的特征称为其中C
l
是每层的通道数;同理,将输出图像编码为
6.根据权利要求5所述的一种基于对比学习的图像翻译方法,其特征在于,所述...

【专利技术属性】
技术研发人员:邢志强董小舒郭博辛付豪余思尧张典王杨红吴欢
申请(专利权)人:南京莱斯电子设备有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1