一种融合多支路神经网络的图像翻译方法技术

技术编号:44085181 阅读:32 留言:0更新日期:2025-01-21 12:23
本发明专利技术公开了一种融合多支路神经网络的图像翻译方法。该方法包括:构建半配对图像转换模型,对原图像进行重构,且将原图像添加标签,重构图像作为无标签数据;构建多支路图像翻译模型,将原图像输入多支路图像翻译模型中,多支路图像翻译模型的第一支路通过深度特征差异和注意力机制,从原图像中提取第一特征;其第二支路通过风格注意力机制与自归一化,从原图像中提取第二特征;将所提取的第一特征与第二特征进行融合,生成多模态特征,并生成目标图像;利用标签数据对模型进行训练,利用无标签数据对模型进行准确性评估。通过本发明专利技术的技术方案,有效解决了配对图像稀少的情况下的现有图像转换方法效率不高的问题。

【技术实现步骤摘要】

本专利技术属于计算机视觉,具体涉及一种融合多支路神经网络的图像翻译方法


技术介绍

1、在计算机视觉领域中,关于图像翻译的研究非常广泛,计算机视觉领域内的诸多问题最后都能归纳为图像翻译问题。图像翻译包含了计算机视觉、计算机图形学领域的许多经典问题,具有极高的科研价值,而利用生成对抗网络的图像翻译模型,已经在工业界的诸多场景中落地应用,例如时尚编辑、妆容迁移、自动驾驶场景分割等。图像翻译的研究除了可以提升人们的生活质量和工作效率,还为社会带来巨大的商业应用价值,促进行业的经济增长,带动地区gdp,在未来研究图像翻译还会有着更加广泛的潜在价值。

2、pix2pix是一种基于监督学习的经典图像翻译模型,这里的监督指的是训练时采用的图像训练集是配对图片。pix2pix模型在训练时需要图像完全配对的数据集。例如季节转换的任务,pix2pix模型需要同一个场景同一个位置不同季节的大量的图像,这类数据集的制作无疑会耗费大量的人工成本。

3、不同于监督式学习的图像翻译方法,基于无监督学习的图像翻译方法在模型训练时不需要除了域信息之外的任何额外标签。本文档来自技高网...

【技术保护点】

1.一种融合多支路神经网络的图像翻译方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述半配对图像转换模型由两个生成器以及两个判别器组成,第一个生成器Gxy对应于风格X到风格Y的图像转换网络,学习从域X到域Y的映射;第一个判别器Dy用于判别这些生成的Y域图像与实际的Y域图像;第二个生成器Gyx对应于从Y域到X域的图像转换网络;第二个判别器Dx用于判别这些生成的X域图像与实际的X域图像。

3.根据权利要求1所述的方法,其特征在于,针对第一支路,首先,使用风格映射网络将隐变量生成风格代码,再将风格代码与原图像输入到生成器进行图像转换得到多个生成图像...

【技术特征摘要】

1.一种融合多支路神经网络的图像翻译方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述半配对图像转换模型由两个生成器以及两个判别器组成,第一个生成器gxy对应于风格x到风格y的图像转换网络,学习从域x到域y的映射;第一个判别器dy用于判别这些生成的y域图像与实际的y域图像;第二个生成器gyx对应于从y域到x域的图像转换网络;第二个判别器dx用于判别这些生成的x域图像与实际的x域图像。

3.根据权利要求1所述的方法,其特征在于,针对第一支路,首先,使用风格映射网络将隐变量生成风格代码,再将风格代码与原图像输入到生成器进行图像转换得到多个生成图像;其次,通过使用预训练的深度特征提取网络得到生成图像之间的深度特征差异;然后,根据深度特征差异来控制同一输入图像对应不同风格代码进行生成的结果具有语义特征上的差异。

4.根据权利要求3所述的方法,其特征在于,所述深度特征提取网络使用的是经过预训练的alexnet;深度特征提取网络的训练过程包括:首先,提取各生成图像的深度特征作为第一特征,再计算第一特征之间的距离来度量图像的差异,通过最大化生成图像之间的差异,强制生成器去探索图像高级语义空间并生成具有语义多样性的图像。

5.根据权利要求3所述的方法,...

【专利技术属性】
技术研发人员:徐乐郑玥谷元慧李延吉
申请(专利权)人:盐城工业职业技术学院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1