文本图像合成模型的训练、合成方法、装置、设备及介质制造方法及图纸

技术编号:36374471 阅读:18 留言:0更新日期:2023-01-18 09:34
本申请实施例提供了一种文本图像合成模型的训练、合成方法、装置、设备及介质,属于图像处理技术领域。该训练方法包括:获取训练图像文本和训练目标图像;将训练图像文本输入生成器进行图像合成,得到训练合成图像;将训练合成图像和训练目标图像输入判别器进行图像判别,得到图像判别结果;根据图像判别结果确定图像判别损失;根据训练图像文本和训练合成图像,确定图像合成损失;根据图像判别损失和图像合成损失,对生成器的参数和判别器的参数进行更新,得到文本图像合成模型;本申请实施例能够降低文本图像合成模型的复杂度,可广泛应用于图像处理技术领域。应用于图像处理技术领域。应用于图像处理技术领域。

【技术实现步骤摘要】
文本图像合成模型的训练、合成方法、装置、设备及介质


[0001]本申请涉及图像处理
,尤其涉及文本图像合成模型的训练、合成方法、装置、设备及介质。

技术介绍

[0002]随着元宇宙、虚拟现实等技术的发展,文本驱动图像合成任务得到了很大的发展,它可以应用于增强现实,虚拟现实,图像增强等应用场景。文本驱动图像合成任务是指从一句描述性文本生成与之对应的图片,而合成连贯、清晰、逼真的图像是文本驱动合成图像系统的目标,尤其是在对条件文本描述具有高语义保真度的逼真场景。
[0003]但是,当前文本驱动图像合成方法的训练过程比较费时,且模型相对比较复杂,因此,如何降低文本图像合成模型的复杂度,成为了亟待解决的技术问题。

技术实现思路

[0004]本申请实施例的主要目的在于提出一种文本图像合成模型的训练、合成方法、装置、设备及介质,旨在降低模型的复杂度。
[0005]为实现上述目的,本申请实施例的第一方面提出了一种文本图像合成模型的训练方法,所述训练方法包括:
[0006]获取训练图像文本和训练目标图像;
[0007]将所述训练图像文本输入生成器进行图像合成处理,得到训练合成图像;
[0008]将所述训练合成图像和所述训练目标图像输入判别器进行图像判别处理,得到图像判别结果;
[0009]根据所述图像判别结果确定图像判别损失;
[0010]根据所述训练图像文本和所述训练合成图像,确定图像合成损失;
[0011]根据所述图像判别损失和所述图像合成损失,对所述生成器的参数和所述判别器的参数进行更新处理,得到文本图像合成模型,其中,所述文本图像合成模型包括所述生成器和所述判别器。
[0012]在一些实施例,所述将所述训练图像文本输入生成器进行图像合成处理,得到训练合成图像,包括:
[0013]通过预训练的语言表征模型对所述训练图像文本进行特征提取处理,得到文本特征;
[0014]对所述文本特征进行加噪处理,得到文本加噪特征;
[0015]对所述文本加噪特征进行编码处理,得到隐编码;
[0016]对所述隐编码进行门控卷积处理,得到门控卷积编码;
[0017]对所述门控卷积编码进行解码处理,得到训练合成图像。
[0018]在一些实施例,所述将所述训练合成图像和所述训练目标图像输入判别器进行图像判别处理,得到图像判别结果,包括:
[0019]提取所述训练图像文本的句子特征;
[0020]将所述训练合成图像和训练目标图像,以及句子特征输入判别器进行图像判别处理,得到图像判别结果。
[0021]在一些实施例,所述根据所述图像判别结果确定图像判别损失,其中,所述图像判别损失包括生成器损失和判别器损失,包括:
[0022]根据所述图像判别结果对所述生成器进行损失计算处理,得到生成器损失;
[0023]根据所述图像判别结果对所述判别器进行损失计算处理,得到判别器损失。
[0024]在一些实施例,所述根据所述训练图像文本和所述训练合成图像,确定图像合成损失,其中,所述图像合成损失包括图像区域损失和图像全局损失,包括:
[0025]获取所述训练目标图像;
[0026]根据所述训练目标图像和所述训练合成图像,得到图像区域特征和图像全局特征;
[0027]通过预训练的语言表征模型对所述训练图像文本进行特征提取处理,得到句子特征和关键词特征;
[0028]根据区域损失计算公式对所述图像区域特征和所述关键词特征进行区域损失计算处理,得到图像区域损失;
[0029]根据全局损失计算公式对所述图像全局特征和所述句子特征进行全局损失计算处理,得到图像全局损失。
[0030]在一些实施例,所述将所述训练合成图像和所述训练目标图像,以及所述句子特征输入判别器进行图像判别处理,得到图像判别结果,包括:
[0031]对所述训练合成图像和训练目标图像进行连接和编码处理,得到图像区域特征和图像全局特征;
[0032]对所述图像全局特征和所述句子特征进行点乘处理,得到交互特征;
[0033]对所述图像全局特征进行多层感知处理,得到多层感知特征;
[0034]对所述交互特征和所述多层感知特征进行相加处理,得到图像判别结果。
[0035]为实现上述目的,本申请实施例的第二方面提出了一种文本图像合成方法,所述合成方法包括:
[0036]获取待合成图像文本;
[0037]将所述待合成图像文本输入到如上所述的文本图像合成模型的训练方法所得到的文本图像合成模型中,得到目标合成图像。
[0038]为实现上述目的,本申请实施例的第三方面提出了一种文本图像合成模型的训练装置,所述装置包括:
[0039]文本获取模块,用于获取训练图像文本和训练目标图像;
[0040]图像生成模块,用于将所述训练图像文本输入生成器进行图像合成处理,得到训练合成图像;
[0041]图像判别模块,用于将所述训练合成图像和所述训练目标图像输入判别器进行图像判别处理,得到图像判别结果;
[0042]判别损失计算模块,用于根据所述图像判别结果确定图像判别损失;
[0043]合成损失计算模块,用于根据所述训练图像文本和所述训练合成图像,确定图像
合成损失;
[0044]参数更新模块,用于根据所述图像判别损失和所述图像合成损失,对所述生成器的参数和所述判别器的参数进行更新处理,得到文本图像合成模型。
[0045]为实现上述目的,本申请实施例的第四方面提出了一种电子设备,所述电子设备包括存储器、处理器、存储在所述存储器上并可在所述处理器上运行的程序以及用于实现所述处理器和所述存储器之间的连接通信的数据总线,所述程序被所述处理器执行时实现上述第一方面或第二方面所述的方法。
[0046]为实现上述目的,本申请实施例的第五方面提出了一种存储介质,所述存储介质为计算机可读存储介质,用于计算机可读存储,所述存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现上述第一方面或第二方面所述的方法。
[0047]本申请提出的一种文本图像合成模型的训练、合成方法、装置、设备及介质,其训练方法通过获取训练图像文本;将所述训练图像文本输入生成器进行图像合成处理,得到训练合成图像;将所述训练合成图像和训练目标图像输入判别器进行图像判别处理,得到图像判别结果;根据所述图像判别结果确定图像判别损失;根据所述训练图像文本和所述训练合成图像,确定图像合成损失;根据所述图像判别损失和所述图像合成损失,对所述生成器的参数和所述判别器的参数进行更新处理,得到文本图像合成模型;本专利技术实施例通过包括生成器和判别器的文本图像合成模型进行图像合成,能够简化文本图像合成模型的结构和复杂度;另外,本专利技术实施例通过结合图像合成损失对文本图像合成模型的参数进行更新,能够对合成图像的局部细节和整体布局进行调整,提高了图本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本图像合成模型的训练方法,其特征在于,所述方法包括:获取训练图像文本和训练目标图像;将所述训练图像文本输入生成器进行图像合成处理,得到训练合成图像;将所述训练合成图像和所述训练目标图像输入判别器进行图像判别处理,得到图像判别结果;根据所述图像判别结果确定图像判别损失;根据所述训练图像文本和所述训练合成图像,确定图像合成损失;根据所述图像判别损失和所述图像合成损失,对所述生成器的参数和所述判别器的参数进行更新处理,得到文本图像合成模型,其中,所述文本图像合成模型包括所述生成器和所述判别器。2.根据权利要求1所述的训练方法,其特征在于,所述将所述训练图像文本输入生成器进行图像合成处理,得到训练合成图像,包括:通过预训练的语言表征模型对所述训练图像文本进行特征提取处理,得到文本特征;对所述文本特征进行加噪处理,得到文本加噪特征;对所述文本加噪特征进行编码处理,得到隐编码;对所述隐编码进行门控卷积处理,得到门控卷积编码;对所述门控卷积编码进行解码处理,得到训练合成图像。3.根据权利要求1所述的训练方法,其特征在于,所述将所述训练合成图像和所述训练目标图像输入判别器进行图像判别处理,得到图像判别结果,包括:提取所述训练图像文本的句子特征;将所述训练合成图像和所述训练目标图像,以及所述句子特征输入判别器进行图像判别处理,得到图像判别结果。4.根据权利要求1所述的训练方法,其特征在于,所述图像判别损失包括生成器损失和判别器损失,所述根据所述图像判别结果确定图像判别损失,包括:根据所述图像判别结果对所述生成器进行损失计算处理,得到所述生成器损失;根据所述图像判别结果对所述判别器进行损失计算处理,得到所述判别器损失。5.根据权利要求1所述的训练方法,其特征在于,所述图像合成损失包括图像区域损失和图像全局损失,所述根据所述训练图像文本和所述训练合成图像,确定图像合成损失,包括:获取所述训练目标图像;根据所述训练目标图像和所述训练合成图像,得到图像区域特征和图像全局特征;通过预训练的语言表征模型对所述训练图像文本进行特征提取处理,得到句子特征和关键词特征;根据区域损失计算公式对所述图像区域特征和所述关键词特征进行区...

【专利技术属性】
技术研发人员:王健宗李泽远司世景
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1