一种基于双对比学习的多模态模型的图像生成方法和装置制造方法及图纸

技术编号:38560121 阅读:11 留言:0更新日期:2023-08-22 21:01
本发明专利技术实施例提供了一种基于双对比学习的多模态模型的图像生成方法和装置,可用于人工智能技术领域,所述方法包括:通过预先构建的基于双对比学习的多模态预训练模型,根据目标文本描述,进行内容特征和风格特征提取,得到目标内容文本特征和目标风格文本特征;通过预设的图像生成模型,根据目标内容文本特征和目标风格文本特征,生成目标图像,通过对基于对比学习的多模态预训练模型进行改进,得到基于双对比学习的多模态预训练模型,对目标文本描述分别进行内容特征和风格特征提取,最终得到目标图像,能够融合图像和文本之间的关系,使得生成的图像与文字之间的匹配度较高,提升图像准确性和生成效率。图像准确性和生成效率。图像准确性和生成效率。

【技术实现步骤摘要】
一种基于双对比学习的多模态模型的图像生成方法和装置


[0001]本专利技术涉及计算机
,特别涉及人工智能
,尤其涉及一种基于双对比学习的多模态模型的图像生成方法和装置。

技术介绍

[0002]针对当前开展的一些活动,需要专业的活动海报制作者去设计特定内容和风格的海报,在制作过程中,海报的制作过程繁琐且创作的成本较高。相关技术中,通常采用卷积神经网络(CNN)和循环神经网络(RNN)等深度学习模型来分别提取图像和文本的特征并融合,最终得到一个能够表示文本和图像之间关联的向量。但是这种分别对文本和图像进行特征提取的方式,造成了图像和文本关系割裂,使得生成的图像与文字的匹配度较低,图像准确性和生成效率均较低。

技术实现思路

[0003]本专利技术的一个目的在于提供一种基于双对比学习的多模态模型的图像生成方法,通过对基于对比学习的多模态预训练模型进行改进,得到基于双对比学习的多模态预训练模型,对目标文本描述分别进行内容特征和风格特征提取,最终得到目标图像,能够融合图像和文本之间的关系,使得生成的图像与文字之间的匹配度较高,提升图像准确性和生成效率。本专利技术的另一个目的在于提供一种基于双对比学习的多模态模型的图像生成装置。本专利技术的再一个目的在于提供一种计算机可读介质。本专利技术的还一个目的在于提供一种计算机设备。
[0004]为了达到以上目的,本专利技术一方面公开了一种基于双对比学习的多模态模型的图像生成方法,包括:
[0005]获取目标文本描述;
[0006]通过预先构建的基于双对比学习的多模态预训练模型,根据目标文本描述,进行内容特征和风格特征提取,得到目标内容文本特征和目标风格文本特征,基于双对比学习的多模态预训练模型包括内容对比学习多模态预训练模型和风格对比学习多模态预训练模型;
[0007]通过预设的图像生成模型,根据目标内容文本特征和目标风格文本特征,生成目标图像。
[0008]优选的,方法还包括:
[0009]构建训练特征集,训练特征集包括训练图像内容特征、训练图像风格特征、训练内容文本特征和训练风格文本特征;
[0010]通过训练图像内容特征和训练内容文本特征,对基于对比学习的多模态预训练模型进行训练,构建内容对比学习多模态预训练模型;
[0011]通过训练图像风格特征和训练风格文本特征,对基于对比学习的多模态预训练模型进行训练,构建风格对比学习多模态预训练模型。
[0012]优选的,构建训练特征集,包括:
[0013]获取训练数据集,训练数据集包括训练文本描述和对应的训练图像,训练文本描述包括训练内容文本描述和训练风格文本描述;
[0014]通过自然语言处理模型,对训练内容文本描述和训练风格文本描述分别进行特征提取,得到训练内容文本特征和训练风格文本特征;
[0015]通过图像特征提取模型,根据预设的分割层参数,对训练图像进行特征提取,得到训练图像内容特征、训练图像风格特征。
[0016]优选的,通过训练图像内容特征和训练内容文本特征,对基于对比学习的多模态预训练模型进行训练,构建内容对比学习多模态预训练模型,包括:
[0017]根据训练图像内容特征和训练内容文本特征,计算对应的内容相似度;
[0018]通过预设的损失函数和内容相似度,对基于对比学习的多模态预训练模型进行训练,构建内容对比学习多模态预训练模型。
[0019]优选的,通过训练图像风格特征和训练风格文本特征,对基于对比学习的多模态预训练模型进行训练,构建风格对比学习多模态预训练模型,包括:
[0020]根据训练图像风格特征和训练风格文本特征,计算对应的风格相似度;
[0021]通过预设的损失函数和风格相似度,对基于对比学习的多模态预训练模型进行训练,构建风格对比学习多模态预训练模型。
[0022]优选的,目标文本描述包括目标内容文本描述和目标风格文本描述;
[0023]通过预先构建的基于双对比学习的多模态预训练模型,根据目标文本描述,进行内容特征和风格特征提取,得到目标内容文本特征和目标风格文本特征,包括:
[0024]通过内容对比学习多模态预训练模型,对目标内容文本描述进行特征提取,得到目标内容文本特征;
[0025]通过风格对比学习多模态预训练模型,对目标风格文本描述进行特征提取,得到目标风格文本特征。
[0026]优选的,通过预设的图像生成模型,根据目标内容文本特征和目标风格文本特征,生成目标图像,包括:
[0027]获取风格控制变量;
[0028]通过图像生成模型,根据目标内容文本特征、目标风格文本特征和风格控制变量,生成目标图像。
[0029]优选的,通过预设的图像生成模型,根据目标内容文本特征和目标风格文本特征,生成目标图像,包括:
[0030]获取内容控制变量;
[0031]通过图像生成模型,根据目标内容文本特征、目标风格文本特征和内容控制变量,生成目标图像。
[0032]本专利技术还公开了一种基于双对比学习的多模态模型的图像生成装置,包括:
[0033]目标文本获取单元,用于获取目标文本描述;
[0034]目标特征提取单元,用于通过预先构建的基于双对比学习的多模态预训练模型,根据目标文本描述,进行内容特征和风格特征提取,得到目标内容文本特征和目标风格文本特征,基于双对比学习的多模态预训练模型包括内容对比学习多模态预训练模型和风格
对比学习多模态预训练模型;
[0035]图像生成单元,用于通过预设的图像生成模型,根据目标内容文本特征和目标风格文本特征,生成目标图像。
[0036]本专利技术还公开了一种计算机可读介质,其上存储有计算机程序,该程序被处理器执行时实现如上所述方法。
[0037]本专利技术还公开了一种计算机设备,包括存储器和处理器,所述存储器用于存储包括程序指令的信息,所述处理器用于控制程序指令的执行,所述处理器执行所述程序时实现如上所述方法。
[0038]本专利技术还公开了一种计算机程序产品,包括计算机程序/指令,计算机程序/指令被处理器执行时实现如上所述方法。
[0039]本专利技术获取目标文本描述;通过预先构建的基于双对比学习的多模态预训练模型,根据目标文本描述,进行内容特征和风格特征提取,得到目标内容文本特征和目标风格文本特征,基于双对比学习的多模态预训练模型包括内容对比学习多模态预训练模型和风格对比学习多模态预训练模型;通过预设的图像生成模型,根据目标内容文本特征和目标风格文本特征,生成目标图像,通过对基于对比学习的多模态预训练模型进行改进,得到基于双对比学习的多模态预训练模型,对目标文本描述分别进行内容特征和风格特征提取,最终得到目标图像,能够融合图像和文本之间的关系,使得生成的图像与文字之间的匹配度较高,提升图像准确性和生成效率。
附图说明
[0040]为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于双对比学习的多模态模型的图像生成方法,其特征在于,所述方法包括:获取目标文本描述;通过预先构建的基于双对比学习的多模态预训练模型,根据所述目标文本描述,进行内容特征和风格特征提取,得到目标内容文本特征和目标风格文本特征,所述基于双对比学习的多模态预训练模型包括内容对比学习多模态预训练模型和风格对比学习多模态预训练模型;通过预设的图像生成模型,根据所述目标内容文本特征和目标风格文本特征,生成目标图像。2.根据权利要求1所述的基于双对比学习的多模态模型的图像生成方法,其特征在于,所述方法还包括:构建训练特征集,所述训练特征集包括训练图像内容特征、训练图像风格特征、训练内容文本特征和训练风格文本特征;通过所述训练图像内容特征和训练内容文本特征,对基于对比学习的多模态预训练模型进行训练,构建内容对比学习多模态预训练模型;通过所述训练图像风格特征和训练风格文本特征,对基于对比学习的多模态预训练模型进行训练,构建风格对比学习多模态预训练模型。3.根据权利要求2所述的基于双对比学习的多模态模型的图像生成方法,其特征在于,所述构建训练特征集,包括:获取训练数据集,所述训练数据集包括训练文本描述和对应的训练图像,所述训练文本描述包括训练内容文本描述和训练风格文本描述;通过自然语言处理模型,对所述训练内容文本描述和训练风格文本描述分别进行特征提取,得到训练内容文本特征和训练风格文本特征;通过图像特征提取模型,根据预设的分割层参数,对所述训练图像进行特征提取,得到训练图像内容特征、训练图像风格特征。4.根据权利要求2所述的基于双对比学习的多模态模型的图像生成方法,其特征在于,所述通过所述训练图像内容特征和训练内容文本特征,对基于对比学习的多模态预训练模型进行训练,构建内容对比学习多模态预训练模型,包括:根据所述训练图像内容特征和训练内容文本特征,计算对应的内容相似度;通过预设的损失函数和所述内容相似度,对基于对比学习的多模态预训练模型进行训练,构建内容对比学习多模态预训练模型。5.根据权利要求2所述的基于双对比学习的多模态模型的图像生成方法,其特征在于,所述通过所述训练图像风格特征和训练风格文本特征,对基于对比学习的多模态预训练模型进行训练,构建风格对比学习多模态预训练模型,包括:根据所述训练图像风格特征和训练风格文本特征,计算对应的风格相似度;通过预设的损失函数和所述风格相似...

【专利技术属性】
技术研发人员:胡玉杰郭运雷赵同赵吉昆
申请(专利权)人:中国工商银行股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1