文生图扩散模型的训练方法和基于文本的图像生成方法技术

技术编号:37454474 阅读:17 留言:0更新日期:2023-05-06 09:26
本公开提供了一种文生图扩散模型的训练方法和基于文本的图像生成方法,涉及人工智能技术领域,尤其涉及深度学习、自然语言处理技术领域。具体实现方案为:由文生图扩散模型根据样本文本对加噪样本图像进行降噪处理,生成降噪样本图像;根据降噪样本图像的第一表示向量和样本文本的第二表示向量,得到第一文图对齐分数,并基于第一文图对齐分数从当前批次的训练样本中选取第一训练样本;根据第一训练样本中样本文本的原始样本图像和降噪样本图像,确定文生图扩散模型的第一损失函数,并基于第一损失函数,对文生图扩散模型进行调整;使用下一批次的训练样本继续训练,直至训练结束得到目标文生图扩散模型,提高了文生图扩散模型的训练精度。的训练精度。的训练精度。

【技术实现步骤摘要】
文生图扩散模型的训练方法和基于文本的图像生成方法


[0001]本公开涉及人工智能
,尤其涉及自然语言处理
,尤其涉及一种文生图扩散模型的训练方法、基于文本的图像生成方法、装置、电子设备、存储介质和计算机程序产品。

技术介绍

[0002]目前,随着人工智能技术的不断发展,文生图扩散模型在游戏、动漫、网页设计等领域得到了广泛应用,具有效率高、自动化程度高等优点。比如,可将文本输入文生图扩散模型中,由文生图扩散模型输出图像。然而,相关技术中,文生图扩散模型的训练存在训练精度低的问题。

技术实现思路

[0003]本公开提供了一种文生图扩散模型的训练方法、基于文本的图像生成方法、装置、电子设备、存储介质和计算机程序产品。
[0004]根据本公开的一方面,提供了一种文生图扩散模型的训练方法,包括:由文生图扩散模型根据样本文本对加噪样本图像进行降噪处理,生成降噪样本图像,所述样本文本和所述加噪样本图像为一组训练样本;根据所述降噪样本图像的第一表示向量和所述样本文本的第二表示向量,得到第一文图对齐分数,并基于所述第一文图对齐分数从当前批次的训练样本中选取第一训练样本;根据所述第一训练样本中样本文本的原始样本图像和降噪样本图像,确定所述文生图扩散模型的第一损失函数,并基于所述第一损失函数,对所述文生图扩散模型进行调整;使用下一批次的训练样本对调整后的文生图扩散模型继续训练,直至训练结束得到最终的目标文生图扩散模型。
[0005]根据本公开的另一方面,提供了一种基于文本的图像生成方法,包括:获取目标文本;将所述目标文本输入目标文生图扩散模型中,以输出所述目标文本对应的目标图像,其中,所述目标文生图扩散模型为采用如本公开的文生图扩散模型的训练方法得到的模型。
[0006]根据本公开的另一方面,提供了一种文生图扩散模型的训练装置,包括:降噪模块,用于由文生图扩散模型根据样本文本对加噪样本图像进行降噪处理,生成降噪样本图像,所述样本文本和所述加噪样本图像为一组训练样本;选取模块,用于根据所述降噪样本图像的第一表示向量和所述样本文本的第二表示向量,得到第一文图对齐分数,并基于所述第一文图对齐分数从当前批次的训练样本中选取第一训练样本;训练模块,用于根据所述第一训练样本中样本文本的原始样本图像和降噪样本图像,确定所述文生图扩散模型的第一损失函数,并基于所述第一损失函数,对所述文生图扩散模型进行调整;所述训练模块,还用于使用下一批次的训练样本对调整后的文生图扩散模型继续训练,直至训练结束得到最终的目标文生图扩散模型。
[0007]根据本公开的另一方面,提供了一种基于文本的图像生成装置,包括:获取模块,用于获取目标文本;生成模块,用于将所述目标文本输入目标文生图扩散模型中,以输出所
述目标文本对应的目标图像,其中,所述目标文生图扩散模型为采用如本公开的文生图扩散模型的训练方法得到的模型。
[0008]根据本公开的另一方面,提供了一种电子设备,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行文生图扩散模型的训练方法、基于文本的图像生成方法。
[0009]根据本公开的另一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,所述计算机指令用于使所述计算机执行文生图扩散模型的训练方法、基于文本的图像生成方法。
[0010]根据本公开的另一方面,提供了一种计算机程序产品,包括计算机程序,其中,所述计算机程序被处理器执行时实现文生图扩散模型的训练方法的步骤、基于文本的图像生成方法的步骤。
[0011]应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
[0012]附图用于更好地理解本方案,不构成对本公开的限定。其中:
[0013]图1是根据本公开第一实施例的文生图扩散模型的训练方法的流程示意图;
[0014]图2是根据本公开第二实施例的文生图扩散模型的训练方法的流程示意图;
[0015]图3是根据本公开第三实施例的文生图扩散模型的训练方法的流程示意图;
[0016]图4是根据本公开第四实施例的文生图扩散模型、文图对齐模型的示意图;
[0017]图5是根据本公开第五实施例的文生图扩散模型的训练方法的流程示意图;
[0018]图6是根据本公开第一实施例的基于文本的图像生成方法的流程示意图;
[0019]图7是根据本公开第一实施例的文生图扩散模型的训练装置的框图;
[0020]图8是根据本公开第一实施例的基于文本的图像生成装置的框图;
[0021]图9是用来实现本公开实施例的文生图扩散模型的训练方法的电子设备的框图。
具体实施方式
[0022]以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
[0023]AI(Artificial Intelligence,人工智能)是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门技术科学。目前,AI技术具有自动化程度高、精确度高、成本低的优点,得到了广泛的应用。
[0024]DL(Deep Learning,深度学习)是ML(Machine Learning,机器学习)领域中一个新的研究方向,是学习样本数据的内在规律和表示层次,使得机器能够像人一样具有分析学习能力,能够识别文字、图像和声音等数据的一门科学,广泛应用于语音和图像识别。
[0025]NLP(Natural Language Processing,自然语言处理)是研究能有效地实现自然语
言通信的计算机系统,特别是其中的软件系统的一门科学,是计算机科学领域与人工智能领域中的一个重要方向。
[0026]图1是根据本公开第一实施例的文生图扩散模型的训练方法的流程示意图。
[0027]如图1所示,本公开第一实施例的文生图扩散模型的训练方法,包括:
[0028]S101,由文生图扩散模型根据样本文本对加噪样本图像进行降噪处理,生成降噪样本图像,样本文本和加噪样本图像为一组训练样本。
[0029]需要说明的是,本公开实施例的文生图扩散模型的训练方法的执行主体可为具有数据信息处理能力的硬件设备和/或驱动该硬件设备工作所需必要的软件。可选地,执行主体可包括工作站、服务器,计算机、用户终端及其他智能设备。其中,用户终端包括但不限于手机、电脑、智能语音交互设备、智能家电、车载终端等。
[0030]需要说明的是,对文生图扩散模型、样本文本、加噪样本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文生图扩散模型的训练方法,其中,所述方法包括:由文生图扩散模型根据样本文本对加噪样本图像进行降噪处理,生成降噪样本图像,所述样本文本和所述加噪样本图像为一组训练样本;根据所述降噪样本图像的第一表示向量和所述样本文本的第二表示向量,得到第一文图对齐分数,并基于所述第一文图对齐分数从当前批次的训练样本中选取第一训练样本;根据所述第一训练样本中样本文本的原始样本图像和降噪样本图像,确定所述文生图扩散模型的第一损失函数,并基于所述第一损失函数,对所述文生图扩散模型进行调整;使用下一批次的训练样本对调整后的文生图扩散模型继续训练,直至训练结束得到最终的目标文生图扩散模型。2.根据权利要求1所述的方法,其中,所述基于所述第一文图对齐分数从当前批次的训练样本中选取第一训练样本,包括:获取所述样本文本与所述原始样本图像之间的第二文图对齐分数;获取所述第一文图对齐分数和所述第二文图对齐分数的分数差值;根据所述分数差值从所述当前批次的训练样本中,选取所述第一训练样本。3.根据权利要求2所述的方法,其中,所述根据所述分数差值从所述当前批次的训练样本中,选取所述第一训练样本,包括:从所述当前批次的训练样本中,选取所述分数差值大于设定阈值的训练样本,作为所述第一训练样本;或者,对所述当前批次的训练样本中训练样本,按照所述分数差值进行降序排序,选取排序靠前的部分训练样本,作为所述第一训练样本。4.根据权利要求1

3中任一项所述的方法,其中,所述根据所述降噪样本图像的第一表示向量和所述样本文本的第二表示向量,得到第一文图对齐分数,包括:对所述降噪样本图像进行图像编码,得到所述第一表示向量;基于文图对齐模型根据所述第一表示向量和所述第二表示向量,对所述降噪样本图像和所述样本文本进行相关性评分,得到所述第一文图对齐分数。5.根据权利要求4所述的方法,其中,所述得到所述第一文图对齐分数之后,还包括:根据所述样本文本与所述原始样本图像之间的第二文图对齐分数和所述第一文图对齐分数,得到所述文图对齐模型的第二损失函数;基于所述第二损失函数,对所述文图对齐模型进行调整;使用下一批次的训练样本对调整后的文图对齐模型继续训练。6.根据权利要求1

3中任一项所述的方法,其中,所述方法还包括:基于高斯噪声,对所述样本文本的原始样本图像进行加噪,得到所述样本文本对应的所述加噪样本图像。7.根据权利要求1

3中任一项所述的方法,其中,所述由文生图扩散模型根据样本文本对加噪样本图像进行降噪处理,生成降噪样本图像,包括:将所述样本文本和所述加噪样本图像输入所述文生图扩散模型中,由所述文生图扩散模型中的文本编码器,对所述样本文本进行文本编码,生成所述第二表示向量;由所述文生图扩散模型中的多个文生图层,基于所述第二表示向量对所述加噪样本图像进行逐层降噪,得到所述降噪样本图像。
8.一种基于文本的图像生成方法,其中,所述方法包括:获取目标文本;将所述目标文本输入目标文生图扩散模型中,以输出所述目标文本对应的目标图像,其中,所述目标文生图扩散模型为采用如权利要求1

7中任一项所述的训练方法得到的模型。9.一种文生图扩散模型的训练装置,其中,所述装置包括:降噪模块,用于由文生图扩散模型根据样本文本对加噪样本图像进行降噪处理,生成降噪样本图像,所述样本文本和所述加噪样本图像为一组训练样本;选取模块,用于根据所述降噪样本图像的第一表示向量和所述样本文本...

【专利技术属性】
技术研发人员:余欣彤刘佳祥冯仕堃
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1