图像生成模型的训练方法、装置、电子设备及存储介质制造方法及图纸

技术编号:37061887 阅读:12 留言:0更新日期:2023-03-29 19:40
本公开提出了一种图像生成模型的训练方法、装置、电子设备及存储介质,涉及人工智能技术领域,具体涉及自然语言处理、计算机视觉、深度学习等技术领域,可应用于图像去噪、图像生成等场景。具体实现方案为:通过对样本图像基于感兴趣区域,确定各像素单元的权重,进而基于该权重确定损失函数,并采用该损失函数进行生成模型的模型参数调整,能够提升该生成模型的训练效果,进而提高该图像生成模型训练后所生成图像的图像质量。生成图像的图像质量。生成图像的图像质量。

【技术实现步骤摘要】
图像生成模型的训练方法、装置、电子设备及存储介质


[0001]本公开涉及人工智能
,具体涉及自然语言处理、计算机视觉、深度学习等
,可应用于图像去噪、图像生成等场景,尤其涉及图像生成模型的训练方法、装置、电子设备及存储介质。

技术介绍

[0002]基于文本生成图像的任务是指通过输入一段自然语言形式的文本描述,从而图像生成模型输出与该文本描述相符合的图像。这种基于图像生成模型生成图像的方式,图像的质量极大依赖于生成模型的训练效果。通过提升模型的训练效果,将有助于提升图像生成模型所生成图像的图像质量。

技术实现思路

[0003]本公开提供了一种图像生成模型的训练方法、装置、电子设备及存储介质。
[0004]根据本公开的一方面,提供了一种图像生成模型的训练方法,包括:
[0005]获取样本图像,以及获取所述样本图像的描述文本;对所述样本图像进行感兴趣区域识别,以根据所述样本图像中各像素单元是否属于感兴趣区域,确定所述样本图像中各像素单元的权重;采用图像生成模型基于所述描述文本,对设定的噪声图进行降噪处理,以得到降噪图像;根据所述样本图像中各像素单元与所述降噪图像中对应像素单元之间的内容差异,以及所述样本图像中各像素单元的权重,确定损失函数;根据所述损失函数,对所述图像生成模型进行模型参数调整,以得到训练后的图像生成模型。
[0006]根据本公开的另一方面,提供了一种图像生成模型的训练装置,包括:
[0007]获取模块,用于获取样本图像,以及获取所述样本图像的描述文本;
[0008]第一确定模块,用于对所述样本图像进行感兴趣区域识别,以根据所述样本图像中各像素单元是否属于感兴趣区域,确定所述样本图像中各像素单元的权重;
[0009]处理模块,用于采用图像生成模型基于所述描述文本,对设定的噪声图进行降噪处理,以得到降噪图像;
[0010]第二确定模块,用于根据所述样本图像中各像素单元与所述降噪图像中对应像素单元之间的内容差异,以及所述样本图像中各像素单元的权重,确定损失函数;
[0011]训练模块,用于根据所述损失函数,对所述图像生成模型进行模型参数调整,以得到训练后的图像生成模型。
[0012]根据本公开的另一方面,提供了一种电子设备,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本公开第一方面实施例所述的方法。
[0013]根据本公开的另一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,所述计算机指令用于使计算机执行本公开第一方面实施例所述的方法。
[0014]根据本公开的另一方面,提供了一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现本公开第一方面实施例所述的方法。
[0015]应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
[0016]附图用于更好地理解本方案,不构成对本公开的限定。其中:
[0017]图1为本公开实施例所提供的一种图像生成模型的训练方法的流程示意图;
[0018]图2为本公开实施例所提供的另一种图像生成模型的训练方法的流程示意图;
[0019]图3为本公开实施例提供的另一种图像生成模型的训练方法的流程示意图;
[0020]图4为本公开实施例提供的一种扩散模型对多帧样本图像的降噪过程;
[0021]图5为本公开实施例提供的另一种图像生成模型的训练方法的流程示意图;
[0022]图6为本公开提供的描述文本的生成过程的示意图之一;
[0023]图7为本公开实施例提供的另一种图像生成模型的训练方法的流程示意图;
[0024]图8为本公开提供的描述文本的生成过程的示意图之二;
[0025]图9为本公开实施例提供的一种图像生成模型的训练装置的结构示意图;
[0026]图10为本公开实施例提供的示例电子设备的框图。
具体实施方式
[0027]以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
[0028]随着深度学习的不断发展,在基于文本生成图像的任务上,期望该任务所生成图像的效果能够达到真实照片和人类艺术作品的质量。为了能够提高生成模型所生成图像的图像质量,专利技术人发现,目前生成模型对于文本描述和生成图像之间的关系理解程度还存在欠缺,如果能够在训练阶段增强生成模型对文本描述和生成图像之间关系的理解程度,将更加有助于提升生成模型在训练后所生成图像的图像质量。
[0029]本公开的技术方案中,所涉及的图像数据和文本数据的获取,存储和应用等,均符合相关法律法规的规定,且不违背公序良俗。
[0030]图1为本公开实施例所提供的一种图像生成模型的训练方法的流程示意图,如图1所示,该方法包括:
[0031]步骤101,获取样本图像,以及获取样本图像的描述文本。
[0032]其中,描述文本,是一段自然语言形式的文本。该文本用于指示待训练的图像生成模型所输出的图像内容。图像生成模型,可基于文本生成图像的,也就是说描述文本用于进行预处理后输入图像生成模型,或者,采用未经处理直接输入图像生成模型的方式,以便图像生成模型基于描述文本生成图像。
[0033]样本图像,为至少一帧,是待训练的图像生成模型输出的期待值。用于训练图像生成模型基于描述文本输出对应的样本图像。
[0034]步骤102,对样本图像进行感兴趣区域识别,以根据样本图像中各像素单元是否属于感兴趣区域,确定样本图像中各像素单元的权重。
[0035]对样本图像进行感兴趣区域的识别,从而在样本图像中框选出感兴趣区域。样本图像可以根据设定规则,划分为多个单元,每个单元包括至少一个像素,从而可以将该单元称为像素单元。本领域技术人员可以知晓,每个像素单元包含至少一个像素,且各像素单元中包含的像素个数可以是相同的也可以是不同的,不影响本技术方案的实现。
[0036]为了确定像素单元是否属于感兴趣区域可以采用如下方式,本实施例中对此不作限定:
[0037]针对任意的一个像素单元,若像素单元中所含的各像素均属于感兴趣区域,则确定该像素单元属于感兴趣区域。否则,该像素单元不属于感兴趣区域。
[0038]或者,针对任意的一个像素单元,若像素单元所含的像素中至少一个像素属于感兴趣区域,则确定该像素单元属于感兴趣区域。否则,该像素单元不属于感兴趣区域。
[0039]又或者,针对任意的一个像素单本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种图像生成模型的训练方法,包括:获取样本图像,以及获取所述样本图像的描述文本;对所述样本图像进行感兴趣区域识别,以根据所述样本图像中各像素单元是否属于感兴趣区域,确定所述样本图像中各像素单元的权重;采用图像生成模型基于所述描述文本,对设定的噪声图进行降噪处理,以得到降噪图像;根据所述样本图像中各像素单元与所述降噪图像中对应像素单元之间的内容差异,以及所述样本图像中各像素单元的权重,确定损失函数;根据所述损失函数,对所述图像生成模型进行模型参数调整,以得到训练后的图像生成模型。2.根据权利要求1所述的方法,其中,所述对所述样本图像进行感兴趣区域识别,以根据所述样本图像中各像素单元是否属于感兴趣区域,确定所述样本图像中各像素单元的权重,包括:对所述样本图像识别得到至少一个感兴趣区域;将所述样本图像中属于任一个所述感兴趣区域的像素单元的权重,确定为第一取值;将所述样本图像中不处于任一所述感兴趣区域的像素单元的权重,确定为第二取值;其中,所述第一取值大于所述第二取值。3.根据权利要求2所述的方法,其中,所述第二取值与对应像素单元距离所述感兴趣区域的最小距离呈反向关系。4.根据权利要求1所述的方法,其中,所述获取所述样本图像的描述文本,包括:对所述样本图像进行目标检测,以识别得到所述样本图像中的关键对象的名称和/或所述关键对象的属性;根据所述关键对象的名称和/或所述关键对象的属性,生成所述描述文本。5.根据权利要求4所述的方法,其中,所述根据所述关键对象的名称和/或所述关键对象的属性,生成所述描述文本,包括:获取所述样本图像对应的原始文本;将所述原始文本与所述关键对象的名称和/或所述关键对象的属性进行文本拼接,以得到所述描述文本。6.根据权利要求5所述的方法,其中,所述获取所述样本图像对应的原始文本,包括:将所述样本图像所属页面中展示的图像标题作为所述原始文本;或者,从所述样本图像所属的图像库中读取所述样本图像对应的原始文本;或者,将所述样本图像的标签,作为所述原始文本。7.根据权利要求1所述的方法,其中,所述获取所述样本图像的描述文本,包括:对所述样本图像,采用文本生成模型进行语义识别,以根据所述文本生成模型输出的文本确定所述描述文本。8.根据权利要求1所述的方法,其中,所述获取所述样本图像的描述文本,包括:对所述样本图像进行目标检测,以识别得到所述样本图像中的关键对象的名称和/或所述关键对象的属性;根据所述关键对象的名称和/或所述关键对象的属性,生成第一候选文本;
对所述样本图像,采用文本生成模型进行语义识别,以将所述文本生成模型输出的文本作为第二候选文本;从所述第一候选文本和所述第二候选文本中,选定所述描述文本。9.根据权利要求1

8任一项所述的方法,其中,所述采用图像生成模型基于所述描述文本,对设定的噪声图进行降噪处理,以得到降噪图像,包括:采用编码器对所述描述文本进行编码,以得到所述描述文本的语义向量;将所述语义向量输入所述图像生成模型,以使所述图像生成模型基于所述语义向量,采用注意力机制对设定的噪声图进行至少一次降噪处理,以得到顺序排列的至少一帧降噪图像;其中,后一帧降噪图像是对前一帧降噪图像进行降噪处理得到。10.根据权利要求9所述的方法,其中,所述样本图像为顺序排列的多帧,后一帧样本图像是对前一帧样本图像进行噪声叠加得到的;所述根据所述样本图像中各像素单元与所述降噪图像中对应像素单元之间的内容差异,以及所述样本图像中各像素单元的权重,确定损失函数,包括:针对任一帧样本图像,与排序对应的一帧降噪图像进行比对,以根据所述样本图像中各像素单元与所述降噪图像中对应像素单元之间的内容差异,以及所述样本图像中各像素单元的权重,确定各帧所述样本图像的损失分量;根据各帧所述样本图像的损失分量之和,确定所述损失函数。11.根据权利要求9所述的方法,其中,所述根据所述样本图像中各像素单元与所述降噪图像中对应像素单元之间的内容差异,以及所述样本图像中各像素单元的权重,确定损失函数,包括:将首帧所述样本图像中各像素单元与最后一帧降噪图像中对应像素单元之间的内容差异,以及所述样本图像中各像素单元的权重,确定所述损失函数。12.一种图像生成模型的训练装置,包括:获取模块,用于获取样本图像,以及获取所述样本图像的描述文本;第一确定模块,用于对所述样...

【专利技术属性】
技术研发人员:冯智达张振宇余欣彤李岚欣方晔玮陈徐屹刘佳祥尹维冲冯仕堃孙宇
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1