【技术实现步骤摘要】
图像生成模型的训练方法、装置、电子设备及存储介质
[0001]本公开涉及人工智能
,具体涉及自然语言处理、计算机视觉、深度学习等
,可应用于图像去噪、图像生成等场景,尤其涉及图像生成模型的训练方法、装置、电子设备及存储介质。
技术介绍
[0002]基于文本生成图像的任务是指通过输入一段自然语言形式的文本描述,从而图像生成模型输出与该文本描述相符合的图像。这种基于图像生成模型生成图像的方式,图像的质量极大依赖于生成模型的训练效果。通过提升模型的训练效果,将有助于提升图像生成模型所生成图像的图像质量。
技术实现思路
[0003]本公开提供了一种图像生成模型的训练方法、装置、电子设备及存储介质。
[0004]根据本公开的一方面,提供了一种图像生成模型的训练方法,包括:
[0005]获取样本图像,以及获取所述样本图像的描述文本;对所述样本图像进行感兴趣区域识别,以根据所述样本图像中各像素单元是否属于感兴趣区域,确定所述样本图像中各像素单元的权重;采用图像生成模型基于所述描述文本,对设定的噪声图进行降噪处理,以得到降噪图像;根据所述样本图像中各像素单元与所述降噪图像中对应像素单元之间的内容差异,以及所述样本图像中各像素单元的权重,确定损失函数;根据所述损失函数,对所述图像生成模型进行模型参数调整,以得到训练后的图像生成模型。
[0006]根据本公开的另一方面,提供了一种图像生成模型的训练装置,包括:
[0007]获取模块,用于获取样本图像,以及获取所述样本图像的描述文 ...
【技术保护点】
【技术特征摘要】
1.一种图像生成模型的训练方法,包括:获取样本图像,以及获取所述样本图像的描述文本;对所述样本图像进行感兴趣区域识别,以根据所述样本图像中各像素单元是否属于感兴趣区域,确定所述样本图像中各像素单元的权重;采用图像生成模型基于所述描述文本,对设定的噪声图进行降噪处理,以得到降噪图像;根据所述样本图像中各像素单元与所述降噪图像中对应像素单元之间的内容差异,以及所述样本图像中各像素单元的权重,确定损失函数;根据所述损失函数,对所述图像生成模型进行模型参数调整,以得到训练后的图像生成模型。2.根据权利要求1所述的方法,其中,所述对所述样本图像进行感兴趣区域识别,以根据所述样本图像中各像素单元是否属于感兴趣区域,确定所述样本图像中各像素单元的权重,包括:对所述样本图像识别得到至少一个感兴趣区域;将所述样本图像中属于任一个所述感兴趣区域的像素单元的权重,确定为第一取值;将所述样本图像中不处于任一所述感兴趣区域的像素单元的权重,确定为第二取值;其中,所述第一取值大于所述第二取值。3.根据权利要求2所述的方法,其中,所述第二取值与对应像素单元距离所述感兴趣区域的最小距离呈反向关系。4.根据权利要求1所述的方法,其中,所述获取所述样本图像的描述文本,包括:对所述样本图像进行目标检测,以识别得到所述样本图像中的关键对象的名称和/或所述关键对象的属性;根据所述关键对象的名称和/或所述关键对象的属性,生成所述描述文本。5.根据权利要求4所述的方法,其中,所述根据所述关键对象的名称和/或所述关键对象的属性,生成所述描述文本,包括:获取所述样本图像对应的原始文本;将所述原始文本与所述关键对象的名称和/或所述关键对象的属性进行文本拼接,以得到所述描述文本。6.根据权利要求5所述的方法,其中,所述获取所述样本图像对应的原始文本,包括:将所述样本图像所属页面中展示的图像标题作为所述原始文本;或者,从所述样本图像所属的图像库中读取所述样本图像对应的原始文本;或者,将所述样本图像的标签,作为所述原始文本。7.根据权利要求1所述的方法,其中,所述获取所述样本图像的描述文本,包括:对所述样本图像,采用文本生成模型进行语义识别,以根据所述文本生成模型输出的文本确定所述描述文本。8.根据权利要求1所述的方法,其中,所述获取所述样本图像的描述文本,包括:对所述样本图像进行目标检测,以识别得到所述样本图像中的关键对象的名称和/或所述关键对象的属性;根据所述关键对象的名称和/或所述关键对象的属性,生成第一候选文本;
对所述样本图像,采用文本生成模型进行语义识别,以将所述文本生成模型输出的文本作为第二候选文本;从所述第一候选文本和所述第二候选文本中,选定所述描述文本。9.根据权利要求1
‑
8任一项所述的方法,其中,所述采用图像生成模型基于所述描述文本,对设定的噪声图进行降噪处理,以得到降噪图像,包括:采用编码器对所述描述文本进行编码,以得到所述描述文本的语义向量;将所述语义向量输入所述图像生成模型,以使所述图像生成模型基于所述语义向量,采用注意力机制对设定的噪声图进行至少一次降噪处理,以得到顺序排列的至少一帧降噪图像;其中,后一帧降噪图像是对前一帧降噪图像进行降噪处理得到。10.根据权利要求9所述的方法,其中,所述样本图像为顺序排列的多帧,后一帧样本图像是对前一帧样本图像进行噪声叠加得到的;所述根据所述样本图像中各像素单元与所述降噪图像中对应像素单元之间的内容差异,以及所述样本图像中各像素单元的权重,确定损失函数,包括:针对任一帧样本图像,与排序对应的一帧降噪图像进行比对,以根据所述样本图像中各像素单元与所述降噪图像中对应像素单元之间的内容差异,以及所述样本图像中各像素单元的权重,确定各帧所述样本图像的损失分量;根据各帧所述样本图像的损失分量之和,确定所述损失函数。11.根据权利要求9所述的方法,其中,所述根据所述样本图像中各像素单元与所述降噪图像中对应像素单元之间的内容差异,以及所述样本图像中各像素单元的权重,确定损失函数,包括:将首帧所述样本图像中各像素单元与最后一帧降噪图像中对应像素单元之间的内容差异,以及所述样本图像中各像素单元的权重,确定所述损失函数。12.一种图像生成模型的训练装置,包括:获取模块,用于获取样本图像,以及获取所述样本图像的描述文本;第一确定模块,用于对所述样...
【专利技术属性】
技术研发人员:冯智达,张振宇,余欣彤,李岚欣,方晔玮,陈徐屹,刘佳祥,尹维冲,冯仕堃,孙宇,
申请(专利权)人:北京百度网讯科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。