图像生成模型的训练方法、图像生成方法和装置制造方法及图纸

技术编号:36427419 阅读:33 留言:0更新日期:2023-01-20 22:38
本公开提供了一种图像生成模型的训练方法、图像生成方法和装置,涉及人工智能技术领域,尤其涉及自然语言处理、深度学习、计算机视觉技术领域。具体实现方案为:获取训练数据;其中,训练数据包括设置有词性标注信息的样本文本,以及样本文本对应的样本图像;在图像生成模型中,根据设置有词性标注信息的样本文本,确定图像生成模型输出的预测图像;根据预测图像以及样本文本对应的样本图像,对图像生成模型进行训练。由此,根据设置有词性标注信息的样本文本,确定图像生成模型输出的预测图像,根据预测图像以及样本图像,训练图像生成模型,提高训练得到的图像生成模型的准确度。提高训练得到的图像生成模型的准确度。提高训练得到的图像生成模型的准确度。

【技术实现步骤摘要】
图像生成模型的训练方法、图像生成方法和装置


[0001]本公开涉及人工智能
,尤其涉及自然语言处理、深度学习、计算机视觉
,尤其涉及一种图像生成模型的训练方法、图像生成方法和装置。

技术介绍

[0002]目前,根据文本合成图像的方案为,图像生成模型基于提供的文本,对文本进行语义理解,得到语义表示;结合语义表示,生成文本对应的图像。
[0003]上述方案中,针对复杂乃至反事实的文本描述,例如“黑色的苹果”等,图像生成模型学习的较少,有很大可能会生成绿色苹果图像,导致生成的图像不符合文本的描述,准确度低。

技术实现思路

[0004]本公开提供了一种图像生成模型的训练方法、图像生成方法和装置。
[0005]根据本公开的一方面,提供了一种图像生成模型的训练方法,包括:获取训练数据;其中,所述训练数据包括设置有词性标注信息的样本文本,以及所述样本文本对应的样本图像;在图像生成模型中,根据设置有词性标注信息的样本文本,确定所述图像生成模型输出的预测图像;根据所述预测图像以及所述样本文本对应的样本图像,对所述图像生成模型进行训练。
[0006]根据本公开的另一方面,提供了一种图像生成方法,包括:获取待处理的文本;将所述文本输入预设的图像生成模型,以获取所述图像生成模型输出的所述文本对应的图像;其中,所述图像生成模型,结合设置有词性标注信息的样本文本以及所述样本文本对应的样本图像训练得到。
[0007]根据本公开的另一方面,提供了一种图像生成模型的训练装置,包括:获取模块,用于获取训练数据;其中,所述训练数据包括设置有词性标注信息的样本文本,以及所述样本文本对应的样本图像;确定模块,用于在图像生成模型中,根据设置有词性标注信息的样本文本,确定所述图像生成模型输出的预测图像;训练模块,用于根据所述预测图像以及所述样本文本对应的样本图像,对所述图像生成模型进行训练。
[0008]根据本公开的另一方面,提供了一种图像生成装置,包括:获取模块,用于获取待处理的文本;处理模块,用于将所述文本输入预设的图像生成模型,以获取所述图像生成模型输出的所述文本对应的图像;其中,所述图像生成模型,结合设置有词性标注信息的样本文本以及所述样本文本对应的样本图像训练得到。
[0009]根据本公开的另一方面,提供了一种电子设备,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行图像生成模型的训练方法,或者,执行图像生成方法。
[0010]根据本公开的另一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储
介质,其中,所述计算机指令用于使所述计算机执行图像生成模型的训练方法,或者,执行图像生成方法。
[0011]根据本公开的另一方面,提供了一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现图像生成模型的训练方法的步骤,或者,实现图像生成方法。
[0012]应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
[0013]附图用于更好地理解本方案,不构成对本公开的限定。其中:
[0014]图1是根据本公开第一实施例的示意图;
[0015]图2是根据本公开第二实施例的示意图;
[0016]图3是根据本公开第三实施例的示意图;
[0017]图4是图像生成模型的训练过程的示意图;
[0018]图5是根据本公开第四实施例的示意图;
[0019]图6是根据本公开第五实施例的示意图;
[0020]图7是根据本公开第六实施例的示意图;
[0021]图8是用来实现本公开实施例的模型训练方法或者图像生成方法的电子设备的框图。
具体实施方式
[0022]以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
[0023]目前,根据文本合成图像的方案为,图像生成模型基于提供的文本,对文本进行语义理解,得到语义表示;结合语义表示,生成文本对应的图像。
[0024]上述方案中,针对复杂乃至反事实的文本描述,例如“黑色的苹果”等,图像生成模型学习的较少,有很大可能会生成绿色苹果图像,导致生成的图像不符合文本的描述,准确度低。
[0025]针对上述问题,本公开提出一种图像生成模型的训练方法、图像生成方法和装置。
[0026]图1是根据本公开第一实施例的示意图,需要说明的是,本公开实施例的图像生成模型的训练方法可应用于图像生成模型的训练装置,该装置可被配置于电子设备中,以使该电子设备可以执行图像生成模型的训练功能。
[0027]其中,电子设备可以为任一具有计算能力的设备,例如可以为个人电脑(Personal Computer,简称PC)、移动终端、服务器等,移动终端例如可以为车载设备、手机、平板电脑、个人数字助理、穿戴式设备等具有各种操作系统、触摸屏和/或显示屏的硬件设备。
[0028]如图1所示,该图像生成模型的训练方法可以包括如下步骤:
[0029]步骤101,获取训练数据;其中,训练数据包括设置有词性标注信息的样本文本,以及样本文本对应的样本图像。
[0030]其中,样本文本指的是训练图像生成模型时输入的描述性句子,例如“黑色的苹果在桌上”,样本文本可以是单个描述性句子,也可以是多个描述性句子,此处不作任何限定,可以根据实际的输入进行确定。
[0031]其中,词性标注信息可以包括:名词标注信息、动词标注信息、形容词标注信息、数词标注信息、量词标注信息、代词标注信息等信息,本公开对此不做任何限定,可以根据实际需要进行确定。
[0032]其中,设置有词性标注信息的样本文本可以是经过词性标注处理得到的样本文本。可选地,词性标注处理的过程可以是确定样本文本中的词语及词语的词性,例如名词、动词、形容词、数词、量词、代词等,在词语中的各个文本字符之前加入词性的标识(比如名词n、动词V、形容词adj等)。
[0033]步骤102,在图像生成模型中,根据设置有词性标注信息的样本文本,确定图像生成模型输出的预测图像。
[0034]在本公开实施例中,在图像生成模型包括多个图像生成层时,可以根据前一个图像生成层输出的输出图像以及设置有词性标注信息的样本文本,确定当前图像生成层的输出图像,直至得到最后一个图像生成层的输出图像,将该输出图像作为图像生成模型输出的预测图像。
[0035]步骤103,根据预测图像以及样本文本对应的样本图像,对图像生成模型进行训本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种图像生成模型的训练方法,包括:获取训练数据;其中,所述训练数据包括设置有词性标注信息的样本文本,以及所述样本文本对应的样本图像;在图像生成模型中,根据设置有词性标注信息的样本文本,确定所述图像生成模型输出的预测图像;根据所述预测图像以及所述样本文本对应的样本图像,对所述图像生成模型进行训练。2.根据权利要求1所述的方法,其中,所述在图像生成模型中,根据设置有词性标注信息的样本文本,确定所述图像生成模型输出的预测图像,包括:在图像生成模型的第i个图像生成层中,根据第i-1个图像生成层的输出图像以及所述样本文本,确定所述第i个图像生成层的输出图像;其中,i为大于1且小于或者等于N的正整数,所述N为所述图像生成网络中图像生成层的层数;对所述i进行加1处理,并重复确定第i个图像生成层的输出图像的步骤,直至获取到第N个图像生成层的输出图像;将所述第N个图像生成层的输出图像,作为所述图像生成模型输出的所述预测图像。3.根据权利要求2所述的方法,其中,所述在图像生成模型的第i个图像生成层中,根据第i-1个图像生成层的输出图像以及所述样本文本,确定所述第i个图像生成层的输出图像,包括:确定所述样本文本中各个文本字符的语义表示向量;在图像生成模型的第i个图像生成层中,根据第i-1个图像生成层的输出图像中各个像素点的像素值、所述样本文本中各个文本字符的语义表示向量以及所述词性标注信息,确定第i个图像生成层的权重矩阵;根据第i个图像生成层的权重矩阵以及所述样本文本中各个文本字符的语义表示向量,确定所述第i个图像生成层的输出图像。4.根据权利要求3所述的方法,其中,所述权重矩阵包括:第i-1个图像生成层的输出图像中像素点上各个所述文本字符的权重;所述在图像生成模型的第i个图像生成层中,根据第i-1个图像生成层的输出图像中各个像素点的像素值、所述样本文本中各个文本字符的语义表示向量以及所述词性标注信息,确定第i个图像生成层的权重矩阵,包括:在图像生成模型的第i个图像生成层中,根据第i-1个图像生成层的输出图像中各个像素点的像素值、所述样本文本中各个文本字符的语义表示向量,确定第i个图像生成层的初始权重矩阵;根据所述词性标注信息,对所述初始权重矩阵中像素点上标记有词性的文本字符的权重进行调整处理,得到第i个图像生成层的权重矩阵。5.根据权利要求4所述的方法,其中,所述根据所述词性标注信息,对所述初始权重矩阵中像素点上标记有词性的文本字符的权重进行调整处理,得到第i个图像生成层的权重矩阵,包括:根据所述词性标注信息,确定所述样本文本中标记有词性的文本字符;针对第i-1个图像生成层的输出图像中的像素点,针对所述样本文本中标记有词性的
每个文本字符,对所述像素点上所述文本字符的权重进行加预设值处理。6.根据权利要求4所述的方法,其中,所述根据所述词性标注信息,对所述初始权重矩阵中像素点上标记有词性的文本字符的权重进行调整处理,得到第i个图像生成层的权重矩阵,包括:根据所述词性标注信息,确定所述样本文本中标记有词性的文本字符;获取所述第i个图像生成层中指定神经网络参数的数值,其中,所述指定神经网络参数的数值可自动学习;针对第i-1个图像生成层的输出图像中的像素点,针对所述样本文本中标记有词性的每个文本字符,对所述像素点上所述文本字符的权重进行加所述数值处理。7.根据权利要求2所述的方法,其中,所述方法还包括:在所述图像生成模型的第1个图像生成层中,根据随机图像以及所述样本文本,确定第2个图像生成层的输出图像。8.根据权利要求1所述的方法,其中,所述获取训练数据,包括:获取多个原始样本文本,以及所述原始样本文本对应的样本图像;对所述初始训练数据中的部分原始样本文本进行词性标注处理,得到设置有词性标注信息的样本文本;根据所述设置有词性标注信息的样本文本以及所述样本文本对应的样本图像、所述原始样本文本以及所述原始样本文本对应的样本图像,生成所述训练数据。9.根据权利要求8所述的方法,其中,所述对所述初始训练数据中的部分原始样本文本进行词性标注处理,得到设置有词性标注信息的样本文本,包括:针对所述部分原始样本文本中的每个原始样本文本,确定所述原始样本文本中的词语以及所述词语的词性;对所述原始样本文本中具有指定词性的词语中的各个文本字符进行词性标注处理,得到设置有词性标注信息的样本文本。10.根据权利要求9所述的方法,其中,所述对所述原始样本文本中具有指定词性的词语中的各个文本字符进行词性标注处理,得到设置有词性标注信息的样本文本,包括:针对所述原始样本文本中具有所述指定词性的每个词语,在所述原始样本文本中的所述词语之前插入所述指定词性的标识,得到设置有词性标注信息的样本文本。11.根据权利要求1所述的方法,其中,所述根据所述预测图像以及所述样本文本对应的样本图像,对所述图像生成模型进行训练,包括:根据所述预测图像、所述样本文本对应的样本图像以及所述图像生成模型的损失函数,确定所述损失函数的数值;根据所述损失函数的数值,对所述图像生成模型中的系数进行调整,实现训练。12.一种图像生成方法,包括:获取待处理的文本;将所述文本输入预设的图像生成模型,以获取所述图像生成模型输出的所述文本对应的图像;其中,所述图像生成模型,结合设置有词性标注信息的样本文本以及所述样本文本对应的样本图像训练得到。13.一种图像生成模型的训练装置,包括:
获取模块,用于获取训练数据;其中,所述训练数据包括设置有...

【专利技术属性】
技术研发人员:冯智达张振宇余欣彤李岚欣方晔玮陈徐屹刘佳祥尹维冲冯仕堃孙宇
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1