【技术实现步骤摘要】
图像生成模型的训练方法和设备以及图像生成方法
[0001]本专利技术涉及人工智能技术,特别是涉及一种图像生成模型的训练方法和设备以及图像生成方法。
技术介绍
[0002]近年来,随着深度学习的发展进步,人们不在拘泥于单纯的研究图像、文本或是语音这样单一模态的研究,越来越多的注意力开始转向了多模态结合的领域。在多模态领域中,文本生成图像任务是指能够根据一个给定的文本描述,自动地生成一批符合此描述的虚拟图像。此任务要求生成模型能够充分的理解图像和文本的信息,并根据给定文本描述生成高质量的、符合文本描述的图像,是当下最热门的跨模态生成研究领域之一。
[0003]在基于文本生成图像时,保证生成图像与给定文本描述之间的一致性和提升生成图像质量是Text
‑
to
‑
Image任务的两个核心难点。
[0004]利用多层次堆积的对抗网络执行文本生成图像任务,是目前主流的基于文本生成图像的方案之一。该方案基于条件对抗网络的思想,通过使用多层叠加的对抗网络来逐层提升生成图像的质量。
[ ...
【技术保护点】
【技术特征摘要】
1.一种图像生成模型的训练方法,其特征在于,包括:获取样本数据,所述样本数据包括标准图像和图像描述文本;基于所述图像描述文本,分别进行句子级别编码和词级别编码,得到相应的句子向量和词向量;将初始高斯噪声,输入至图像生成模型的无条件对抗子网络进行图像生成,得到第一图像;基于所述第一图像和所述标准图像,利用第一判别器,计算非条件对抗损失函数值;将所述第一图像和第一句子的句子向量,输入至所述图像生成模型的句子级别对抗子网络进行图像生成,得到第二图像;基于所述第二图像、所述第一句子的句子向量和所述标准图像,利用第二判别器,计算句子级别的条件对抗损失函数值;其中,所述第一句子为所述图像描述文本对应的句子;将所述第二图像和所述第一句子中每个词的词向量,输入至所述图像生成模型的词级别对抗子网络进行图像生成,得到第三图像;基于所述第三图像、所述第一句子的句子向量和词向量以及所述标准图像,利用第三判别器,计算词级别的条件对抗损失函数值;利用所述非条件对抗损失函数值、所述句子级别的条件对抗损失函数值和所述词级别的条件对抗损失函数值,对所述图像生成模型的参数进行更新。2.根据权利要求1所述的方法,其特征在于,所述将初始高斯噪声,输入至图像生成模型的无条件对抗子网络进行图像生成包括:对所述初始高斯噪声进行重构;利用第一图像生成器,对所述重构的结果进行处理,得到所述第一图像。3.根据权利要求1所述的方法,其特征在于,所述将所述第一图像和第一句子的句子向量,输入至所述图像生成模型的句子级别对抗子网络进行图像生成包括:将所述句子向量融入所述第一图像的图像特征中;利用第二图像生成器,对所述融入得到的图像特征进行处理,得到所述第二图像。4.根据权利要求1所述的方法,其特征在于,所述将所述第二图像和所述第一句子中每个词的词向量,输入至所述图像生成模型的词级别对抗子网络进行图像生成包括:将所述词向量融入所述第二图像的图像特征中;利用第三图像生成器,对所述融入得到的图像特征进行处理,得到所述第三图像。5.根据权利要求1所述的方法,其特征在于,所述非条件对抗损失函数值包括所述无条件对抗子网络中第一判别器的损失函数值和所述无条件对抗子网络中第一图像生成器的损失函数值;所述基于所述第一图像和所述标准图像,利用第一判别器,计算非条件对抗损失函数值包括:按照计算所述第一判别器的损失函数值其中,D( )表示判别器输出的概率值;x
t
表示样本数据中的标准图像;x1表示第一图像;表示利用标准图像x
t
计算第一判别器的第一非条件对抗损失函数;表示利用从第一图像生成器G1中得到的第一图像
x1计算第一判别器的第二非条件对抗损失函数;按照计算所述第一图像生成器的损失函数值6.根据权利要求1所述的方法,其特征在于,所述句子级别的条件对抗损失函数值包括所述句子级别对抗子网络中第二判别器的损失函数值和所述句子级别对抗子网络中第二图像生成器的总损失函数值;所述基于所述第二图像、所述第一句子的句子向量和所述标准图像,利用第二判别器,计算句子级别的条件对抗损失函数值包括:利用预设的图像编码器,对所述第二图像进行特征抽取,得到第二图像的图像特征;基于所述第二图像的图像特征和所述第一句子的句子向量,采用交叉熵损失计算方法,进行图...
【专利技术属性】
技术研发人员:杨博,冯方向,王小捷,袁彩霞,李睿凡,
申请(专利权)人:北京邮电大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。