【技术实现步骤摘要】
基于文本生成图像的模型训练方法、设备和图像生成方法
本专利技术涉及人工智能技术,特别是涉及一种基于文本生成图像的模型训练方法、设备和图像生成方法。
技术介绍
图像的创作是一项复杂而重要的工作,它需要专业的绘图与美术知识。因此,面对广泛的需求,机器辅助的图像创作已成为近期的热点,希望机器帮助人用更少的专业知识、更简便快捷的方法创作出所需要的图像。对于无绘画经验者而言,通过语言交互来控制机器绘制图像是最简单自然的方法。这样,就需要机器能够理解并利用人类语言中语义信息,以生成相应的图像。为满足该需求,产生了基于文本生成图像的技术。这类技术需要完成两个基本目标:可信度(fidelity)与一致性(consistency),可信度是指产生的人造图像要与真实图像相似,即看起来逼真;一致性则是指产生的图像能够反映出文本输入信息。专利技术人在实现本专利技术的过程中发现现有基于文本生成图像的方案中存在模型学习效率低、效果差等问题。具体原因分析如下:由于文本信息无法覆盖图像的所有细节信息,在基于文本生成图像的方案中,对于文本信息 ...
【技术保护点】
1.一种基于文本生成图像的模型训练方法,其特征在于,包括:/n对于预设训练样本集合中的每个训练样本,基于该训练样本的文本信息,生成相应的文本嵌入式表示,并将所述文本嵌入式表示输入至图像生成模型,触发所述图像生成模型基于所述文本嵌入式表示,生成所述文本信息对应的人造图像,并采用模态解纠缠方式,提取所述人造图像的真实度参数和相应训练样本的真实图像的真实度参数;所述真实度参数包括:图像风格的视觉可信度、图-文相似度和图像的整体视觉可信度;/n基于所述人造图像,确定所述训练样本的正例和负例;/n利用所述图像生成模型,基于所述训练样本的正例、负例和真实图像各自对应的所述真实度参数,计 ...
【技术特征摘要】
1.一种基于文本生成图像的模型训练方法,其特征在于,包括:
对于预设训练样本集合中的每个训练样本,基于该训练样本的文本信息,生成相应的文本嵌入式表示,并将所述文本嵌入式表示输入至图像生成模型,触发所述图像生成模型基于所述文本嵌入式表示,生成所述文本信息对应的人造图像,并采用模态解纠缠方式,提取所述人造图像的真实度参数和相应训练样本的真实图像的真实度参数;所述真实度参数包括:图像风格的视觉可信度、图-文相似度和图像的整体视觉可信度;
基于所述人造图像,确定所述训练样本的正例和负例;
利用所述图像生成模型,基于所述训练样本的正例、负例和真实图像各自对应的所述真实度参数,计算相应样本的子损失函数,并基于所述子损失函数,计算相应样本的总体损失函数;所述子损失函数包括内容损失函数、风格损失函数、生成器损失函数和判别器损失函数;所述总体损失函数包括判别器总体损失函数和生成器总体损失函数;
利用所述总体损失函数,调整所述图像生成模型的参数。
2.根据权利要求1所述的方法,其特征在于,所述生成所述文本信息对应的人造图像包括:
将所述文本嵌入式表示,输入至图像生成模型的文本编码器处理,得到所述文本信息的文本特征;
将所述文本特征和训练样本对应的预设噪声样本,输入至所述图像生成模型的生成器处理,得到所述文本信息对应的人造图像。
3.根据权利要求1所述的方法,其特征在于,所述采用模态解纠缠方式,提取所述人造图像的真实度参数和相应训练样本的真实图像的真实度参数包括:
利用所述图像生成模型的图像编码器,从所述人造图像中提取出模态公共表征和模态特定表征,以及从所述训练样本的真实图像中提取出模态公共表征和模态特定表征;
基于所述人造图像的模态公共表征和模态特定表征、所述真实图像的模态公共表征和模态特定表征,利用所述图像生成模型的判别器,提取所述人造图像和所述真实图像的真实度参数。
4.根据权利要求3所述的方法,其特征在于,所述真实度参数的提取包括:
按照提取所述人造图像的图像风格的视觉可信度;其中,hss为所述人造图像的模态特定表征;Ds为所述图像生成模型的模态特定判别器;表示所述人造图像的图像风格的视觉可信度;
按照ss(x)=Ds(his),提取所述真实图像的图像风格的视觉可信度;其中,his为所述真实图像的模态特定表征;ss(x)表示所述真实图像的图像风格的视觉可信度;
按照提取所述人造图像的图-文相似度;其中,htc为所述文本信息的文本特征;hsc为所述人造图像的模态公共表征;Dc为所述图像生成模型的模态公共判别器;表示所述人造图像的图-文相似度;
按照sc(x)=Dc(htc,hic),提取所述真实图像的图-文相似度;其中,hic为所述真实图像的模态公共...
【专利技术属性】
技术研发人员:冯方向,牛天睿,王小捷,李睿凡,袁彩霞,
申请(专利权)人:北京邮电大学,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。