文本图像生成方法以及扩散生成模型训练方法技术

技术编号:38908117 阅读:10 留言:0更新日期:2023-09-25 09:26
本说明书实施例提供文本图像生成方法以及扩散生成模型训练方法,其中所述文本图像生成方法包括:获取初始图像;将初始图像输入条件编码器,获得初始图像的图像特征;将初始图像和图像特征输入扩散生成模型,获得初始图像对应的噪声数据,其中,扩散生成模型基于样本文本图像、样本文本图像的样本图像特征和噪声样本图像训练得到,噪声样本图像是对样本文本图像添加样本噪声得到,样本图像特征包括样本视觉特征和样本语义特征中的至少一种;根据初始图像和噪声数据,生成初始图像对应的目标文本图像。通过样本噪声扩充扩散生成模型的训练数据,并引入样本图像特征,显著提升了扩散生成模型所生成的文本图像的质量。成模型所生成的文本图像的质量。成模型所生成的文本图像的质量。

【技术实现步骤摘要】
文本图像生成方法以及扩散生成模型训练方法


[0001]本说明书实施例涉及计算机
,特别涉及一种文本图像生成方法。本说明书一个或者多个实施例同时涉及一种手写文本图像生成方法,一种扩散生成模型训练方法,一种文本图像生成装置,一种手写文本图像生成装置,一种扩散生成模型训练装置,一种计算设备,一种计算机可读存储介质以及一种计算机程序。

技术介绍

[0002]随着计算机技术的发展,文本图像的生成越来越依赖计算机技术进行。目前,通常可以基于规则生成文本图像:采集各式各样的字体和图像背景素材,通过文本图像中文本的排布规则渲染合成文本图像。
[0003]然而,上述方法所采集的图像背景素材是有限的,同时要为不同场景设计不同的合成规则,十分低效且具有局限性,导致无法合成高质量的文本图像,因此,亟需一种高质量的文本图像生成方案。

技术实现思路

[0004]有鉴于此,本说明书实施例提供了一种文本图像生成方法。本说明书一个或者多个实施例同时涉及一种手写文本图像生成方法,一种扩散生成模型训练方法,一种文本图像生成装置,一种手写文本图像生成装置,一种扩散生成模型训练装置,一种计算设备,一种计算机可读存储介质以及一种计算机程序,以解决现有技术中存在的技术缺陷。
[0005]根据本说明书实施例的第一方面,提供了一种文本图像生成方法,包括:
[0006]获取初始图像;
[0007]将初始图像输入条件编码器,获得初始图像的图像特征;
[0008]将初始图像和图像特征输入扩散生成模型,获得初始图像对应的噪声数据,其中,扩散生成模型基于样本文本图像、样本文本图像的样本图像特征和噪声样本图像训练得到,噪声样本图像是对样本文本图像添加样本噪声得到,样本图像特征包括样本视觉特征和样本语义特征中的至少一种;
[0009]根据初始图像和噪声数据,生成初始图像对应的目标文本图像。
[0010]根据本说明书实施例的第二方面,提供了一种手写文本图像生成方法,包括:
[0011]接收用户发送的手写文本图像生成请求,其中,手写文本图像生成请求携带初始图像和初始图像的初始风格信息;
[0012]将初始图像和初始风格信息输入条件编码器,获得初始图像的视觉特征、语义特征和风格特征;
[0013]将初始图像、视觉特征、语义特征和风格特征输入扩散生成模型,获得初始图像对应的噪声数据,其中,扩散生成模型基于样本文本图像、样本文本图像的样本图像特征和噪声样本图像训练得到,噪声样本图像是对样本文本图像添加样本噪声得到,样本图像特征包括样本视觉特征、样本语义特征和样本风格特征;
[0014]根据初始图像和噪声数据,生成初始图像对应的目标手写文本图像;
[0015]向用户发送初始图像对应的目标手写文本图像。
[0016]根据本说明书实施例的第三方面,提供了一种扩散生成模型训练方法,应用于云侧设备,包括:
[0017]获取样本集,其中,样本集包括多个样本文本图像,样本文本图像携带样本图像特征,样本图像特征包括样本视觉特征和样本语义特征中的至少一种;
[0018]从样本集中提取第一样本文本图像,其中,第一样本文本图像为多个样本文本图像中的任一个;
[0019]对第一样本文本图像添加第一样本噪声,获得第一噪声样本图像;
[0020]将第一噪声样本图像和第一样本文本图像携带的第一样本图像特征输入扩散生成模型,获得第一预测噪声;
[0021]根据第一样本噪声和第一预测噪声,计算噪声损失值;
[0022]根据噪声损失值调整扩散生成模型的模型参数,并返回执行从样本集中提取第一样本文本图像的步骤,直至达到第二预设停止条件,获得训练完成的扩散生成模型的模型参数;
[0023]向端侧设备发送扩散生成模型的模型参数。
[0024]根据本说明书实施例的第四方面,提供了一种文本图像生成装置,包括:
[0025]第一获取模块,被配置为获取初始图像;
[0026]第一输入模块,被配置为将初始图像输入条件编码器,获得初始图像的图像特征;
[0027]第二输入模块,被配置为将初始图像和图像特征输入扩散生成模型,获得初始图像对应的噪声数据,其中,扩散生成模型基于样本文本图像、样本文本图像的样本图像特征和噪声样本图像训练得到,噪声样本图像是对样本文本图像添加样本噪声得到,样本图像特征包括样本视觉特征和样本语义特征中的至少一种;
[0028]第一生成模块,被配置为根据初始图像和噪声数据,生成初始图像对应的目标文本图像。
[0029]根据本说明书实施例的第五方面,提供了一种手写文本图像生成装置,包括:
[0030]接收模块,被配置为接收用户发送的手写文本图像生成请求,其中,手写文本图像生成请求携带初始图像和初始图像的初始风格信息;
[0031]第三输入模块,被配置为将初始图像和初始风格信息输入条件编码器,获得初始图像的视觉特征、语义特征和风格特征;
[0032]第四输入模块,被配置为将初始图像、视觉特征、语义特征和风格特征输入扩散生成模型,获得初始图像对应的噪声数据,其中,扩散生成模型基于样本文本图像、样本文本图像的样本图像特征和噪声样本图像训练得到,噪声样本图像是对样本文本图像添加样本噪声得到,样本图像特征包括样本视觉特征、样本语义特征和样本风格特征;
[0033]第二生成模块,被配置为根据初始图像和噪声数据,生成初始图像对应的目标手写文本图像;
[0034]第一发送模块,被配置为向用户发送初始图像对应的目标手写文本图像。
[0035]根据本说明书实施例的第六方面,提供了一种扩散生成模型训练装置,应用于云侧设备,包括:
[0036]第二获取模块,被配置为获取样本集,其中,样本集包括多个样本文本图像,样本文本图像携带样本图像特征,样本图像特征包括样本视觉特征和样本语义特征中的至少一种;
[0037]提取模块,被配置为从样本集中提取第一样本文本图像,其中,第一样本文本图像为多个样本文本图像中的任一个;
[0038]添加模块,被配置为对第一样本文本图像添加第一样本噪声,获得第一噪声样本图像;
[0039]第五输入模块,被配置为将第一噪声样本图像和第一样本文本图像携带的第一样本图像特征输入扩散生成模型,获得第一预测噪声;
[0040]计算模块,被配置为根据第一样本噪声和第一预测噪声,计算噪声损失值;
[0041]调整模块,被配置为根据噪声损失值调整扩散生成模型的模型参数,并返回执行从样本集中提取第一样本文本图像的步骤,直至达到第二预设停止条件,获得训练完成的扩散生成模型的模型参数;
[0042]第二发送模块,被配置为向端侧设备发送扩散生成模型的模型参数。
[0043]根据本说明书实施例的第七方面,提供了一种计算设备,包括:
[0044]存储器和处理器;
[0045]所述存储器用于存储计算机可执行指令,所述处理器用于执行所述计本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本图像生成方法,包括:获取初始图像;将所述初始图像输入条件编码器,获得所述初始图像的图像特征;将所述初始图像和所述图像特征输入扩散生成模型,获得所述初始图像对应的噪声数据,其中,所述扩散生成模型基于样本文本图像、所述样本文本图像的样本图像特征和噪声样本图像训练得到,所述噪声样本图像是对所述样本文本图像添加样本噪声得到,所述样本图像特征包括样本视觉特征和样本语义特征中的至少一种;根据所述初始图像和所述噪声数据,生成所述初始图像对应的目标文本图像。2.根据权利要求1所述的方法,所述将所述初始图像输入条件编码器,获得所述初始图像的图像特征,包括:获取所述初始图像对应的至少一个生成条件,其中,所述生成条件为合成生成条件或者增广生成条件或者复原生成条件或者模仿生成条件,所述合成生成条件对应的图像特征为语义特征,所述增广生成条件对应的图像特征为视觉特征,所述复原生成条件对应的图像特征为视觉特征和语义特征,所述模仿生成条件对应的图像特征为视觉特征、语义特征和风格特征;将所述初始图像输入条件编码器,获得所述至少一个生成条件对应的图像特征。3.根据权利要求2所述的方法,所述条件编码器包括文本识别编码器,所述图像特征包括视觉特征;所述将所述初始图像输入条件编码器,获得所述至少一个生成条件对应的图像特征,包括:将所述初始图像输入所述文本识别编码器,获得所述初始图像的初始视觉特征,并基于所述初始视觉特征,获得所述初始图像的图像块索引;对所述图像块索引进行嵌入编码,获得所述初始图像的嵌入视觉特征;对所述初始视觉特征和所述嵌入视觉特征进行池化处理,获得所述初始图像的视觉特征。4.根据权利要求2所述的方法,所述初始图像携带初始文本信息,所述条件编码器包括文本识别分类器,所述图像特征包括语义特征;所述将所述初始图像输入条件编码器,获得所述至少一个生成条件对应的图像特征,包括:将所述初始文本信息输入所述文本识别分类器,获得所述初始图像的语义特征,其中,所述语义特征为所述文本识别分类器对初始文本序列处理得到,所述初始文本序列为所述文本识别分类器对所述初始文本信息的编码特征处理得到。5.根据权利要求2所述的方法,所述初始图像携带初始风格信息,所述条件编码器包括风格编码器,所述图像特征包括风格特征;所述将所述初始图像输入条件编码器,获得所述至少一个生成条件对应的图像特征,包括:将所述初始风格信息输入所述风格编码器,获得所述初始图像的风格特征。6.根据权利要求2所述的方法,所述将所述初始图像和所述图像特征输入扩散生成模型,获得所述初始图像对应的噪声数据,包括:
将所述初始图像和所述至少一个生成条件对应的图像特征输入扩散生成模型,获得各生成条件下所述初始图像对应的噪声数据。7.根据权利要求1所述的方法,所述目标文本图像包括第一目标文本图像和第二目标文本图像;所述根据所述初始图像和所述噪声数据,生成所述初始图像对应的目标文本图像,包括:根据所述初始图像和所述噪声数据,生成所述初始图像对应的第一目标文本图像;将所述第一目标文本图像作为更新后的初始图像,并返回执行所述将所述初始图像输入条件编码器,获得所述初始图像的图像特征的步骤,生成所述初始图像对应的第二目标文本图像。8.根据权利要求1所述的方法,所述根据所述初始图像和所述噪声数据,生成所述初始图像对应的目标文本图像之后,还包括:接收用户发送的文本图像生成需求信息;在目标文本图像不满足所述图像生成需求信息的情况下,将所述目标文本图像作为更新后的初始图像,并返回执行所述将所述初始图像输入条件编码器,获得所述初始图像的图像特征的步骤,直至目标文本图像满足所述图像生成需求信息,获得更新后的目标文本图像。9.根据权利要求1所述的方法,所述...

【专利技术属性】
技术研发人员:朱远志李兆海何梦超姚聪
申请(专利权)人:阿里巴巴中国有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1