文本图像生成方法以及扩散生成模型训练方法技术

技术编号：38908117 阅读：10 留言：0更新日期：2023-09-25 09:26

本说明书实施例提供文本图像生成方法以及扩散生成模型训练方法，其中所述文本图像生成方法包括：获取初始图像；将初始图像输入条件编码器，获得初始图像的图像特征；将初始图像和图像特征输入扩散生成模型，获得初始图像对应的噪声数据，其中，扩散生成模型基于样本文本图像、样本文本图像的样本图像特征和噪声样本图像训练得到，噪声样本图像是对样本文本图像添加样本噪声得到，样本图像特征包括样本视觉特征和样本语义特征中的至少一种；根据初始图像和噪声数据，生成初始图像对应的目标文本图像。通过样本噪声扩充扩散生成模型的训练数据，并引入样本图像特征，显著提升了扩散生成模型所生成的文本图像的质量。成模型所生成的文本图像的质量。成模型所生成的文本图像的质量。

全部详细技术资料下载

【技术实现步骤摘要】
文本图像生成方法以及扩散生成模型训练方法

[0001]本说明书实施例涉及计算机
，特别涉及一种文本图像生成方法。本说明书一个或者多个实施例同时涉及一种手写文本图像生成方法，一种扩散生成模型训练方法，一种文本图像生成装置，一种手写文本图像生成装置，一种扩散生成模型训练装置，一种计算设备，一种计算机可读存储介质以及一种计算机程序。

技术介绍

[0002]随着计算机技术的发展，文本图像的生成越来越依赖计算机技术进行。目前，通常可以基于规则生成文本图像：采集各式各样的字体和图像背景素材，通过文本图像中文本的排布规则渲染合成文本图像。
[0003]然而，上述方法所采集的图像背景素材是有限的，同时要为不同场景设计不同的合成规则，十分低效且具有局限性，导致无法合成高质量的文本图像，因此，亟需一种高质量的文本图像生成方案。

技术实现思路

[0004]有鉴于此，本说明书实施例提供了一种文本图像生成方法。本说明书一个或者多个实施例同时涉及一种手写文本图像生成方法，一种扩散生成模型训练方法，一种文本图像生成装置，一种手写文本图像生成装置，一种扩散生成模型训练装置，一种计算设备，一种计算机可读存储介质以及一种计算机程序，以解决现有技术中存在的技术缺陷。
[0005]根据本说明书实施例的第一方面，提供了一种文本图像生成方法，包括：
[0006]获取初始图像；
[0007]将初始图像输入条件编码器，获得初始图像的图像特征；
[0008]将初始图像和图像特征输入扩散生成模型，获得初始图...

【技术保护点】

【技术特征摘要】
1.一种文本图像生成方法，包括：获取初始图像；将所述初始图像输入条件编码器，获得所述初始图像的图像特征；将所述初始图像和所述图像特征输入扩散生成模型，获得所述初始图像对应的噪声数据，其中，所述扩散生成模型基于样本文本图像、所述样本文本图像的样本图像特征和噪声样本图像训练得到，所述噪声样本图像是对所述样本文本图像添加样本噪声得到，所述样本图像特征包括样本视觉特征和样本语义特征中的至少一种；根据所述初始图像和所述噪声数据，生成所述初始图像对应的目标文本图像。2.根据权利要求1所述的方法，所述将所述初始图像输入条件编码器，获得所述初始图像的图像特征，包括：获取所述初始图像对应的至少一个生成条件，其中，所述生成条件为合成生成条件或者增广生成条件或者复原生成条件或者模仿生成条件，所述合成生成条件对应的图像特征为语义特征，所述增广生成条件对应的图像特征为视觉特征，所述复原生成条件对应的图像特征为视觉特征和语义特征，所述模仿生成条件对应的图像特征为视觉特征、语义特征和风格特征；将所述初始图像输入条件编码器，获得所述至少一个生成条件对应的图像特征。3.根据权利要求2所述的方法，所述条件编码器包括文本识别编码器，所述图像特征包括视觉特征；所述将所述初始图像输入条件编码器，获得所述至少一个生成条件对应的图像特征，包括：将所述初始图像输入所述文本识别编码器，获得所述初始图像的初始视觉特征，并基于所述初始视觉特征，获得所述初始图像的图像块索引；对所述图像块索引进行嵌入编码，获得所述初始图像的嵌入视觉特征；对所述初始视觉特征和所述嵌入视觉特征进行池化处理，获得所述初始图像的视觉特征。4.根据权利要求2所述的方法，所述初始图像携带初始文本信息，所述条件编码器包括文本识别分类器，所述图像特征包括语义特征；所述将所述初始图像输入条件编码器，获得所述至少一个生成条件对应的图像特征，包括：将所述初始文本信息输入所述文本识别分类器，获得所述初始图像的语义特征，其中，所述语义特征为所述文本识别分类器对初始文本序列处理得到，所述初始文本序列为所述文本识别分类器对所述初始文本信息的编码特征处理得到。5.根据权利要求2所述的方法，所述初始图像携带初始风格信息，所述条件编码器包括风格编码器，所述图像特征包括风格特征；所述将所述初始图像输入条件编码器，获得所述至少一个生成条件对应的图像特征，包括：将所述初始风格信息输入所述风格编码器，获得所述初始图像的风格特征。6.根据权利要求2所述的方法，所述将所述初始图像和所述图像特征输入扩散生成模型，获得所述初始图像对应的噪声数据，包括：
将所述初始图像和所述至少一个生成条件对应的图像特征输入扩散生成模型，获得各生成条件下所述初始图像对应的噪声数据。7.根据权利要求1所述的方法，所述目标文本图像包括第一目标文本图像和第二目标文本图像；所述根据所述初始图像和所述噪声数据，生成所述初始图像对应的目标文本图像，包括：根据所述初始图像和所述噪声数据，生成所述初始图像对应的第一目标文本图像；将所述第一目标文本图像作为更新后的初始图像，并返回执行所述将所述初始图像输入条件编码器，获得所述初始图像的图像特征的步骤，生成所述初始图像对应的第二目标文本图像。8.根据权利要求1所述的方法，所述根据所述初始图像和所述噪声数据，生成所述初始图像对应的目标文本图像之后，还包括：接收用户发送的文本图像生成需求信息；在目标文本图像不满足所述图像生成需求信息的情况下，将所述目标文本图像作为更新后的初始图像，并返回执行所述将所述初始图像输入条件编码器，获得所述初始图像的图像特征的步骤，直至目标文本图像满足所述图像生成需求信息，获得更新后的目标文本图像。9.根据权利要求1所述的方法，所述...

【专利技术属性】
技术研发人员：朱远志，李兆海，何梦超，姚聪，
申请(专利权)人：阿里巴巴中国有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人