一种基于扩散模型的AI文字生成方法、装置以及设备制造方法及图纸

技术编号：41592111 阅读：28 留言：0更新日期：2024-06-07 00:03

本发明专利技术公开了一种基于扩散模型的AI文字生成方法、装置、设备及存储介质，其包括：获取图文配对的文本图像数据，对每一所述文本图像数据进行预处理，得到文字图像训练数据集；基于预设损失函数，将所述文字图像训练数据集输入包括扩散模型、Clip图像编码器、Clip文本编码器以及字符分割网络所构建的模型进行训练，得到训练完成的图文生成模型；将待处理图像以及文本描述词输入所述图文生成模型中，得到包含文本关键字的结果生成图像。通过本案可以更为稳定且准确的将文字内容生成在图像中，可以更好的将文字内容嵌入到语义场景中，能够实现高效且自动化文字图像生成。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及人工智能，尤其涉及一种基于扩散模型的ai文字生成方法、装置以及设备。

技术介绍

1、在日常生活中，包含文本的图像基本是随处可见的，例如海报、专辑、贺卡和书籍封面等等，这些包含文本的图像不仅有富有创造力的背景图案，还包含了清晰稳定的文字信息。如果可以由模型自动生成包含文字的图像，将极大地给设计师的设计工作减轻负担。

2、近年来，随着aigc的蓬勃发展，基于stable diffusion扩散模型的ai生成技术落地到各类产品中。目前主要的ai生成技术可以根据用户输入的文本将人物和自然场景等较好地生成对应的风格化图像，但较难通过文本描述将文字内容稳定地生成在图像中，无法生成稳定的字体结构以及将字体内容嵌入到需要的语义场景中。

技术实现思路

1、有鉴于此，本专利技术的目的在于提出一种基于扩散模型的ai文字生成方法、装置、设备以及计算机程序产品，旨在解决现有的文字图像生成方法存在ai文字生成不稳定等问题。

2、为实现上述目的，本专利技术提供一种基于扩散模型的ai...

【技术保护点】

1.一种基于扩散模型的AI文字生成方法，其特征在于，所述方法包括：

2.根据权利要求1所述的一种基于扩散模型的AI文字生成方法，其特征在于，所述对每一所述文本图像数据进行预处理，得到文字图像训练数据集，包括：

3.根据权利要求2所述的一种基于扩散模型的AI文字生成方法，其特征在于，所述字符分割网络的网络结构包括U-Net网络；通过将所述文字图像训练数据集中的文字图像以及所述字符分割mask输入所述U-Net网络并基于交叉熵损失函数进行训练优化，得到所述字符分割网络。

4.根据权利要求2所述的一种基于扩散模型的AI文字生成方法，其特征在于，所述将所述文字...

【技术特征摘要】

1.一种基于扩散模型的ai文字生成方法，其特征在于，所述方法包括：

2.根据权利要求1所述的一种基于扩散模型的ai文字生成方法，其特征在于，所述对每一所述文本图像数据进行预处理，得到文字图像训练数据集，包括：

3.根据权利要求2所述的一种基于扩散模型的ai文字生成方法，其特征在于，所述字符分割网络的网络结构包括u-net网络；通过将所述文字图像训练数据集中的文字图像以及所述字符分割mask输入所述u-net网络并基于交叉熵损失函数进行训练优化，得到所述字符分割网络。

4.根据权利要求2所述的一种基于扩散模型的ai文字生成方法，其特征在于，所述将所述文字图像训练数据集输入包括扩散模型、clip图像编码器、clip文本编码器以及字符分割网络所构建的模型进行训练，包括：

5.根据权利要求1或4所述的一种基于扩散模型的ai文字生成方法，其特征在于，所述预设损失函数包括第一损失函数lldm、第二损失函数lmse以及第三损失函数lent，所述预设损失函数为l＝lldm+λentlent+λmselmse，式中，λe...

【专利技术属性】
技术研发人员：易佳锦，苏灿平，余清洲，刘洛麒，
申请(专利权)人：厦门美图之家科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人