根据文字描述生成带精确文字图片的方法技术

技术编号：39815490 阅读：9 留言：0更新日期：2023-12-22 19:33

本发明专利技术涉及一种根据文字描述生成带精确文字图片的方法

全部详细技术资料下载

【技术实现步骤摘要】
根据文字描述生成带精确文字图片的方法、装置及存储介质
[
][0001]本专利技术涉及计算机应用
，具体地说是一种根据文字描述生成带精确文字图片的方法
、
装置及存储介质
。
[
技术介绍
][0002]随着文生图
(text
‑
to
‑
image)
技术的日趋成熟，图像生成模型也越来越广为使用
。
这其中以
Stable Diffusion(SD)
最为代表
。Stable Diffusion
是一种基于潜在扩散模型
LDMs(Latent Diffusion Models)
的图像生成模型
。
为了使生成的图片更为可控，更符合用户所期望的图像风格
、
内容构图
、
任务姿态等，
SD
衍生出了
ControlNet、LoRA
等插件方法
。
[0003]然而这些方法对
SD
的控制仅仅是在图像宏观层面
。
如果输入的提示词中存在更细致的要求，模型的生成结果往往不尽人意
。
如要生成带指定文字的图片，
SD
通常会出现文字乱序
、
生成非指定文字
、
甚至是不出现文字等情况，且现有的
SD
模型缺乏更细粒度的文本语义理解能力，无法生成带精确文字的图片
。
[0004]因此，若...

【技术保护点】

【技术特征摘要】
1.
一种根据文字描述生成带精确文字图片的方法，其特征在于，分为训练和推理两个阶段：
(1)
训练阶段，先对图像训练样本经过
BLIP
和
OCR
分别提取图像的文本描述和图像中的文字，再将这两段文字组合后作为潜在扩散模型的文字输入；
(2)
推理阶段，潜在扩散模型的使用与文生图扩散模型一致，输入文本提示词，即可生成相应的图像
。2.
如权利要求1所述的方法，其特征在于：图像内容理解采用
BLIP
模型，通过使用
BILP
对数据集中的图像生成文本描述，作为训练模型时的提示文本输入
。3.
如权利要求1所述的方法，其特征在于：图像文本识别采用
paddle OCR
技术额外提取图像中文字信息，并与
BLIP
的输出信息进行组合，使生成模型更关注到图像中的文字信息
。4.
如权利要求1所述的方法，其特征在于：采用潜在扩散模型
LDMs
作为图像生成的基模型，根据提示词生成相应的图像；潜在扩散模型
LDMs
中，输入图像通过编码器采样编码成潜空间数据
Z
，再通过扩散过程得到一个约等于服从标准正态分布的噪声
Z
T
；
Z
T
通过
U
‑
Net
网络进行噪声预测并去噪；输入图像生成的组合文字提示的文本编码通过
cross
‑
attention
层在
U
‑
Net
中嵌入，经多次降噪后经过图像解码器还原图像，即可生成相应的图像
。5.
如权利要求1所述的方法，其特征在于：采用
transformer T5
作为文本编码器，以提取更细粒度文本语义信息，使模型拥有更好的文本语义理解能力，并为生成带精确文字图像提供基础
。6.
如权利要求1所述的方法，其特征在于：训练阶段采用低秩适应
LoRA
技术，对扩散模型
U
‑
Net
中的
cr...

【专利技术属性】
技术研发人员：施哲彬，
申请(专利权)人：上海焕泽信息技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人