根据文字描述生成带精确文字图片的方法技术

技术编号:39815490 阅读:9 留言:0更新日期:2023-12-22 19:33
本发明专利技术涉及一种根据文字描述生成带精确文字图片的方法

【技术实现步骤摘要】
根据文字描述生成带精确文字图片的方法、装置及存储介质
[
][0001]本专利技术涉及计算机应用
,具体地说是一种根据文字描述生成带精确文字图片的方法

装置及存储介质

[
技术介绍
][0002]随着文生图
(text

to

image)
技术的日趋成熟,图像生成模型也越来越广为使用

这其中以
Stable Diffusion(SD)
最为代表
。Stable Diffusion
是一种基于潜在扩散模型
LDMs(Latent Diffusion Models)
的图像生成模型

为了使生成的图片更为可控,更符合用户所期望的图像风格

内容构图

任务姿态等,
SD
衍生出了
ControlNet、LoRA
等插件方法

[0003]然而这些方法对
SD
的控制仅仅是在图像宏观层面

如果输入的提示词中存在更细致的要求,模型的生成结果往往不尽人意

如要生成带指定文字的图片,
SD
通常会出现文字乱序

生成非指定文字

甚至是不出现文字等情况,且现有的
SD
模型缺乏更细粒度的文本语义理解能力,无法生成带精确文字的图片

[0004]因此,若能提供一种根据文字描述生成带精确文字的图片的方法及装置,将具有非常重要的意义

[
技术实现思路
][0005]本专利技术的目的就是要解决上述的不足而提供一种根据文字描述生成带精确文字图片的方法,能够提取文本中更细粒度的语义信息,具有更好的文本语义理解能力,从而可实现根据文字描述生成带精确文字的图片

[0006]本专利技术一方面,提供了一种根据文字描述生成带精确文字图片的方法,该方法分为训练和推理两个阶段:
[0007](1)
训练阶段,先对图像训练样本经过
BLIP

OCR
分别提取图像的文本描述和图像中的文字,再将这两段文字组合后作为潜在扩散模型的文字输入;
[0008](2)
推理阶段,潜在扩散模型的使用与文生图扩散模型一致,输入文本提示词,即可生成相应的图像

[0009]在一些实施例中,图像内容理解采用
BLIP
模型,通过使用
BILP
对数据集中的图像生成文本描述,作为训练模型时的提示文本输入

[0010]在一些实施例中,图像文本识别采用
paddle OCR
技术额外提取图像中文字信息,并与
BLIP
的输出信息进行组合,使生成模型更关注到图像中的文字信息

[0011]在一些实施例中,采用潜在扩散模型
LDMs
作为图像生成的基模型,根据提示词生成相应的图像;潜在扩散模型
LDMs
中,输入图像通过编码器采样编码成潜空间数据
Z
,再通过扩散过程得到一个约等于服从标准正态分布的噪声
Z
T

Z
T
通过
U

Net
网络进行噪声预测并去噪;输入图像生成的组合文字提示的文本编码通过
cross

attention
层在
U

Net
中嵌入,经多次降噪后经过图像解码器还原图像,即可生成相应的图像

[0012]在一些实施例中,采用
transformer T5
作为文本编码器,以提取更细粒度文本语
义信息,使模型拥有更好的文本语义理解能力,并为生成带精确文字图像提供基础

[0013]在一些实施例中,训练阶段采用低秩适应
LoRA
技术,对扩散模型
U

Net
中的
cross

attention
层进行微调;低秩适应
LoRA
技术为一种利用矩阵低秩分解原理进行模型参数微调的技术,其微调原有模型的部分层,新的模型权重与原始模型权重按比例结合使用,使微调的模型在学习到新特性的同时,不遗忘已经学习到的信息

[0014]本专利技术另一方面,提供了一种根据文字描述生成带精确文字图片的装置,包括:
[0015]图像内容理解单元,采用
BLIP
模型,通过使用
BILP
对数据集中的图像生成文本描述,作为训练模型时的提示文本输入;
[0016]图像文本识别单元,采用
paddle OCR
技术额外提取图像中文字信息,并与
BLIP
的输出信息进行组合,使生成模型更关注到图像中的文字信息;
[0017]图像生成单元,采用潜在扩散模型
LDMs
作为图像生成的基模型,根据提示词生成相应的图像;潜在扩散模型
LDMs
中,输入图像通过编码器采样编码成潜空间数据
Z
,再通过扩散过程得到一个约等于服从标准正态分布的噪声
Z
T

Z
T
通过
U

Net
网络进行噪声预测并去噪;输入图像生成的组合文字提示的文本编码通过
cross

attention
层在
U

Net
中嵌入,经多次降噪后经过图像解码器还原图像,即可生成相应的图像

[0018]在一些实施例中,该装置采用
transformer T5
作为文本编码器,以提取更细粒度文本语义信息,使模型拥有更好的文本语义理解能力,为生成带精确文字图像提供基础

[0019]本专利技术第三方面,提出了一种计算机可读存储介质,所述计算机可读存储介质包括存储的程序,所述程序执行上述方法

[0020]本专利技术第四方面,提出了一种计算机设备,包括:处理器

存储器和总线;所述处理器与所述存储器通过所述总线连接;所述存储器用于存储程序,所述处理器用于运行程序,所述程序运行时执行上述方法

[0021]本专利技术同现有技术相比,具有如下优点:
[0022](1)
本专利技术具有更好的文本语义理解能力:通过采用
transformer T5
作为文本编码器,能够提取文本中更细粒度的语义信息,使生成的图像更符合用户所期待的模样;
[0023](2)
本专利技术能够生成带精确文字的图片:通过对训练样本本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种根据文字描述生成带精确文字图片的方法,其特征在于,分为训练和推理两个阶段:
(1)
训练阶段,先对图像训练样本经过
BLIP

OCR
分别提取图像的文本描述和图像中的文字,再将这两段文字组合后作为潜在扩散模型的文字输入;
(2)
推理阶段,潜在扩散模型的使用与文生图扩散模型一致,输入文本提示词,即可生成相应的图像
。2.
如权利要求1所述的方法,其特征在于:图像内容理解采用
BLIP
模型,通过使用
BILP
对数据集中的图像生成文本描述,作为训练模型时的提示文本输入
。3.
如权利要求1所述的方法,其特征在于:图像文本识别采用
paddle OCR
技术额外提取图像中文字信息,并与
BLIP
的输出信息进行组合,使生成模型更关注到图像中的文字信息
。4.
如权利要求1所述的方法,其特征在于:采用潜在扩散模型
LDMs
作为图像生成的基模型,根据提示词生成相应的图像;潜在扩散模型
LDMs
中,输入图像通过编码器采样编码成潜空间数据
Z
,再通过扩散过程得到一个约等于服从标准正态分布的噪声
Z
T

Z
T
通过
U

Net
网络进行噪声预测并去噪;输入图像生成的组合文字提示的文本编码通过
cross

attention
层在
U

Net
中嵌入,经多次降噪后经过图像解码器还原图像,即可生成相应的图像
。5.
如权利要求1所述的方法,其特征在于:采用
transformer T5
作为文本编码器,以提取更细粒度文本语义信息,使模型拥有更好的文本语义理解能力,并为生成带精确文字图像提供基础
。6.
如权利要求1所述的方法,其特征在于:训练阶段采用低秩适应
LoRA
技术,对扩散模型
U

Net
中的
cr...

【专利技术属性】
技术研发人员:施哲彬
申请(专利权)人:上海焕泽信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1