【技术实现步骤摘要】
根据文字描述生成带精确文字图片的方法、装置及存储介质
[
][0001]本专利技术涉及计算机应用
,具体地说是一种根据文字描述生成带精确文字图片的方法
、
装置及存储介质
。
[
技术介绍
][0002]随着文生图
(text
‑
to
‑
image)
技术的日趋成熟,图像生成模型也越来越广为使用
。
这其中以
Stable Diffusion(SD)
最为代表
。Stable Diffusion
是一种基于潜在扩散模型
LDMs(Latent Diffusion Models)
的图像生成模型
。
为了使生成的图片更为可控,更符合用户所期望的图像风格
、
内容构图
、
任务姿态等,
SD
衍生出了
ControlNet、LoRA
等插件方法
。
[0003]然而这些方法对
SD
的控制仅仅是在图像宏观层面
。
如果输入的提示词中存在更细致的要求,模型的生成结果往往不尽人意
。
如要生成带指定文字的图片,
SD
通常会出现文字乱序
、
生成非指定文字
、
甚至是不出现文字等情况,且现有的
SD
模型缺乏更细粒度的文本语义理解能力,无法生成带精确文字的图片
。
[0004]因此,若 ...
【技术保护点】
【技术特征摘要】
1.
一种根据文字描述生成带精确文字图片的方法,其特征在于,分为训练和推理两个阶段:
(1)
训练阶段,先对图像训练样本经过
BLIP
和
OCR
分别提取图像的文本描述和图像中的文字,再将这两段文字组合后作为潜在扩散模型的文字输入;
(2)
推理阶段,潜在扩散模型的使用与文生图扩散模型一致,输入文本提示词,即可生成相应的图像
。2.
如权利要求1所述的方法,其特征在于:图像内容理解采用
BLIP
模型,通过使用
BILP
对数据集中的图像生成文本描述,作为训练模型时的提示文本输入
。3.
如权利要求1所述的方法,其特征在于:图像文本识别采用
paddle OCR
技术额外提取图像中文字信息,并与
BLIP
的输出信息进行组合,使生成模型更关注到图像中的文字信息
。4.
如权利要求1所述的方法,其特征在于:采用潜在扩散模型
LDMs
作为图像生成的基模型,根据提示词生成相应的图像;潜在扩散模型
LDMs
中,输入图像通过编码器采样编码成潜空间数据
Z
,再通过扩散过程得到一个约等于服从标准正态分布的噪声
Z
T
;
Z
T
通过
U
‑
Net
网络进行噪声预测并去噪;输入图像生成的组合文字提示的文本编码通过
cross
‑
attention
层在
U
‑
Net
中嵌入,经多次降噪后经过图像解码器还原图像,即可生成相应的图像
。5.
如权利要求1所述的方法,其特征在于:采用
transformer T5
作为文本编码器,以提取更细粒度文本语义信息,使模型拥有更好的文本语义理解能力,并为生成带精确文字图像提供基础
。6.
如权利要求1所述的方法,其特征在于:训练阶段采用低秩适应
LoRA
技术,对扩散模型
U
‑
Net
中的
cr...
【专利技术属性】
技术研发人员:施哲彬,
申请(专利权)人:上海焕泽信息技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。