System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种基于扩散模型的长文本生成连续图片的方法技术_技高网
当前位置: 首页 > 专利查询>湖南大学专利>正文

一种基于扩散模型的长文本生成连续图片的方法技术

技术编号:40323324 阅读:8 留言:0更新日期:2024-02-09 14:18
本发明专利技术提供一种基于扩散模型的长文本生成连续图片的方法,包括将待处理长文本输入到文本分割器,输出包含多个句子的分割语句文本,将分割语句文本输入到故事编码器模块,将分割语句文本映射为低维嵌入向量,将低维嵌入向量输入到文本编码器模块,通过文本编码器在多个时间步的更新,输出生成图像需要的所有必要信息,依次将生成的信息和随机生成的噪声图片输入到包含ControlNet网络扩展的扩散网络模型中,输出待处理的与长文本对应的低维空间的连续图片,将低维空间的连续图片输入到变分自编码器的解码器模块,得到包含连续图片的全尺寸图像。本方法打破单句文本生成单张图片的限制,针对长短复杂文本生成相应带有逻辑性图片。该方法可以应用于自动生成儿童故事绘本,影视脚本分镜图像生成等。

【技术实现步骤摘要】

本专利技术涉及自然语言处理和计算机视觉领域,具体涉及一种基于扩散模型从一段长文本中生成对应的多张连续图片的方法。


技术介绍

1、近年来,结合图像和文本的跨模态研究越来越多地引起自然语言处理和机器视觉领域学者的关注。其中文本生成图像是多模态机器学习的任务之一。文本生成图像是指将人类以关键词或句子形式的文本描述生成符合文本语义的图像的计算方法。文本自动图像生成可以帮助艺术家或平面设计师的减轻大量工作,也可以让用户自由发挥创作空间。

2、通过自然语言描述引导图像生成一直是图像生成领域的具有良好前景的发展方向,目前该领域的研究也取得了很大的进步和成果。比如vae方法以一种统计方法进行建模最大化数据的最小可能性来生成图像,而draw方法使用了循环神经网络,并利用注意力机制,每一步关注一个生成对象,依次生成并叠加出最终结果。基于gan生成对抗网络的方法,在后期逐渐成为主流。基于扩散模型的图片生成,和其他生成网络不同的是,扩散模型在前向阶段对图像逐步施加噪声,直至图像被破坏变成完全的高斯噪声,然后在逆向阶段学习从高斯噪声还原为原始图像的过程。

3、但针对长文本中生成对应的多张连续图片的技术研究相对较少,仍然存在以下问题:

4、1.模型无法完全理解文本语义,不能很好地关联图片内容和文本,大部分模型输入是简单句,对于复杂长文本难以很好地在图片中将信息表达完善,上下文信息获取不佳。

5、2.只能根据简单句生成单张图片,对于复杂文本的理解表现欠佳。对于一段内容丰富的文本也只能生成一张图片,不能生成连续多张图片。

6、3.无法更新上下文信息以有效地捕获背景变化;无法在生成每幅图像时结合新的输入和随机噪声,以形象化字符的变化,这些变化可能会导致图像生成时发生很大的变化。

7、4.在文本生成图像过程中,无法多图像生成进行其他方面的条件约束,只能依赖文本条件进行图像生成。

8、因此本专利技术从解决以上问题入手,提出一种可以从复杂长段文本中生成一系列有逻辑性的连续图片的方法。该方法可以实际中应用在多个领域,如从儿童故事中自动生成儿童绘本,从剧本描述中自动生成镜头画面等。


技术实现思路

1、为解决现有技术中存在的上述缺陷,本专利技术的目的在于提供一种基于扩散模型的长文本生成连续图片的方法,通过对长文本的分析处理,从长段文本中生成一系列连续图片。

2、根据本专利技术的第一方面,提供一种基于扩散模型的长文本生成连续图片的方法,包括:

3、步骤10:将待处理长文本输入到文本分割器,输出包含多个句子的分割语句文本s,包括t个句子。

4、步骤20:将分割语句文本s输入到故事编码器模块,将分割语句文本s映射为低维嵌入向量h0。

5、步骤30:将低维嵌入向量h0输入到文本编码器模块,每个时间步对应处理一个句子,通过文本编码器在多个时间步的更新,在t时刻输出该时刻生成图像需要的所有必要信息ot。

6、步骤40:依次将t时刻生成的ot和随机生成的噪声图片输入到包含controlnet网络扩展的扩散网络模型中,输出待处理的与长文本对应的低维空间的连续图片xt。

7、步骤50:将低维空间的连续图片xt输入到变分自编码器的解码器模块,输出全尺寸图像xt。

8、在步骤40中,包含controlnet网络扩展的扩散网络模型包括:语言图片信息模型τθ,条件时序去噪编码器controlnet网络扩展。

9、语言图片模型τθ包含一个图片编码器和一个文字编码器,将输入的ot,进行语言图片信息转换后,输出中间表示τθ(ot)。

10、条件时序去噪编码器将输入的中间表示τθ(ot),通过多头交叉注意力机制映射到u-net主干网络,从而实现条件控制u-net主干网络,输出潜在空间内的图片信息xt1。

11、controlnet网络扩展将一组其他控制条件cf经过可训练副本模型处理得到图片信息xt2,再将输入的xt1与xt2进行组合,输出图片信息xt。

12、条件时序去噪编码器包括多头交叉注意力机制模块、u-net主干网络、采样器。

13、多头交叉注意力机制模块输入τθ(ot),根据嵌入向量得到q,k,v三个向量,再经过计算得到最终输出隐变量attention(q,k,v),其输出传入每一个残差网络模块中,并通过残差链接跳跃至后面对应的残差网络模块中,具体处理过程为:

14、

15、

16、φi(zt)是u-net主干网络的中间表示,τθ(ot)是通过语言图片转换得出的中间表示,可训练参数矩阵

17、u-net主干网络的输入是随机加噪图和噪声强度,输出是减去加噪图上所加的噪声后的图片信息xt1。u-net主干网络包括多个resnet残差网络模块;每一层残差网络模块的输入都是上一层的交叉注意力层输出的隐变量attention(q,k,v)和时间序列向量,隐变量经过卷积变换后和经过全连接投影的时间序列向量做加和,再和经过残差链接的原始隐向量做加和,再经卷积层处理得到经残差网络编码变换后的隐变量输出。

18、采样器是负责条件时序去噪编码器的正向扩散过程和反向扩散过程。

19、条件时序去噪编码器是通过正向扩散过程和反向扩散过程进行训练的,训练步骤包括:步骤401正向扩散过程,为训练过程采集训练样本数据集,步骤402反向扩散过程,训练u-net主干网络。

20、步骤401包括:收集一系列样本图像,用变分自编码器的编码器压缩至低维空间;正向扩散过程在样本图像x0上逐步增加高斯噪声,每一步得到的图像xd只和上一步的结果xd-1相关,直至第d步的图像xd变为纯高斯噪声,该过程将产生一系列噪声图像样本x1,…,xd;也就是说每一时间步的xd是从一个,以为均值,βt为方差的高斯分布中采样得到的。βd是方差,是一系列固定的值,且β1<β2<···<βd。增加高斯噪声的过程为马尔科夫过程,满足:

21、

22、

23、给定αd=1-βd,结合①②得出用以对xd进行训练样本采集。

24、q表示条件分布概率函数,即在已知x0的情况下xd的概率,其中βd是方差,其中βd∈(0,1),d∈[1,d]是一系列固定的值,i是单位矩阵,为高斯分布符号,表示条件概率服从高斯分布。

25、步骤402包括:经过正向扩散扩散过程得到的训练样本集包括:噪声强度、噪声图像样本、噪声图;训练后得到的u-net主干网络,在已知噪声强度的条件下,根据噪声图像中计算出噪声图;生成图片时,用噪声图像减掉噪声图恢复出原图;反向扩散过程的训练目标函数为:

26、

27、z0=e(x0)

28、

29、其中,z0是经过压缩编码的原始图像,zt是加噪图像,t是时间步长即加噪次数。ε是独立同分布标准正态随机变量;是目标值,是条件时序去噪自编码本文档来自技高网...

【技术保护点】

1.一种基于扩散模型的长文本生成连续图片的方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,步骤10中,文本分割器的作用在于合理切割长文本的同时,不破坏语义信息;文本分割器包括:前向LSTM层、后向LSTM层、sigmod激活函数层;

3.根据权利要求1所述的方法,其特征在于,步骤20中,故事编码器的作用是将S随机映射到一个低维的向量空间,得到的向量h0不仅包含了S全部的信息,同时还作为文本编码器隐状态的初始值;故事编码器模块包括:词向量嵌入模型;其训练过程包括:步骤201预处理文本数据集,步骤202确定训练参数,步骤203训练并优化模型参数,步骤204获取词向量表示;

4.根据权利要求1所述的方法,其特征在于,步骤30中,文本编码器模块包括两层结构:第一层是GRU单元,第二层是Text2Gist单元;文本编码器模块的处理过程为:

5.根据权利要求1所述的方法,其特征在于,步骤50中,变分自编码器包括编码器模块和解码器模块;编码器模块用于模型训练阶段,将全尺寸图像在低维潜在空间进行编码;解码器将输入的xt解码,将潜在空间的数据还原,输出全尺寸图像Xt。

6.一种计算机设备,其特征在于,包括:

7.一种计算机可读存储介质,其特征在于,存储有指令,所述指令被处理器执行时,执行权利要求1-5中任一项所述的方法。

...

【技术特征摘要】

1.一种基于扩散模型的长文本生成连续图片的方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,步骤10中,文本分割器的作用在于合理切割长文本的同时,不破坏语义信息;文本分割器包括:前向lstm层、后向lstm层、sigmod激活函数层;

3.根据权利要求1所述的方法,其特征在于,步骤20中,故事编码器的作用是将s随机映射到一个低维的向量空间,得到的向量h0不仅包含了s全部的信息,同时还作为文本编码器隐状态的初始值;故事编码器模块包括:词向量嵌入模型;其训练过程包括:步骤201预处理文本数据集,步骤202确定训练参数,步骤203训练并优化模型参数,步骤204获取...

【专利技术属性】
技术研发人员:黄尚戎周静怡
申请(专利权)人:湖南大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1