System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 基于大模型风格先验知识的风格迁移方法、计算机设备、可读存储介质和程序产品技术_技高网
当前位置: 首页 > 专利查询>浙江大学专利>正文

基于大模型风格先验知识的风格迁移方法、计算机设备、可读存储介质和程序产品技术

技术编号:41305198 阅读:4 留言:0更新日期:2024-05-13 14:50
本申请涉及一种基于大模型风格先验知识的风格迁移方法、计算机设备、可读存储介质和程序产品,风格迁移方法包括:构建编码器‑解码器结构,训练完成后用于将风格图片的艺术风格迁移至内容图片以生成风格化图片,编码器‑解码器结构的训练过程包括:将内容图片输入编码器获得内容特征,将风格图片输入编码器获得风格特征,将内容特征和风格特征输入风格化模块耦合后获得风格化特征,将风格化特征输入至解码器使解码器输出第一风格化图片;调整预训练扩散模型获得具备风格先验的艺术扩散模型,艺术扩散模型可根据第一风格化图片生成第二风格化图片,对比第一风格化图片和第二风格化图片的差异,训练编码器‑解码器结构直至达成预期。

【技术实现步骤摘要】

本申请涉及计算机视觉和深度学习领域,特别是涉及一种基于大模型风格先验知识的风格迁移方法、计算机设备、可读存储介质和程序产品


技术介绍

1、风格化是视觉和图形领域的一项重要编辑任务,它能够创造新的艺术图片。给定一个内容图片和一个风格图像,它根据风格图片的艺术风格,将风格图片和内容图片进行融合得到风格化的图片,该图片具备内容图片的内容结构和风格图片的风格信息。由于目前小模型的方法仅使用有限的参数和数据量,往往无法生成高质量的风格化图片(例如伪影和不和谐的色块)。基于大模型的方法尽管能够生成高质量的风格化图片,但是无法保持内容图片的内容结构,并且需要大量的推理时间。

2、最近,风格迁移已经取得了一定的发展。对于基于小模型的风格迁移方法:最常用的做法是利用交叉注意力融合内容图片和风格图片,另外,也有方法利用transformer从风格图片中学习全局的风格信息,并利用风格图片中风格块的重复性来改善风格迁移的质量。对于基于大模型的风格迁移方法,最经典的做法是利用文本间的编辑方向来控制扩散模型生成想要的图片,也有方法利用风格样例引导的方法进行风格迁移。

3、然而,尽管这些风格都一定程度上促进了风格迁移的发展,但是在某种程度上仍然无法在生成图片质量和推理时间上进行很好的协调。


技术实现思路

1、基于此,有必要针对上述技术问题,提供一种基于大模型风格先验知识的风格迁移方法。

2、本申请基于大模型风格先验知识的风格迁移方法,包括:构建包括编码器、风格化模块和解码器的编码器-解码器结构,所述编码器-解码器结构在训练完成后用于将所述风格图片的艺术风格迁移至内容图片以生成风格化图片,所述编码器-解码器结构的训练过程包括:

3、将所述内容图片输入所述编码器获得内容特征,将所述风格图片输入所述编码器获得风格特征,将所述内容特征和所述风格特征输入所述风格化模块耦合后获得风格化特征,将所述风格化特征输入至所述解码器使所述解码器输出第一风格化图片;

4、调整预训练扩散模型获得具备风格先验的艺术扩散模型,所述艺术扩散模型可根据所述第一风格化图片生成第二风格化图片,对比所述第一风格化图片和所述第二风格化图片的差异,训练所述编码器-解码器结构直至达成预期。

5、可选的,将所述内容特征和所述风格特征输入所述风格化模块耦合后获得风格化特征,具体包括:

6、将所述内容特征和所述风格特征输入所述风格化模块;

7、对应所述内容特征和所述风格特征的位置,获得基于全局的交叉注意力图;

8、将所述交叉注意力图与相应位置的所述风格特征相乘,获得所述风格化特征。

9、可选的,将所述内容特征和所述风格特征输入所述风格化模块耦合后获得风格化特征,具体包括:

10、将所述内容特征和所述风格特征输入所述风格化模块;

11、将所述内容特征和所述风格特征均相应地划分为多个子区域,对于任一所述子区域的所述内容特征,寻找与该内容特征所在子区域相似的风格特征子区域,并根据相似度调整各所述风格特征子区域的相对位置;

12、对应所述内容特征和所述风格特征二者各子区域的相对位置,获得基于子区域的交叉注意力图;

13、将所述交叉注意力图与相应位置的所述风格特征相乘,获得所述风格化特征。

14、可选的,将所述内容特征和所述风格特征均相应地划分为多个子区域,具体包括:

15、将所述内容特征和所述风格特征均相应地划分为彼此不重叠的多个子区域。

16、可选的,将所述内容特征和所述风格特征输入所述风格化模块耦合后获得风格化特征,包括:

17、将所述内容特征和所述风格特征输入所述风格化模块;

18、对应所述内容特征和所述风格特征的位置,获得基于全局的交叉注意力图;

19、将所述内容特征和所述风格特征均相应地划分为多个子区域,对于任一所述子区域的所述内容特征,寻找与该内容特征所在子区域相似的风格特征子区域,并根据相似度调整各所述风格特征子区域的相对位置,对应所述内容特征和所述风格特征二者各子区域的相对位置,获得基于子区域的交叉注意力图;

20、将基于子区域的交叉注意力图与基于全局的交叉注意力图累加后,获得交叉注意力结果图,将交叉注意力结果图与相应位置的所述风格特征相乘,获得所述风格化特征。

21、可选的,调整预训练扩散模型获得具备风格先验的艺术扩散模型,具体包括:

22、将风格图片数据集中的风格图片,输入所述预训练扩散模型,进行加噪和去噪处理;

23、在所述去噪处理过程中,利用所述风格图片与所述预训练扩散模型中的unet网络进行交叉注意图计算,并解冻其中的内容属性;

24、训练所述预训练扩散模型直至达成预期,获得具备风格先验的艺术扩散模型。

25、可选的,根据所述第一风格化图片生成第二风格化图片,具体包括:将所述第一风格化图片输入所述艺术扩散模型,进行加噪和去噪处理,获得所述第二风格化图片。

26、本申请还提供一种计算机设备,包括存储器、处理器及存储在存储器上的计算机程序,所述处理器执行所述计算机程序以实现本申请所述的基于大模型风格先验知识的风格迁移方法的步骤。

27、本申请还提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现本申请所述的基于大模型风格先验知识的风格迁移方法的步骤。

28、本申请还提供一种计算机程序产品,包括计算机指令,该计算机指令被处理器执行时实现本申请所述的基于大模型风格先验知识的风格迁移方法的步骤。

29、本申请基于大模型风格先验知识的风格迁移方法至少具有以下效果:

30、本申请采用带有风格先验的风格迁移方法,用于实现生成高质量的风格化图片,避免引入伪影和不和谐的色块。本申请利用风格化模块融合风格特征和内容特征,以使编码器输出第一风格化图片。

31、本申请风格化模块利用第一风格化图片和第二风格化图片进行训练,训练完成后艺术扩散模型退出使用,使风格迁移方法兼顾了高质量的风格化图片生成和推理时间。

32、本申请可利用大量的艺术风格图片调整现有的基于自然图像的预训练扩散模型获得艺术扩散模型,使获得艺术扩散模型拥有海量的风格先验。该艺术扩散模型作为大模型,通过第一风格化图片和第二风格化图片将艺术扩散模型的知识提取到小模型中,使小模型生成高质量的风格化图片。

33、本申请能够将一个风格图像的风格迁移到任意的内容图像中,在迁移的同时保持内容图片的内容。

本文档来自技高网...

【技术保护点】

1.基于大模型风格先验知识的风格迁移方法,包括:构建包括编码器、风格化模块和解码器的编码器-解码器结构,所述编码器-解码器结构在训练完成后用于将风格图片的艺术风格迁移至内容图片以生成风格化图片,其特征在于,所述编码器-解码器结构的训练过程包括:

2.如权利要求1所述的风格迁移方法,其特征在于,将所述内容特征和所述风格特征输入所述风格化模块耦合后获得风格化特征,具体包括:

3.如权利要求1所述的风格迁移方法,其特征在于,将所述内容特征和所述风格特征输入所述风格化模块耦合后获得风格化特征,具体包括:

4.如权利要求3所述的风格迁移方法,其特征在于,将所述内容特征和所述风格特征均相应地划分为多个子区域,具体包括:

5.如权利要求1所述的风格迁移方法,其特征在于,将所述内容特征和所述风格特征输入所述风格化模块耦合后获得风格化特征,包括:

6.如权利要求1所述的风格迁移方法,其特征在于,调整预训练扩散模型获得具备风格先验的艺术扩散模型,具体包括:

7.如权利要求1所述的风格迁移方法,其特征在于,根据所述第一风格化图片生成第二风格化图片,具体包括:将所述第一风格化图片输入所述艺术扩散模型,进行加噪和去噪处理,获得所述第二风格化图片。

8.计算机设备,包括存储器、处理器及存储在存储器上的计算机程序,其特征在于,所述处理器执行所述计算机程序以实现如权利要求1~7任一项基于大模型风格先验知识的风格迁移方法的步骤。

9.计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时实现如权利要求1~7任一项基于大模型风格先验知识的风格迁移方法的步骤。

10.计算机程序产品,包括计算机指令,其特征在于,该计算机指令被处理器执行时实现如权利要求1~7任一项所述的基于大模型风格先验知识的风格迁移方法的步骤。

...

【技术特征摘要】

1.基于大模型风格先验知识的风格迁移方法,包括:构建包括编码器、风格化模块和解码器的编码器-解码器结构,所述编码器-解码器结构在训练完成后用于将风格图片的艺术风格迁移至内容图片以生成风格化图片,其特征在于,所述编码器-解码器结构的训练过程包括:

2.如权利要求1所述的风格迁移方法,其特征在于,将所述内容特征和所述风格特征输入所述风格化模块耦合后获得风格化特征,具体包括:

3.如权利要求1所述的风格迁移方法,其特征在于,将所述内容特征和所述风格特征输入所述风格化模块耦合后获得风格化特征,具体包括:

4.如权利要求3所述的风格迁移方法,其特征在于,将所述内容特征和所述风格特征均相应地划分为多个子区域,具体包括:

5.如权利要求1所述的风格迁移方法,其特征在于,将所述内容特征和所述风格特征输入所述风格化模块耦合后获得风格化特征,包括:

6.如权利要求1...

【专利技术属性】
技术研发人员:赵磊蓝泽铧张占杰饶晨李光远孙嘉锴尹浩霖莫俊程马骋张权威王永康陈嘉芙褚天易邢卫林怀忠
申请(专利权)人:浙江大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1