一种高连贯性视频合成的稳定扩散模型方法技术

技术编号：41002596 阅读：2 留言：0更新日期：2024-04-18 21:40

本发明专利技术公开了一种高连贯性视频合成的稳定扩散模型方法，涉及视频合成技术领域，现提出如下方案，包括以下步骤：S1、数据输入：首先接收文本输入作为视频语义级别的内容条件，然后通过CLIP的交叉注意力机制控制基础模型和精修模型的生成，同时接收镜头、姿势和位置等作为视频细节相关的具体条件，将所有具体条件作为多个控制模型的输入；本发明专利技术保证视频的连贯性和一致性，针对高视效、高连贯性的视频，通过在精修模型更多的关注视频序列中的运动信息，从而生成更平滑和稳定的中间帧，生成更清晰和逼真的视频，有效地利用输入的条件来控制视频的内容和风格，让整体模型更加稳定和鲁棒，可靠地生成高质量的视频，有趣地生成不同的视频效果。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及视频合成，尤其涉及一种高连贯性视频合成的稳定扩散模型方法。

技术介绍

1、稳定扩散模型（stablediffusion）是一种利用在潜在空间进行加噪-去噪的扩散过程来生成高分辨率的图片的技术，它可以用文本或者图像作为条件来生成图像。虽然稳定扩散模型通过其非凡的视觉质量成功吸引了人们的注意，但它们的输出是静态图像。也就是说，缺乏时间上的自由度。考虑到动画的广泛应用，目前已经有几个基于稳定扩散模型的原理进行视频生成技术的研究，如稳定视频扩散模型（stablevideodiffusion），动画扩散方法（animatediff）等。虽然这些方法可以生成不同的风格、质量和长短的视频，并能在一定程度上对生成内容进行控制，但是这些方法依旧存在一些尚未解决的问题。

2、稳定视频扩散模型是一种专为视频生成训练的稳定扩散模型，它使用约6亿个样本的视频数据集预训练了基础模型。稳定视频扩散模型可以以每秒3到30帧之间的自定义帧速率生成14和25帧的视频。其的优点是生成的视频质量高，稳定性好。然而稳定视频扩散模型的局限性是生成的视频时长较短，最多只能生成25帧。而且生成的视频的动态效果不足，大多局限于镜头的移动，对于人物的表情和动作的控制较为不自然，背景的动态范围较小等。此外稳定视频扩散模型只能接收图片或文本作为输入，不能通过其他方式控制生成的内容，可控性较低。

3、动画扩散方法是一个无需特定调整即可使用的文本到视频的扩散模型插件。它可以与稳定扩散模型相结合来生成一段视频，然后用低秩旁路矩阵（lora）实现更多的镜

4、由此可见，稳定扩散视频生成技术是一种有前景的视频生成技术，它可以利用稳定扩散模型的强大能力来生成高分辨率的视频，但是它也存在一些共同的问题和缺点，比如生成的视频质量不稳定，视频内容连贯性差，视频内容可控性差。如何克服这些问题，实现更高质量，高可控性，高连贯性的视频生成，是目前急需解决的关键问题。

技术实现思路

1、本专利技术提出一种高连贯性视频合成的稳定扩散模型方法，以解决现有技术中的上述不足之处。

2、为了实现上述目的，本专利技术采用了如下技术方案：

3、一种高连贯性视频合成的稳定扩散模型方法，包括以下步骤：

4、s1、数据输入：首先接收文本输入作为视频语义级别的内容条件，然后通过clip和交叉注意力机制控制基础模型和精修模型的生成，同时接收镜头、姿势和位置等作为视频细节相关的具体条件，将所有具体条件作为多个控制模型的输入，然后通过交叉注意力机制控制基础模型和精修模型的生成；

5、s2、关键帧潜在变量生成：使用基础模型从条件生成一系列的关键帧潜在变量；

6、s3、视频帧潜在变量生成：使用精修模型从关键帧潜在变量以及条件生成一系列的连续视频帧潜在变量；

7、s4、视频序列输出：将视频帧潜在变量转换到像素空间，输出视频序列。

8、优选的，所述基础模型是基于潜在扩散的文生图模型（现有技术），使模型能够根据控制条件从随机的潜在变量生成具有一定连贯性的关键帧潜在变量，关键帧潜在变量具有一定的连贯性，增加分辨率和真实性。

9、优选的，所述精修模型是基于扩散的图生视频模型，它与基础模型在同一潜空间中训练，该模型能够根据所述基础模型生成的关键帧潜在变量以及内容条件和具体条件进一步从随机生成的潜在变量中生成高连贯性的视频帧潜在变量，专门针对质量好、分辨率好、流畅度好的视频数据，提高视频帧的质量和真实感。

10、优选的，所述控制模型由多个模型组成，每个模型用于控制视频生成的某个具体要素，包括但不限于视频的镜头移动、人物动作或风格滤镜。

11、优选的，所述基础模型与精修模型的视频关键帧潜在变量是通过从噪声的逆向扩散过程生成的，所述基础模型与精修模型使用与稳定扩散模型的相似的框架并从原始稳定扩散模型中继承了权重，但是额外附加了时间注意力层，所述基础模型与精修模型利用原始稳定扩散模型的预训练图像特征建模能力，得到初始化良好的特征，所述基础模型选择性地从稳定扩散模型中学习相同特征空间中相关的特征。

12、优选的，所述控制模型使用镜头、姿势或风格对生成内容进行精细化控制，所述控制模型使用零卷积去噪的u-net中引入了额外的控制特征，同时根据控制条件是否包含时间属性额外添加时间注意力层，让控制模型同时关注视频的时间与空间维度，利用扩散过程的潜在空间来实现视频之间的变形和过渡。

13、与现有的技术相比，本专利技术的有益效果是：

14、本专利技术首先可以通过文本输入控制视频语义级别的内容条件，生成符合文本语义和逻辑的视频关键帧，或者可以称呼为视频制作流程中的分镜，然后可以根据关键帧的质量进行人工的选择和确定，并且可以通过使用其他的文生图模型进行手动的替换，以此来控制视频的内容和结构并保证视频的连贯性和一致性，而不是完全依赖模型的随机性；

15、本专利技术通过在同一潜空间中训练的两个联合的稳定扩散模型：使用基础模型针对高质量、高分辨率的关键帧，并在潜在空间直接对基础模型的关键帧潜在变量进行精修处理，而不是单纯的进行补帧操作；使用精修模型可以提高视频帧的质量和真实感，针对高视效、高连贯性的视频，通过在精修模型从关键帧生成视频序列，可以更加关注视频中的运动信息，从而生成更平滑和稳定的视频；

16、本专利技术也可以通过组合多个控制模型调整视频的镜头、姿势和风格，来满足用户的期望和喜好，一个类似的设计是控制网络（controlnet），它使用深度和边缘等控制信息与目标图像在空间上对齐，而控制内容（如视频风格）与目标图像在空间上相关但不一定对齐，因此，控制网络不适合直接应用，本专利技术的控制模型根据控制条件是否包含时间属性额外添加时间注意力层，让控制模型同时关注视频的时间与空间维度，利用扩散过程的潜在空间来实现视频之间的变形和过渡，更加适应视频生成的任务，这样可以更加有效地利用输入的条件来控制视频的内容和风格，并且可以让整体模型更加稳定和鲁棒，更加可靠地生成高质量的视频，而不是产生抖动或失真的效果；

17、控制模型更加灵活并具有扩展性，因为它可以更加自由地探索视频的时间空间，而不是受限于固定的单帧图片，这样可以让更加有趣地生成不同的视频效果，比如可以生成倒放或循环的视频，或者可以生成不同的视频节奏和速度。

本文档来自技高网...

【技术保护点】

1.一种高连贯性视频合成的稳定扩散模型方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种高连贯性视频合成的稳定扩散模型方法，其特征在于，所述基础模型是基于潜在扩散的文生图模型，该模型能够根据内容条件和具体条件从随机生成的潜在变量生成具有一定连贯性的关键帧潜在变量。

3.根据权利要求1所述的一种高连贯性视频合成的稳定扩散模型方法，其特征在于，所述精修模型是基于扩散的图生视频模型，它与基础模型在同一潜空间中训练，该模型能够根据所述基础模型生成的关键帧潜在变量以及内容条件和具体条件进一步从随机生成的潜在变量中生成高连贯性的视频帧潜在变量。

4.根据权利要求1所述的一种高连贯性视频合成的稳定扩散模型方法，其特征在于，所述控制模型由多个模型组成，每个模型用于控制视频生成的某个具体要素，包括但不限于视频的镜头移动、人物动作或风格滤镜，控制模型采用了与去噪U-Net的下采样部分相同的框架。

5.根据权利要求1所述的一种高连贯性视频合成的稳定扩散模型方法，其特征在于，所述基础模型与精修模型的关键与视频帧潜在变量是通过从噪声的逆向扩散过程

6.根据权利要求1所述的一种高连贯性视频合成的稳定扩散模型方法，其特征在于，所述控制模型使用镜头、姿势或风格对生成内容进行精细化控制，所述控制模型使用零卷积去噪的U-Net中引入了额外的控制特征，同时根据控制条件是否包含时间属性额外添加时间注意力层，让控制模型同时关注视频的时间与空间维度，利用扩散过程的潜在空间来实现视频之间的变形和过渡。

...

【技术特征摘要】

1.一种高连贯性视频合成的稳定扩散模型方法，其特征在于，包括以下步骤：

4.根据权利要求1所述的一种高连贯性视频合成的稳定扩散模型方法，其特征在于，所述控制模型由多个模型组成，每个模型用于控制视频生成的某个具体要素，包括但不限于视频的镜头移动、人物动作或风格滤镜，...

【专利技术属性】
技术研发人员：齐惊，祝亮，文吾琦，李冠霖，
申请(专利权)人：武汉橡皮膜网络科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人