基于掩码机制和模型微调的多镜头视频生成方法技术

技术编号：45531804 阅读：28 留言：0更新日期：2025-06-13 17:31

本发明专利技术提供一种基于掩码机制和模型微调的多镜头视频生成方法，包括：基于构建的基础视频扩散模型生成的范式，对多镜头视频生成的案例进行分析，得到注意力层的注意力分布与转场控制的内在联系；根据内在联系构建掩码矩阵，将掩码矩阵作用于基础视频扩散模型的注意力模块中；根据获取的原始人工剪辑视频构建多镜头视频数据集；通过多镜头视频数据集对基础视频扩散模型进行微调，得到标准视频扩散模型；通过标准视频扩散模型生成精确控制转场的多镜头视频。本发明专利技术的方法生成多镜头视频的自动化程度更高，提高了视频生成效率，且生成的多镜头视频与给定的文本和转场点保持高度一致。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及计算机视觉，尤其涉及一种基于掩码机制和模型微调的多镜头视频生成方法。

技术介绍

1、随着扩散模型在文本到图像生成领域的成功，有许多研究尝试将扩散模型用在视频生成领域，通过加大模型规模和利用大规模数据集，能够生成高质量、时间长的视频，得益于大规模训练，这部分方法对语义的深入理解使它们在一定程度上可以根据指定的文本生成带有转场的多镜头视频，但这种效果并不稳定，转场发生往往不可控，也不能实现精确到帧级别的控制。多镜头故事级视频生成采用的方法可以概括为同一个范式，即分别生成每一个镜头，再进行串联，这些方法尽管可以确保多镜头的生成，但需要分别生成每个镜头，并且没有利用实际人工编辑过的视频，因此生成的视频并不符合人工剪辑的风格，且耗时较长。现有的多数视频-文本数据集的处理流程都没有将多镜头视频考虑进来，而是只取单镜头，少部分针对多镜头视频进行过设计的方法则未能兼顾细粒度镜头标注和视频质量。

2、因此，现有技术主要存在以下缺点：多镜头视频的转场不可控，即转场的发生和发生的具体位置都难以控制，具体来说，对于直接使用扩散模型生成...

【技术保护点】

1.一种基于掩码机制和模型微调的多镜头视频生成方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述转场控制的内在联系包括镜头内关联性和镜头间关联性。

3.根据权利要求1所述的方法，其特征在于，所述掩码矩阵表示为：

4.根据权利要求3所述的方法，其特征在于，所述掩码矩阵作用于所述基础视频扩散模型的注意力模块的注意力运算表示为：

5.根据权利要求1所述的方法，其特征在于，所述根据获取的原始人工剪辑视频构建多镜头视频数据集，包括：

6.根据权利要求5所述的方法，其特征在于，所述对获取的原始人工剪辑视频依次进行切分、...

【技术特征摘要】

1.一种基于掩码机制和模型微调的多镜头视频生成方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述转场控制的内在联系包括镜头内关联性和镜头间关联性。

3.根据权利要求1所述的方法，其特征在于，所述掩码矩阵表示为：

4.根据权利要求3所述的方法，其特征在于，所述掩码矩阵作用于所述基础视频扩散模型的注意力模块的注意力运算表示为：

5.根据权利要求1所述的方法，其特征在于，所述根据获取的原始人工剪辑视频构建多镜头视频数据集，包括：

6.根据权利要求5所述的方法，其特征在于，所述对获取的原始人工剪辑视频依次进行切分、缝合、筛选、去除渐变转场及文本标注的数据预处理，包括：

...

【专利技术属性】
技术研发人员：吴晓雪，陈昕苑，高炳杰，王耀晖，乔宇，
申请(专利权)人：上海人工智能创新中心，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人