一种基于扩散模型的零样本视频编辑方法技术

技术编号：41353108 阅读：18 留言：0更新日期：2024-05-20 10:05

本发明专利技术公开了一种基于扩散模型的零样本视频编辑方法，该方法中将待编辑视频经过扩散模型中的自编码器进行编码得到初始值并将该初始值通过空文本反演得到其所对应的初始噪声以及空文本特征；将所述扩散模型中的自注意力模块的前向替换为包括ST时序模块和SC时序模块的时序注意力模块，并修改所述扩散模型中的交叉注意力层的前向过程，以使得交叉注意力层能够得到原始文本描述特征与当前图像计算得到的每个token所对应的注意力图；将所述空文本特征分别与所述原始描述特征、目标文本描述特征按照Batch维度拼接，将拼接得到的特征分别送入扩散模型中，基于所述初始噪声进行视频的生成，并基于所述位置序列得到编辑后的视频。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于计算机视觉与模式识别，尤其涉及一种基于扩散模型的零样本视频编辑方法。

技术介绍

1、文生图模型例如dall·e2，imagen和stable diffusion能够生成具有复杂对象和场景的前所未有的多样化和逼真的图像，开启了图像生成的新时代。作为一项重要的应用，基于预训练扩散模型的图像编辑也取得了重大进展，这些方法可以允许用户通过简单的文本描述提示对输入图像进行编辑，并与目标描述相符合的同时与原始图像有很高的保真度。目前并没有很成功的将这种成功扩展到视频编辑领域：给定输入的视频和文本提示，要求文本驱动视频编辑算法输出编辑后的视频，该编辑后的视频应该满足(1)文本与视频对齐：生成的编辑后的视频应该与文本提示的描述对齐；(2)忠实于原视频：编辑后的视频的每一帧在内容上应该与原视频的相应帧保持一致；(3)质量：生成的视频要保持时序一致并且质量要高。

2、借鉴文本到图像扩散模型的成功，一种办法是在大规模视频数据集上预训练的视频扩散模型之上构建视频编辑算法(molad e,horwitz e,valevski d,et al.dreamix本文档来自技高网...

【技术保护点】

1.一种基于扩散模型的零样本视频编辑方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，步骤S4中，在DDIM反演时引导系数w＝1，输出为各时刻的噪声其中DDIM采样时，引导系数为w＝7.5，初始化第T时间步的噪声对时间步t＝T,…,1，执行以下优化：

3.根据权利要求1所述的方法，其特征在于，步骤S5中，将所述扩散模型中的自注意力模块的前向替换为包括ST时序模块和SC时序模块的时序注意力模块；

4.根据权利要求1所述的方法，其特征在于，所述ST时序模块中：

5.根据权利要求1所述的方法，其特征在于，所述SC时序模块中，计算...

【技术特征摘要】

1.一种基于扩散模型的零样本视频编辑方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，步骤s4中，在ddim反演时引导系数w＝1，输出为各时刻的噪声其中ddim采样时，引导系数为w＝7.5，初始化第t时间步的噪声对时间步t＝t,…,1，执行以下优化：

3.根据权利要求1所述的方法，其特征在于，步骤s5中，将所述扩散模型中的自注意力模块的前向替换为包括st时序模块和sc时序模块的时序注意力模块；

4.根据权利要求1所述的方...

【专利技术属性】
技术研发人员：刘自得，
申请(专利权)人：浙江大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人