【技术实现步骤摘要】
本专利技术属于计算机视觉与模式识别,尤其涉及一种基于扩散模型的零样本视频编辑方法。
技术介绍
1、文生图模型例如dall·e2,imagen和stable diffusion能够生成具有复杂对象和场景的前所未有的多样化和逼真的图像,开启了图像生成的新时代。作为一项重要的应用,基于预训练扩散模型的图像编辑也取得了重大进展,这些方法可以允许用户通过简单的文本描述提示对输入图像进行编辑,并与目标描述相符合的同时与原始图像有很高的保真度。目前并没有很成功的将这种成功扩展到视频编辑领域:给定输入的视频和文本提示,要求文本驱动视频编辑算法输出编辑后的视频,该编辑后的视频应该满足(1)文本与视频对齐:生成的编辑后的视频应该与文本提示的描述对齐;(2)忠实于原视频:编辑后的视频的每一帧在内容上应该与原视频的相应帧保持一致;(3)质量:生成的视频要保持时序一致并且质量要高。
2、借鉴文本到图像扩散模型的成功,一种办法是在大规模视频数据集上预训练的视频扩散模型之上构建视频编辑算法(molad e,horwitz e,valevski d,et
...【技术保护点】
1.一种基于扩散模型的零样本视频编辑方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,步骤S4中,在DDIM反演时引导系数w=1,输出为各时刻的噪声其中DDIM采样时,引导系数为w=7.5,初始化第T时间步的噪声对时间步t=T,…,1,执行以下优化:
3.根据权利要求1所述的方法,其特征在于,步骤S5中,将所述扩散模型中的自注意力模块的前向替换为包括ST时序模块和SC时序模块的时序注意力模块;
4.根据权利要求1所述的方法,其特征在于,所述ST时序模块中:
5.根据权利要求1所述的方法,其特征在于,所述
...【技术特征摘要】
1.一种基于扩散模型的零样本视频编辑方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,步骤s4中,在ddim反演时引导系数w=1,输出为各时刻的噪声其中ddim采样时,引导系数为w=7.5,初始化第t时间步的噪声对时间步t=t,…,1,执行以下优化:
3.根据权利要求1所述的方法,其特征在于,步骤s5中,将所述扩散模型中的自注意力模块的前向替换为包括st时序模块和sc时序模块的时序注意力模块;
4.根据权利要求1所述的方...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。