当前位置: 首页 > 专利查询>浙江大学专利>正文

一种基于扩散模型的可控生成式视频插帧方法技术

技术编号:43014069 阅读:43 留言:0更新日期:2024-10-18 17:18
本发明专利技术公开了一种基于扩散模型的可控生成式视频插帧方法,包括:基于图生视频扩散模型,引入尾帧控制条件来实现视频插帧;引入基于用户拖动的轨迹控制方案,允许用户通过简单的交互实现可控插帧;在用户不提供轨迹的情况下,通过特征点匹配算法获得首尾帧帧之间关键点的匹配信息,并利用这些信息来获得时序上一致的插帧结果;利用模型中的特征之间的相似性做轨迹更新来更新点的坐标;通过检查两次最近邻算法得到更新点的一致性来确保更新点坐标的准确性。本发明专利技术方法提高了视频插帧的准确性和可控性,能够实现用户交互式的视频插帧生成,提供更全面的性能指导。

【技术实现步骤摘要】

本专利技术属于视频模型应用,具体涉及一种基于扩散模型的可控生成式视频插帧方法


技术介绍

1、在当前的多媒体技术和人工智能领域,视频处理技术的发展已经取得了显著的成就,特别是在视频插帧(video frame interpolation)方面。视频插帧是计算机视觉和视频处理领域中的一个重要任务,它的目的是从两个连续的视频帧中合成中间帧。之前的大多数方法都将视频插帧视为低级视觉任务,假设帧与帧之间的运动比较小,这些方法大致可分为基于流的方法和基于核的方法。具体来说,基于流的方法利用估计的光流进行帧合成,相比之下,基于内核的方法则依靠空间自适应内核来合成插值像素;前者可能会受到光流估计不准确的影响,而后者则往往受到内核大小的限制。为了获得两全其美的效果,一些方法结合了基于流和内核的端到端视频插帧方法。

2、最近,受大规模预训练视频扩散模型生成能力的启发,一些方法试图从生成的角度来解决视频插帧问题。例如ldm-vfi(video frame interpolation with latentdiffusion models)将视频插帧建模为条件生成问本文档来自技高网...

【技术保护点】

1.一种基于扩散模型的可控生成式视频插帧方法,包括如下步骤:

2. 根据权利要求1所述的一种基于扩散模型的可控生成式视频插帧方法,其特征在于:所述步骤(1)中的扩散模型采用SVD模型用于生成视频插帧结果,其包括变分自编码器、CLIP图像编码器、3D U-Net以及交叉注意力机制,变分自编码器用于提取视频帧的隐空间特征,CLIP图像编码器用于提取视频帧的语义特征,所述隐空间特征与带噪声的隐变量拼接后输入至3D U-Net,交叉注意力机制以语义特征作为键和值的输入,以3D U-Net的内部特征作为查询输入,交叉注意力机制的输出用于更新3D U-Net的内部特征,3D U-Net通...

【技术特征摘要】

1.一种基于扩散模型的可控生成式视频插帧方法,包括如下步骤:

2. 根据权利要求1所述的一种基于扩散模型的可控生成式视频插帧方法,其特征在于:所述步骤(1)中的扩散模型采用svd模型用于生成视频插帧结果,其包括变分自编码器、clip图像编码器、3d u-net以及交叉注意力机制,变分自编码器用于提取视频帧的隐空间特征,clip图像编码器用于提取视频帧的语义特征,所述隐空间特征与带噪声的隐变量拼接后输入至3d u-net,交叉注意力机制以语义特征作为键和值的输入,以3d u-net的内部特征作为查询输入,交叉注意力机制的输出用于更新3d u-net的内部特征,3d u-net通过多轮迭代去噪后输出得到视频插帧结果。

3. 根据权利要求2所述的一种基于扩散模型的可控生成式视频插帧方法,其特征在于:所述步骤(2)中当扩散模型的输入为首尾两帧时,将首帧和尾帧通过变分自编码器和clip图像编码器生成各自的隐空间特征和语义特征,然后将首帧和尾帧的隐空间特征与带噪声的隐变量拼接后输入至3d u-net,将首帧和尾帧的语义特征拼接后作为交叉注意力机制键和值的输入。

4. 根据权利要求2所述的一种基于扩散模型的可控生成式视频插帧方法,其特征在于:所述步骤(3)中为了方便用户交互,允许用户通过拖动方式来控制视频插帧结果,即获取拖动过程中关键点的轨迹,并将其转换成高斯热图,进而将高斯热图输入至编码模块中进行编码得到关键点轨迹的特征,再将该特征注入到扩散模型的3d u-net中。

5. 根据权利要求4所述的一种基于扩散模型的可控生成式视频插帧方法,其特征在于:引入基于用户拖动的轨迹控制之前,需获得点的轨迹控制条件用以训练扩散模型,具体地:首先在首帧中一个固定的稀疏网格周围随机初始化一些采样点,并用co-tracker去获得这些采样点在整个视频中的轨迹;在训练过程中,去除超过一半视频帧中不可见的轨迹,并在剩余轨迹中以高概率采样轨迹动作变化较大的点;在采样获得轨迹点后,只保留其中少量...

【专利技术属性】
技术研发人员:陈昊王文陈哲恺沈春华
申请(专利权)人:浙江大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1