一种基于图像扩散模型的视频补帧方法技术

技术编号：40831505 阅读：4 留言：0更新日期：2024-04-01 14:54

本发明专利技术涉及一种基于图像扩散模型的视频补帧方法，方法包括：S1、获取低帧率视频，进行除噪扩散隐式模型反演，得到第一噪声隐编码，进行线性插值，得到第二噪声隐编码；S2、将第二噪声隐编码输入扩散模型，通过最近邻搜索计算得到最近邻域，然后按照T到1的顺序在每个时间步中执行S3和S4；S3、将时间步t的第一噪声隐编码输入扩展注意力模块提取关键帧特征；S4、基于帧间特征关联性将关键帧特征在第二噪声隐编码中传播，将时间步t的第二噪声隐编码输入扩散模型，以传播结果作为引导条件进行去噪；S5、在每个时间步中执行S3和S4后，输出补帧后视频。与现有技术相比，本发明专利技术具有提高补帧视频的流畅度等优点。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及视频补帧的，尤其是涉及一种基于图像扩散模型的视频补帧方法。

技术介绍

1、随着移动设备的广泛应用，用户拍摄的低质量低帧率视频数据越来越多。同时，现存的户外计算机视觉系统的图像传感器往往难以支持高帧率的视频拍摄，需要通过算法对采集的低帧率视频进行补帧。低帧率视频在播放时会产生运动不流畅的问题。出于改善观感、提升计算机视觉系统性能等目的，需要采取一定的处理方案对低帧率视频进行补帧。视频补帧的目标是在原有的视频帧之间增加新的合成帧，使播放更加流畅。目前的视频补帧技术主要基于运动评估和运动补偿，即首先评估连续帧之间的运动信息，然后根据运动向量进行补帧。但是这类方法对低质量低帧率的视频效果并不理想，容易造成模糊和伪影。

2、另一方面，近年探索使用深度学习进行视频补帧的研究日益增多，如基于内容感知补帧、使用生成对抗网络合成新帧等。但许多这类方法需要消耗大量数据和时间进行网络训练，生成的视频存在帧间不连续性导致的卡顿和抖动现象，并且易受复杂动态的影响，鲁棒性不高，无法快速生成高质量、流畅自然的补帧视频。

技术实现思路

1、本专利技术的目的就是为了提高补帧视频的流畅度，减少卡顿和抖动现象而提供的一种基于图像扩散模型的视频补帧方法。

2、本专利技术的目的可以通过以下技术方案来实现：

3、一种基于图像扩散模型的视频补帧方法，方法包括：

4、s1、获取原始的低帧率视频，对低帧率视频的每一帧进行除噪扩散隐式模型反演，得到每一帧对应的第一噪声隐编

5、s2、对第二噪声隐编码中每个时间步所有帧的隐变量输入扩散模型，扩散模型的自注意力模块提取出第二噪声隐编码的每个时间步每个帧的特征，通过最近邻搜索计算得到最近邻域，然后按照t到1的顺序在每个时间步中执行s3和s4；

6、s3、将时间步t的第一噪声隐编码输入扩展注意力模块提取关键帧特征；

7、s4、基于最近邻域计算帧间特征关联性，基于帧间特征关联性将关键帧特征在第二噪声隐编码中传播，将时间步t的第二噪声隐编码输入扩散模型，以传播结果作为引导条件进行去噪；

8、s5、在每个时间步中执行s3和s4后，输出补帧后视频。

9、进一步地，s1的步骤为：

10、获取原始的低帧率视频i＝[i1,…,in]，i表示低帧率视频中的一帧，设为时间步t第i帧的隐变量，对低帧率视频的每一帧进行除噪扩散隐式模型反演，得到第一噪声隐编码将第一噪声隐编码对应的帧记为关键帧，对第一噪声隐编码进行线性插值，得到第二噪声隐编码其中n是目标帧数，将第二噪声隐编码记为x，将第二噪声隐编码中的

11、

12、记为xt，

13、将第二噪声隐编码中的

14、

15、记为xi。

16、进一步地，进行除噪扩散隐式模型反演后，第一噪声隐编码的时间步t第i帧的隐变量为：

17、

18、其中，第一噪声隐编码的第i帧的初始隐变量为第i原始帧，即高斯噪音∈～n(0,i)，超参数是一系列高斯噪音的方差，t是时间步总数。

19、进一步地，第二噪声隐编码中时间步t第j帧的隐变量为：

20、

21、其中，j∈(i,i+1)为浮点数索引，λ＝j-1是插值系数，是插值后的第二噪声隐编码。

22、进一步地，s2的步骤为：

23、对第二噪声隐编码中每个时间步所有帧的隐变量输入扩散模型，扩散模型的自注意力模块提取出第二噪声隐编码的每个时间步所有帧的特征的集合记为φ(λ)，φ(x)中每个时间步t，第i帧的特征为记的相邻两帧对应的特征为和i+代表距离最近的下一帧索引，i-代表最近的上一帧索引，基于最近邻搜索计算出最近邻域γi+和γi-。

24、进一步地，最近邻域γi+和γi-为：

25、γi±[p]＝argqmind(φ(xi)[p],φ(xi±)[q])

26、其中p，q为特征图中的空间位置，d是余弦距离。

27、进一步地，s3的步骤为：

28、从浮点数索引中选择关键帧索引，组成关键帧索引集合k，记为从时间步t的第二噪声隐编码中选取帧数索引在k中的元素组成的张量，也就是时间步t的第一噪声隐编码，将时间步t的第一噪声隐编码输入扩展注意力模块提取关键帧特征φ(xk)。

29、进一步地，基于最近邻域计算帧间特征关联性的具体步骤为：

30、线性组合φ(xk)中对应每个空间位置p和帧数i的特征，得到帧间特征关联性fγ。

31、进一步地，帧间特征关联性为：

32、fγ(φ(xk),i,p)＝wi·φ(ji+)[γi+[p]]+(1-wi)·φ(ji-)[γi-[p]]

33、其中，φ(ji±)∈φ(xk),wi∈(0,1)是与第i帧和其邻接关键帧距离成正比的标量。

34、进一步地，补帧后视频为：其中，

35、

36、其中，表示扩散模型，tokenflow表示关键帧特征在第二噪声隐编码中传播的过程，jt-1表示根据时间步t的第二噪声隐编码去噪得到的时间步t-1的图像，补帧后视频基于帧间特征关联性引导后由扩散模型输出。

37、与现有技术相比，本专利技术具有以下有益效果：

38、(1)本专利技术对输入低帧率视频进行除噪扩散隐式模型反演，获取每一帧对应的噪声隐编码图像并插值补帧。除噪扩散隐式模型反演将原视频图像从像素空间编码到隐变量空间，同时逐步叠加高斯噪声，直至图像隐编码完全服从标准高斯分布。接着对噪声隐编码进行线性插值，以补全至期望的帧数，原有的噪声隐编码记为关键帧。相比现有视频编辑方法通常直接在像素空间进行帧间处理，操作隐编码空间中的噪声图像极大减小了计算复杂度，提高生成补帧视频的速度，并且对隐变量特征的显式操作有利于保持生成结果的一致性。

39、(2)本专利技术根据预计算的帧间特征关联性，也就是最近邻域，在隐空间内传播关键帧特征，使全部帧的特征保持冗余性和一致性，显式进行特征传播可以大幅提升补帧视频的一致性，强制这些特征与原视频的特征传递相同的帧间关联性和信息冗余性，从而保持补帧后视频的时间连贯性与帧间一致性。传统基于生成模型的视频编辑方法难以明确鼓励生成结果的时序一致性，容易造成卡顿和抖动现象，本专利技术通过传播噪声隐变量图像在隐空间的特征，充分利用了相邻帧中的冗余信息，显著提升了一致性，减少了卡顿和抖动的问题。

40、(3)本专利技术将视频图像从像素空间编码至隐空间，极大减小了计算复杂度。现有视频编辑方法通常直接在像素空间进行帧间处理，面对较高分辨率的图像输入时往往需要消耗大量计算资源，且因为视频的帧间信息冗余性，对像素特征直接进行计算容易造成很大程度的算力浪费。本专利技术采用在隐空间中操纵图像特征的方案，避免了直接在像素空间的计算，从而降本文档来自技高网...

【技术保护点】

1.一种基于图像扩散模型的视频补帧方法，其特征在于，方法包括：

2.根据权利要求1所述的一种基于图像扩散模型的视频补帧方法，其特征在于，S1的步骤为：

3.根据权利要求2所述的一种基于图像扩散模型的视频补帧方法，其特征在于，进行除噪扩散隐式模型反演后，第一噪声隐编码的时间步t第i帧的隐变量为：

4.根据权利要求3所述的一种基于图像扩散模型的视频补帧方法，其特征在于，第二噪声隐编码中时间步t第j帧的隐变量为：

5.根据权利要求2所述的一种基于图像扩散模型的视频补帧方法，其特征在于，S2的步骤为：

6.根据权利要求5所述的一种基于图像扩散模型的视频补帧方法，其特征在于，最近邻域γi+和γi-为：

7.根据权利要求6所述的一种基于图像扩散模型的视频补帧方法，其特征在于，S3的步骤为：

8.根据权利要求7所述的一种基于图像扩散模型的视频补帧方法，其特征在于，基于最近邻域计算帧间特征关联性的具体步骤为：

9.根据权利要求8所述的一种基于图像扩散模型的视频补帧方法，其特征在于，帧间特征关联性为：</p>

10.根据权利要求9所述的一种基于图像扩散模型的视频补帧方法，其特征在于，补帧后视频为：其中，

...

【技术特征摘要】

1.一种基于图像扩散模型的视频补帧方法，其特征在于，方法包括：

2.根据权利要求1所述的一种基于图像扩散模型的视频补帧方法，其特征在于，s1的步骤为：

4.根据权利要求3所述的一种基于图像扩散模型的视频补帧方法，其特征在于，第二噪声隐编码中时间步t第j帧的隐变量为：

5.根据权利要求2所述的一种基于图像扩散模型的视频补帧方法，其特征在于，s2的步骤为：

【专利技术属性】
技术研发人员：卢嘉霖，邓浩，韩嘉睿，莫益萌，宋子阳，
申请(专利权)人：同济大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人