基于扩散模型的视频填充方法、装置、设备及存储介质制造方法及图纸

技术编号：39992084 阅读：6 留言：0更新日期：2024-01-09 02:23

本发明专利技术提供一种基于扩散模型的视频填充方法、装置、设备及存储介质，涉及人工智能技术领域，该方法包括：获取训练好的扩散模型；训练好的扩散模型中的U型网络模型包括第一编码器、第一中间层和解码器；第一编码器和解码器中的注意力模块均为时空注意力模块；时空注意力模块的注意力计算维度包括通道维度、宽度维度和高度维度，通道维度为通道数和帧数的乘积所表示的维度；将待填充的视频帧序列输入至训练好的扩散模型中进行视频填充，得到目标视频帧序列。本发明专利技术可以提升目标视频帧序列的帧间一致性。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及人工智能，尤其涉及一种基于扩散模型的视频填充方法、装置、设备及存储介质。

技术介绍

1、视频填充任务指的是根据给定视频序列中的几帧图像，重构出完整的视频序列。视频填充技术具有广阔的应用前景，例如，在自动驾驶领域，视频预测模型对目标未来状态的精确预测，能够使智能体在决策过程中做出更迅速、更明智的判断。

2、目前，现有的视频填充方案中，将视频表示为b×cf×h×w四维数据，且使用二维卷积替换三维卷积；其中，b表示批量大小，c表示通道数，f表示帧数，h表示高度，w表示宽度。虽然该方案可以极大地减少视频生成的时间，但是由于该方案中注意力模块使用的是空间注意力模块，且空间注意力模块的注意力计算维度仅包括宽度维度和高度维度，会导致生成的完整视频序列的帧间一致性较差。

技术实现思路

1、本专利技术提供一种基于扩散模型的视频填充方法、装置、设备及存储介质，用以解决现有技术中生成的完整视频序列的帧间一致性较差的缺陷，实现提升目标视频帧序列的帧间一致性的目的。

2、本专利技术提供一种基于扩散模型的视频填充方法，包括：

3、获取训练好的扩散模型；所述训练好的扩散模型中的u型网络模型包括第一编码器、第一中间层和解码器；所述第一编码器和所述解码器中的注意力模块均为时空注意力模块；所述时空注意力模块的注意力计算维度包括通道维度、宽度维度和高度维度，所述通道维度为通道数和帧数的乘积所表示的维度；

4、将待填充的视频帧序列输入至所述训练好的扩散模型中进

5、根据本专利技术提供的一种基于扩散模型的视频填充方法，所述扩散模型还包括序列编码器，所述第一中间层中的注意力模块为交叉注意力模块；在所述视频填充的过程中，所述方法还包括：

6、将上一时刻预测得到的视频序列的全部输出编码作为全局特征输入所述序列编码器中进行编码，得到特征图；

7、将所述特征图输入所述交叉注意力模块中，并以上一时刻预测得到的视频序列中末尾抽取的至少一个视频帧作为局部条件帧，预测下一时刻的视频序列。

8、根据本专利技术提供的一种基于扩散模型的视频填充方法，所述训练好的扩散模型是基于如下步骤训练得到的：

9、将样本集中的初始视频帧输入所述扩散模型的前向过程的加噪公式中逐渐添加高斯噪声，得到带有噪声的视频帧序列；

10、将所述带有噪声的视频帧序列输入所述u型网络模型中，以上一时刻预测得到的视频序列中末尾抽取的至少一个视频帧作为局部条件帧，预测下一时刻的视频序列，直至递归预测过程结束，得到所述带有噪声的视频帧序列的估计值；

11、基于所述带有噪声的视频帧序列的估计值和所述带有噪声的视频帧序列计算损失，并基于所述损失调整所述u型网络模型的参数。

12、根据本专利技术提供的一种基于扩散模型的视频填充方法，所述训练好的扩散模型是基于如下步骤训练得到的：

13、将样本集中的初始视频帧输入所述扩散模型的前向过程的加噪公式中逐渐添加高斯噪声，得到带有噪声的视频帧序列；

14、将所述带有噪声的视频帧序列输入所述u型网络模型中，以所述带有噪声的视频帧序列中的真值序列中抽取的至少一个视频帧作为局部条件帧，预测得到第一训练阶段的视频序列；

15、以上一时刻预测得到的视频序列中末尾抽取的至少一个视频帧作为局部条件帧，预测下一时刻的视频序列，直至递归预测过程结束，得到第二训练阶段的视频序列，作为所述带有噪声的视频帧序列的估计值；

16、基于所述带有噪声的视频帧序列的估计值和所述带有噪声的视频帧序列计算损失，并基于所述损失调整所述u型网络模型的参数。

17、根据本专利技术提供的一种基于扩散模型的视频填充方法，所述方法还包括：

18、在从所述带有噪声的视频帧序列中的真值序列中随机抽取至少一个视频帧作为局部条件帧之后，在所述通道维度上并置所述局部条件帧的位置编码；所述位置编码为与所述局部条件帧尺寸相同的单通道张量，所述单通道张量中的每个元素为所述局部条件帧在所述带有噪声的视频帧序列中的索引值。

19、根据本专利技术提供的一种基于扩散模型的视频填充方法，所述第一编码器和所述解码器均包括两个第一残差块和两个所述时空注意力模块，所述第一中间层包括一个第二残差块和一个所述交叉注意力模块。

20、根据本专利技术提供的一种基于扩散模型的视频填充方法，所述序列编码器包括第二编码器和第二中间层，所述第二编码器包括两个第三残差块和两个第一注意力模块，所述第二中间层包括一个第四残差块和一个第二注意力模块。

21、本专利技术还提供一种基于扩散模型的视频填充装置，包括：

22、获取模块，用于获取训练好的扩散模型；所述训练好的扩散模型中的u型网络模型包括编码器、中间层和解码器；所述编码器和所述解码器中的注意力模块均为时空注意力模块；所述时空注意力模块的注意力计算维度包括通道维度、宽度维度和高度维度，所述通道维度为通道数和帧数的乘积所表示的维度；

23、填充模块，用于将待填充的视频帧序列输入至所述训练好的扩散模型中进行视频填充，得到目标视频帧序列。

24、本专利技术还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述的基于扩散模型的视频填充方法。

25、本专利技术还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述的基于扩散模型的视频填充方法。

26、本专利技术还提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现如上述任一种所述的基于扩散模型的视频填充方法。

27、本专利技术提供的基于扩散模型的视频填充方法、装置、设备及存储介质，首先，获取训练好的扩散模型；训练好的扩散模型中的u型网络模型包括第一编码器、第一中间层和解码器；第一编码器和解码器中的注意力模块均为时空注意力模块；时空注意力模块的注意力计算维度包括通道维度、宽度维度和高度维度，通道维度为通道数和帧数的乘积所表示的维度；将待填充的视频帧序列输入至训练好的扩散模型中进行视频填充，得到目标视频帧序列。由于第一编码器和解码器中的注意力模块均为时空注意力模块，可以生成内容连贯的视频序列；且时空注意力模块的注意力计算维度还包括通道维度，可以让时空注意力模块考虑不同帧之间的关系，从而提升目标视频帧序列的帧间一致性。

本文档来自技高网...

【技术保护点】

1.一种基于扩散模型的视频填充方法，其特征在于，包括：

2.根据权利要求1所述的基于扩散模型的视频填充方法，其特征在于，所述扩散模型还包括序列编码器，所述第一中间层中的注意力模块为交叉注意力模块；在所述视频填充的过程中，所述方法还包括：

3.根据权利要求2所述的基于扩散模型的视频填充方法，其特征在于，所述训练好的扩散模型是基于如下步骤训练得到的：

4.根据权利要求2所述的基于扩散模型的视频填充方法，其特征在于，所述训练好的扩散模型是基于如下步骤训练得到的：

5.根据权利要求3或4所述的基于扩散模型的视频填充方法，其特征在于，所述方法还包括：

6.根据权利要求2所述的基于扩散模型的视频填充方法，其特征在于，所述第一编码器和所述解码器均包括两个第一残差块和两个所述时空注意力模块，所述第一中间层包括一个第二残差块和一个所述交叉注意力模块。

7.根据权利要求2所述的基于扩散模型的视频填充方法，其特征在于，所述序列编码器包括第二编码器和第二中间层，所述第二编码器包括两个第三残差块和两个第一注意力模块，所述第二中间层包括

8.一种基于扩散模型的视频填充装置，其特征在于，包括：

9.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至7任一项所述的基于扩散模型的视频填充方法。

10.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至7任一项所述的基于扩散模型的视频填充方法。

...

【技术特征摘要】

1.一种基于扩散模型的视频填充方法，其特征在于，包括：

3.根据权利要求2所述的基于扩散模型的视频填充方法，其特征在于，所述训练好的扩散模型是基于如下步骤训练得到的：

4.根据权利要求2所述的基于扩散模型的视频填充方法，其特征在于，所述训练好的扩散模型是基于如下步骤训练得到的：

5.根据权利要求3或4所述的基于扩散模型的视频填充方法，其特征在于，所述方法还包括：

6.根据权利要求2所述的基于扩散模型的视频填充方法，其特征在于，所述第一编码器和所述解码器均包括两个第一残差块和两个所述时空注意...

【专利技术属性】
技术研发人员：姜智卓，杨思远，刘瑜，李耀文，李徵，
申请(专利权)人：清华大学深圳国际研究生院，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人