基于扩散模型的视频生成方法、装置以及设备制造方法及图纸

技术编号：43421581 阅读：30 留言：0更新日期：2024-11-22 17:54

本发明专利技术公开了基于扩散模型的视频生成方法、装置以及设备，包括：得到若干张抽帧图片；构建出若干个图片组；将初始数据空间中的图片组映射至隐空间；构建待训练扩散模型；为图片组中的每个隐变量添加噪声；将图片组输入待训练扩散模型中，得到每个图片组对应的若干个预测噪声和若干个预测图片差异，以及若干个图片组之间对应的预测图片组差异；根据若干个预测噪声、若干个预测图片差异以及若干个预测图片组差异，对待训练扩散模型的神经网络参数进行调节，并在当满足预设训练要求时，将待训练扩散模型作为目标扩散模型。本发明专利技术属于视频预测领域。本发明专利技术可以使基于扩散模型预测得到的视频保持时间一致性。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及视频预测领域，尤其涉及基于扩散模型的视频生成方法、装置以及设备。

技术介绍

1、实现视频预测通常需要依赖于深度学习和人工智能技术，特别是卷积神经网络（cnns）、循环神经网络（rnns）及其变种（如lstm、gru、transformer等），上述模型能够从大量的视频数据中学习到模式和规律，进而做出准确的预测。随着技术的进步，视频预测的应用范围将会越来越广泛，精度也会不断提高。

2、扩散模型（diffusion models）是一种强大的生成模型，最初主要用于图像生成任务，但近年来也被应用于视频预测等领域。但视频不仅仅是多个静态图像的简单组合，更重要的是帧与帧之间存在时间上的连贯性和动态变化。如何确保生成的视频帧之间保持自然流畅的过渡对扩散模型而言是一个难题。

技术实现思路

1、本专利技术实施例通过提供基于扩散模型的视频生成方法、装置以及设备，解决了现有技术中基于扩散模型预测得到的视频能时间一致性不高的技术问题，实现了基于训练完成的扩散模型预测得到的视频能保持时间...

【技术保护点】

1.基于扩散模型的视频生成方法，其特征在于，所述方法包括：

2.如权利要求1所述的基于扩散模型的视频生成方法，其特征在于，所述根据若干个预测噪声、若干个预测图片差异以及若干个预测图片组差异，对所述待训练扩散模型的神经网络参数进行调节，包括：

3.如权利要求1所述的基于扩散模型的视频生成方法，其特征在于，所述将初始数据空间中的图片组映射至隐空间，其中，图片组中的每张抽帧图片对应一个隐变量，包括：

4.如权利要求1所述的基于扩散模型的视频生成方法，其特征在于，待训练扩散模型的损失函数，包括：

5.如权利要求4所述的基于扩散模型的视频生成方法，其...

【技术特征摘要】

1.基于扩散模型的视频生成方法，其特征在于，所述方法包括：

4.如权利要求1所述的基于扩散模型的视频生成方法，其特征在于，待训练扩散模型的损失函数，包括...

【专利技术属性】
技术研发人员：曹刘洋，应鹏飞，谭铭玺，
申请(专利权)人：星凡星启成都科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人