基于时序一致隐空间引导扩散模型的人体视频生成方法技术

技术编号：41266636 阅读：6 留言：0更新日期：2024-05-11 09:22

本发明专利技术公开了基于时序一致隐空间引导扩散模型的人体视频生成方法，包括以下步骤：从人物动作视频中提取骨骼序列并形成骨骼序列的视频；对输入视频、人物形象以及骨骼序列提取特征；输入特征至扩散模型中进行前向加噪及噪声预测；以加入的噪声作为监督定义约束并对扩散模型进行训练；将目标姿态序列和人物图片输入至训练好的扩散模型中；将时空坐标通过隐式网络映射为像素值；以目标视频以及目标姿态序列作为监督约束，学习模型参数；对隐式网络的输出视频进行特征提取，再次输入训练完成的扩散模型，得到人物动作视频。本发明专利技术设计迭代优化的策略，通过时序一致的隐空间引导提升扩散模型的生成结果连续性，以提高姿态引导的人体视频生成质量。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及图像处理和模式识别，尤其是基于时序一致隐空间引导扩散模型的人体视频生成方法。

技术介绍

1、姿势引导的人体视频生成旨在生成特定人物形象表演特定动作的视频，其在人机交互、运动分析和虚拟现实等领域具有广泛应用。现有方法大多采用生成对抗网络来解决该问题，但该类型网络训练难度大，生成结果不稳定。近年来，扩散模型的出现为该领域注入了新的活力，扩散模型通过加噪和去噪过程，得到高精度的人体图像。但现有方法通常只能依靠文本得到大概形象，无法根据用户需求生成特定人物视频。此外，现有方法只考虑每一帧的生成质量，忽略帧间的时序关系，导致其容易产生伪影和闪烁。

技术实现思路

1、本专利技术的目的是提供一种基于时序一致隐空间引导扩散模型的人体视频生成方法，利用扩散模型的高保真人体图片生成能力，生成姿态引导的人体图片，并利用视频隐式网络的重建结果的时序一致性，通过迭代优化的策略，为扩散模型提供时序一致的隐空间引导，使得二者相互促进，以提高姿态引导的人体视频生成质量。

2、为实现上述目的，本专利技术采用下述技术方案：

3、基于时序一致隐空间引导扩散模型的人体视频生成方法，包括以下步骤：

4、从人物动作视频中提取骨骼序列，并形成骨骼序列的视频；

5、对输入的人物动作视频、人物形象以及骨骼序列提取特征；

6、输入所提取的特征至扩散模型中进行前向加噪及噪声预测；

7、以加入的噪声作为监督定义约束，通过最小化该约束对扩散模型进行训练，学习模型参数；

8、将目标姿态序列和人物图片输入至训练好的扩散模型中，得到目标姿态序列下的人物动作视频；

9、将时空坐标通过隐式网络映射为像素值；

10、以上述步骤中得到的目标视频以及目标姿态序列作为监督约束，通过最小化该约束对隐式网络进行训练，学习模型参数；

11、对隐式网络的输出视频进行特征提取，作为引导再次输入训练完成的扩散模型，得到最终的姿态引导的人物动作视频。

12、进一步地，所述从人物动作视频中提取骨骼序列，并形成骨骼序列的视频，包括：

13、获取 21 个关键点的二维骨骼关键点及相连的骨骼，将关键点作为节点，骨骼作为节点间的连接，构建与视频相对应的骨骼序列的视频。

14、进一步地，所述对输入的人物动作视频、人物形象以及骨骼序列提取特征，包括：

15、通过多层卷积神经网络以及注意力网络提取人物形象图片和骨骼图像序列的特征并进行拼接；通过变分编码器对输入的人物动作视频进行编码。

16、进一步地，所述输入特征至扩散模型中进行前向加噪及噪声预测，包括：

17、根据预训练扩散模型的加噪公式，在隐空间层面上对输入视频的编码结果进行加噪，输入至u型神经网络搭建的扩散模型进行噪声预测。

18、进一步地，所述以加入的噪声作为监督定义约束，通过最小化该约束对扩散模型进行训练，学习模型参数，包括：

19、预测的噪声与真实加入噪声的差距小，通过最小化该约束对模型进行训练，不断更新扩散模型参数。

20、进一步地，所述将目标姿态序列和人物图片输入至训练好的扩散模型中，得到目标姿态序列下的人物动作视频，包括：

21、加载扩散模型参数，以目标姿态序列、人物形象以及随机噪声作为输入，通过扩散模型的去噪过程，得到特定人物形象在目标姿态下的视频。

22、进一步地，所述将时空坐标通过隐式网络映射为像素值，包括：

23、以坐标值作为输入，并通过哈希表的形式进行存储，通过多层感知机网络构建的隐式网络将其映射为像素值，得到预测视频。

24、进一步地，所述以上述步骤中得到的目标视频以及目标姿态序列作为监督约束，通过最小化该约束对隐式网络进行训练，学习模型参数，包括：

25、以上述步骤中得到的目标姿态序列下的人物视频为像素监督，最小化该约束；同时，对输入姿态序列计算帧间的光流，以此为时序监督，缩小预测视频的光流与姿态序列光流之间的差距；通过最小化该约束，更新视频隐式网络的模型参数。

26、进一步地，所述对隐式网络的输出视频进行特征提取，作为引导再次输入训练完成的扩散模型，得到最终的姿态引导的人物动作视频，包括：

27、加载隐式网络，重建时序一致的视频，并再次加载扩散模型参数，提取隐式网络输出的时序一致的视频的隐空间特征，将其作为连续的隐空间特征，结合目标姿态和人物形象，进行特征空间的去噪，得到时序一致且姿态引导的人物动作视频。

28、
技术实现思路
中提供的效果仅仅是实施例的效果，而不是专利技术所有的全部效果，上述技术方案中的一个技术方案具有如下优点或有益效果：

29、本专利技术提供基于时序一致隐空间引导扩散模型的人体视频生成方法，弥补了现有方法无法生成特定人物形象的问题，克服了单张图像生成方法时序不一致的问题。设计迭代优化的策略，充分利用扩散模型的高保真人体图片生成能力和视频隐式网络的时序一致性重建能力，通过时序一致的隐空间引导提升扩散模型的生成结果连续性，以提高姿态引导的人体视频生成质量。

本文档来自技高网...

【技术保护点】

1.基于时序一致隐空间引导扩散模型的人体视频生成方法，其特征在于：包括以下步骤：

2.如权利要求1所述的基于时序一致隐空间引导扩散模型的人体视频生成方法，其特征是，所述步骤一包括：

3.如权利要求1所述的基于时序一致隐空间引导扩散模型的人体视频生成方法，其特征是，所述步骤二包括：

4.如权利要求1所述的基于时序一致隐空间引导扩散模型的人体视频生成方法，其特征是，所述步骤三包括：

5.如权利要求1所述的基于时序一致隐空间引导扩散模型的人体视频生成方法，其特征是，所述步骤四包括：

6.如权利要求1所述的基于时序一致隐空间引导扩散模型的人体视频生成方法，其特征是，所述步骤五包括：

7.如权利要求1所述的基于时序一致隐空间引导扩散模型的人体视频生成方法，其特征是，所述步骤六包括：

8.如权利要求1所述的基于时序一致隐空间引导扩散模型的人体视频生成方法，其特征是，所述步骤七包括：

9.如权利要求1所述的基于时序一致隐空间引导扩散模型的人体视频生成方法，其特征是，所述步骤八包括：

【技术特征摘要】

1.基于时序一致隐空间引导扩散模型的人体视频生成方法，其特征在于：包括以下步骤：

2.如权利要求1所述的基于时序一致隐空间引导扩散模型的人体视频生成方法，其特征是，所述步骤一包括：

3.如权利要求1所述的基于时序一致隐空间引导扩散模型的人体视频生成方法，其特征是，所述步骤二包括：

4.如权利要求1所述的基于时序一致隐空间引导扩散模型的人体视频生成方法，其特征是，所述步骤三包括：

5.如权利要求1所述的基于时序一致隐空间引导扩散模型的人体...

【专利技术属性】
技术研发人员：张盛平，王晨阳，吕晓倩，孟权令，柳青林，
申请(专利权)人：哈尔滨工业大学威海，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人