一种基于扩散模型的人脸表情讲话视频生成方法技术

技术编号:45422903 阅读:14 留言:0更新日期:2025-06-04 19:07
本发明专利技术公开了一种基于扩散模型的人脸表情讲话视频生成方法,本发明专利技术在初始的中性面部图像、音频序列、文本序列以及真实的参考视频的基础上,目标是生成不仅能够保持主体身份,且与音频输入情感相关联的视频。本发明专利技术利用潜在空间中的动作流特征序列,有助于生成面部表情准确且时间一致性良好的视频;本发明专利技术引入了一个风格预测器,用于从音频编码中预测合适的情感类别,该情感类别预测作为生成模型的引导,使其生成的视频能够符合指定的情感类别。本发明专利技术还引入了唇同步模块,该模块将生成的嘴部运动与输入音频对齐,显著提高了语音与唇部运动之间的同步效果。此外,本发明专利技术加入了一个控制网络模块,通过使用控制网络模块,能够更高效地处理面部表情视频生成的条件控制任务,确保输出视频满足精确的要求。

【技术实现步骤摘要】

本专利技术涉及计算机,涉及人脸表情生成、讲话人脸视频生成以及扩散模型视频生成等,具体为一种基于扩散模型的人脸表情讲话视频生成方法


技术介绍

1、1.人脸表情生成

2、近年来,生成模型的进展使得高保真度的合成面部生成成为可能。早期的方法使用单一模态作为条件。例如,大量的文本生成面部合成研究使用了预训练的stylegan模型和文本编码器,例如tedigan、styleclip和stylet2i。这些方法通常在gan潜在空间中学习可分离的表示,以控制所需的面部属性。使用图像作为条件也很常见,通常称为面部交换或面部再现,其中生成的面部保留了输入图像的身份或表情。最近的方法开始使用多模态,认识到不同模态可以相互补充。例如,文本和分割掩码的组合已成为控制面部生成的流行方式。

3、2.讲话人脸视频生成

4、音频驱动的说话人脸视频生成是一项典型的多模态输入任务,其中音频用于驱动指定的面部(由面部照片或视频表示)并生成新的说话人脸视频。为此任务开发了多种深度神经网络模型。例如,有研究提出了一个条件递归生成网络,以音频和图像作为输入。同时本文档来自技高网...

【技术保护点】

1.一种基于扩散模型的人脸表情讲话视频生成方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的基于扩散模型的人脸表情讲话视频生成方法,其特征在于:步骤一,构建并训练人脸动作流预测模型的方法如下:

3.根据权利要求2所述的基于扩散模型的人脸表情讲话视频生成方法,其特征在于:光流图xf的尺寸为Hz×Wz×2,光流图xf捕捉了人脸面部特征在帧与帧之间的水平和垂直变化,反映了表情的动态变化;遮挡图m的尺寸为Hz×Wz×1,遮挡图m的值的范围是从0到1,0代表完全遮挡,1代表无遮挡。

4.根据权利要求1所述的基于扩散模型的人脸表情讲话视频生成方法,其特征在...

【技术特征摘要】

1.一种基于扩散模型的人脸表情讲话视频生成方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的基于扩散模型的人脸表情讲话视频生成方法,其特征在于:步骤一,构建并训练人脸动作流预测模型的方法如下:

3.根据权利要求2所述的基于扩散模型的人脸表情讲话视频生成方法,其特征在于:光流图xf的尺寸为hz×wz×2,光流图xf捕捉了人脸面部特征在帧与帧之间的水平和垂直变化,反映了表情的动态变化;遮挡图m的尺寸为hz×wz×1,遮挡图m的值的范围是从0到1,0代表完全遮挡,1代表无遮挡。

4...

【专利技术属性】
技术研发人员:亓帆潘昊
申请(专利权)人:天津理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1