【技术实现步骤摘要】
本专利技术涉及计算机,涉及人脸表情生成、讲话人脸视频生成以及扩散模型视频生成等,具体为一种基于扩散模型的人脸表情讲话视频生成方法。
技术介绍
1、1.人脸表情生成
2、近年来,生成模型的进展使得高保真度的合成面部生成成为可能。早期的方法使用单一模态作为条件。例如,大量的文本生成面部合成研究使用了预训练的stylegan模型和文本编码器,例如tedigan、styleclip和stylet2i。这些方法通常在gan潜在空间中学习可分离的表示,以控制所需的面部属性。使用图像作为条件也很常见,通常称为面部交换或面部再现,其中生成的面部保留了输入图像的身份或表情。最近的方法开始使用多模态,认识到不同模态可以相互补充。例如,文本和分割掩码的组合已成为控制面部生成的流行方式。
3、2.讲话人脸视频生成
4、音频驱动的说话人脸视频生成是一项典型的多模态输入任务,其中音频用于驱动指定的面部(由面部照片或视频表示)并生成新的说话人脸视频。为此任务开发了多种深度神经网络模型。例如,有研究提出了一个条件递归生成网络,以音频
...【技术保护点】
1.一种基于扩散模型的人脸表情讲话视频生成方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的基于扩散模型的人脸表情讲话视频生成方法,其特征在于:步骤一,构建并训练人脸动作流预测模型的方法如下:
3.根据权利要求2所述的基于扩散模型的人脸表情讲话视频生成方法,其特征在于:光流图xf的尺寸为Hz×Wz×2,光流图xf捕捉了人脸面部特征在帧与帧之间的水平和垂直变化,反映了表情的动态变化;遮挡图m的尺寸为Hz×Wz×1,遮挡图m的值的范围是从0到1,0代表完全遮挡,1代表无遮挡。
4.根据权利要求1所述的基于扩散模型的人脸表情讲话视
...【技术特征摘要】
1.一种基于扩散模型的人脸表情讲话视频生成方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的基于扩散模型的人脸表情讲话视频生成方法,其特征在于:步骤一,构建并训练人脸动作流预测模型的方法如下:
3.根据权利要求2所述的基于扩散模型的人脸表情讲话视频生成方法,其特征在于:光流图xf的尺寸为hz×wz×2,光流图xf捕捉了人脸面部特征在帧与帧之间的水平和垂直变化,反映了表情的动态变化;遮挡图m的尺寸为hz×wz×1,遮挡图m的值的范围是从0到1,0代表完全遮挡,1代表无遮挡。
4...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。