【技术实现步骤摘要】
一种语音驱动的可编辑人脸重演方法、装置及存储介质
[0001]本专利技术涉及计算机视觉和计算机图形学领域,尤其是涉及一种语音驱动的可编辑人脸重演方法、装置及存储介质。
技术介绍
[0002]人脸重演是指根据原始人物的身份信息及驱动目标提供的表情、姿态等信息合成该人物的重演谈话视频。传统流程中,完成该任务需要艺术家手工定制精细的三维人脸模型,然后历经面部绑定、动作捕捉、动画修正、调试材质等步骤,最后在图形管线中渲染图像,需要耗费制作团队较高的劳力与时间。近年来,随深度学习的介入,传统人脸重演流程被神经网络算法简化,不具备相关专业知识的用户可以仅通过一段单目RGB视频,以端到端的方式快速制作人脸重演视频。
[0003]经多年研究,以视频作为驱动目标驱动的人脸重演技术现已日趋成熟,然而,以视频作为驱动源的人脸重演难以处理人脸遮挡,并且最终重演效果严重依赖于表演者的表演水平。相比视频媒体,语音信号更容易获取,使用更为便捷,还可以借助语音中的音节语调等信息个性化匹配重演人物说话风格。因此,语音驱动的人脸重演技术近年来逐渐成为图 ...
【技术保护点】
【技术特征摘要】
1.一种语音驱动的可编辑人脸重演方法,其特征在于,包括以下步骤:S1、输入视频素材构成视频数据集;S2、对输入的视频素材进行人脸三维重建,合成人脸三维网格模型,提取源人脸三维可形变模型的身份系数、表情系数和头部姿势系数,同时生成蒙版,提取人脸区域图像作为训练的真值;S3、提取所述视频数据集中源人脸三维可形变模型的表情系数,使用对齐的音频特征和人脸表情系数数据训练长短期记忆网络,构建音频到人脸表情的跨模态映射;S4、构建可编辑动态神经辐射场,通过人脸模型作为代理计算摄像机光线采样点的偏移值,并在规范空间中查询偏移后的采样点最近的k个顶点,通过插值获取采样点处对应的纹理潜码和几何潜码,输入纹理解码器和几何解码器回归该采样点的颜色与密度,通过体绘制生成人物重演视频;S5、接受音频输入,通过所述长短期记忆网络回归重演人脸表情系数,结合源人脸身份系数合成重演后的人脸网格模型,输入可编辑动态神经辐射场框架回归采样点密度与颜色值,通过体绘制合成重演视频帧;S6、对重演后的人脸网格模型的形状进行修改,实现对目标人物的形状编辑;通过更改和替换纹理潜码及几何潜码,实现对目标人物的外观编辑。2.根据权利要求1所述的一种语音驱动的可编辑人脸重演方法,其特征在于,步骤S2具体包括:使用Deep3DFace算法作为人脸三维重建算法,通过卷积神经网络拟合人脸形状与外观,表示为:其中,α、β、τ、ο、ρ分别表示人脸的身份、表情、材质、光照和姿势系数;一旦获取人脸身份与表情系数,该人脸的形状表示为:其中,表示人脸的平均形状;B
id
,B
exp
分别是3DMM模型形状和表情的基底。3.根据权利要求1所述的一种语音驱动的可编辑人脸重演方法,其特征在于,步骤S3具体包括:对数据集中每个音频抽取梅尔倒谱特征;通过长短期记忆网络构建音频到表情系数的映射,表示为:其中,E是梅尔倒谱特征s
(t)
的编码器;h
(t
‑
1)
,c
(t
‑
1)
分别是LSTM的隐藏层和细胞状态,是第t帧网络预测的人脸表情系数;一旦获取了长短期记忆网络预测的某帧人脸表情系数,便能够与原人物的身份系数相结合,生成重演后人脸的三维网格模型。4.根据权利要求1所述的一种语音驱动的可编辑人脸重演方法,其特征在于,步骤S4具体包括:S401、定义一个中性表情的人脸模板模型,并在顶点处锚定几何潜码和纹理潜码;S40...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。