【技术实现步骤摘要】
一种实时的语音驱动人脸动画的方法和系统
本专利技术涉及虚拟现实和动画领域,特别涉及一种实时的语音驱动人脸动画的方法和系统。
技术介绍
语音动画是生成真实感动画的一个重要而耗时的方面。广义上讲,语音动画是指移动图形(或机器人)模型的面部特征,使嘴唇运动与语音同步,并给人以语音生成的印象。作为人类,我们都是面部专家,糟糕的语音动画会让人分心、不愉快和困惑。例如,视听语言的不匹配有时会改变观众认为他们听到的内容,高逼真度的语音动画对于有效的角色动画至关重要。然而,现有的基于机器学习的语音动画方法通常是根据与训练集分布相同的测试样本来评估的,其结果依赖于特定的说话人,说话风格,不能够重定目标,即不能将生成的动画重定目标到其他面部装备,实用性低。针对上述的问题,目前尚未提出有效的解决方案。
技术实现思路
为解决上述技术问题,本专利技术的目的在于提供一种与说话人无关,并可重定目标到任何动画装备的实时的语音驱动人脸动画的方法和系统,以解决现有的语音动画方法依赖于特定的说话人、说话风格,且不能够将生成的动 ...
【技术保护点】
1.一种实时的语音驱动人脸动画的方法,其特征在于,包括:/n获取来自第一说话人的中性语音视听数据集,所述中性语音视听数据集包括语音数据和与所述语音数据对应的人脸视频数据;/n使用主动外观模型跟踪并参数化所述人脸视频数据中第一说话人的面部特征,得到参考人脸模型;/n将所述语音数据转换为音素标签序列;/n使用所述音素标签序列和与所述音素标签序列相对应的参考人脸模型作为待训练样本,训练基于滑动窗口的深度卷积神经网络模型的目标参数的参数值,得到训练之后的所述深度卷积神经的网络模型;/n计算目标角色的重定目标函数,将训练之后的所述深度卷积神经网络模型的参考人脸模型重定目标到目标角色模 ...
【技术特征摘要】
1.一种实时的语音驱动人脸动画的方法,其特征在于,包括:
获取来自第一说话人的中性语音视听数据集,所述中性语音视听数据集包括语音数据和与所述语音数据对应的人脸视频数据;
使用主动外观模型跟踪并参数化所述人脸视频数据中第一说话人的面部特征,得到参考人脸模型;
将所述语音数据转换为音素标签序列;
使用所述音素标签序列和与所述音素标签序列相对应的参考人脸模型作为待训练样本,训练基于滑动窗口的深度卷积神经网络模型的目标参数的参数值,得到训练之后的所述深度卷积神经的网络模型;
计算目标角色的重定目标函数,将训练之后的所述深度卷积神经网络模型的参考人脸模型重定目标到目标角色模型;
将来自第二说话人的目标音素标签序列输入重定目标到目标角色模型的所述深度卷积神经网络模型进行预测,输出基于目标角色的语音动画。
2.根据权利要求1所述的方法,其特征在于,所述使用主动外观模型跟踪并参数化所述人脸视频数据中第一说话人的面部特征,得到参考人脸模型的步骤包括:
使用主动外观模型跟踪并参数化所述人脸视频数据中第一说话人的面部特征,面部特征包括形状特征和外观特征,将所述人脸视频数据中位于下脸和下颚的34个顶点设置成所述主动外观模型的形状分量,所述主动外观模型分成2个不重叠区域,所述不重叠区域包括内嘴区域及位于所述内嘴区域以外的区域,得到参考人脸模型的表达式如下:
其中,q=104,ji表示三种变化模式。
3.根据权利要求1所述的方法,其特征在于,在所述训练基于滑动窗口的深度卷积神经网络模型的目标参数的参数值的步骤之前,所述方法还包括:
设置所述滑动窗口的输入窗口长度为11,输出窗口长度为5。
4.根据权利要求3所述的方法,其特征在于,所述使用所述音素标签序列和与所述音素标签序列相对应的参考人脸模型作为待训练样本,训练基于滑动窗口的深度卷积神经网络模型的目标参数的参数值,得到训练之后的所述深度卷积神经的网络模型的步骤包括:
将所述输入音素标签序列分解为一个重叠的定长输入序列
对于每个使用深度卷积神经网络进行预测,从而产生重叠的固定长度输出序列
通过混合所述固定长度输出序列,使用帧平均值构造最终动画序列
5.根据权利要求1所述的方法,其特征在于,所述计算目标角色的重定目标函数,将训练之后的所述深度卷积神经网络模型的参考人脸模型重定目标到目标角色模型的步骤包括:
在目标角色上手动设置参考人脸模型表示的形状基和平均形状s0的子集,预先计算跨越深度卷积神经网络动画空间的重定目标函数;
将所述参考人脸模型的输出字符设置平均值的+3和-3标准偏差,创建一组8个姿势;
为所述目标角色模型创建与所述8个姿势一一对应的8个...
【专利技术属性】
技术研发人员:不公告发明人,
申请(专利权)人:北京中科深智科技有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。