基于语音驱动的人脸动作合成方法、电子设备及存储介质技术

技术编号:30093399 阅读:16 留言:0更新日期:2021-09-18 08:56
本发明专利技术实施例涉及计算机信息技术领域,公开了一种基于语音驱动的人脸动作合成方法、电子设备及存储介质。通过对待识别人脸动作的语音信号进行处理,得到所述语音信号对应的音频向量;将所述音频向量输入参数识别模型进行处理,输出所述待识别人脸动作对应的人脸肌肉运动参数;通过所述待识别人脸动作的人脸肌肉运动参数,控制人脸模型中按人脸肌肉分布划分的多个弹性体上的角点运动,得到待识别人脸动作结果。本方案可以普遍适用于包含多种角点数量的人物模型,且输出的人脸动作丰富,表情效果自然。自然。自然。

【技术实现步骤摘要】
基于语音驱动的人脸动作合成方法、电子设备及存储介质


[0001]本专利技术实施例涉及计算机信息
,特别涉及一种基于语音驱动的人脸动作合成方法、电子设备及存储介质。

技术介绍

[0002]无论是现实中的机器人还是计算机里面的虚拟人物或模型,如何通过音频实现虚拟人物或模型自动对口型,这都是业界的一个难题,即使经过多年的研究和发展,这个问题依然困扰着相关从业人员。
[0003]目前,基于语音驱动虚拟人物口型的方式有很多,最常用的是VOCA(Voice Operated Character Animation)模型。VOCA模型的训练的目标数据是利用三维视觉特效合成软件如FALME虚拟出的人物模型的角点位置,而由于FLAME所合成的人物模型的角点数量固定,很难将目标数据迁移到自定义的虚拟人物中,从而不能达到一次训练,多场景应用的效果。此外,voca模型通常只对口型运动进行建模,人脸的其他很多地方是没有运动的,譬如,抬眉、眨眼等,这会导致输出的人脸动作效果僵硬。

技术实现思路

[0004]本专利技术实施方式的目的在于提供一种基于语音驱动的人脸动作合成方法、电子设备及存储介质,可以普遍适用于包含多种角点数量的人物模型,且输出的人脸动作丰富,表情效果自然。
[0005]为解决上述技术问题,本专利技术的实施方式提供了一种基于语音驱动的人脸动作合成方法,包括:
[0006]对待识别人脸动作的语音信号进行处理,得到所述语音信号对应的音频向量;
[0007]将所述音频向量输入参数识别模型进行处理,输出所述待识别人脸动作对应的人脸肌肉运动参数;
[0008]其中,所述参数识别模型是基于样本音频向量及预先确定的对应于各样本音频向量的人脸肌肉运动参数标签进行训练后得到的,所述参数识别模型训练时的损失函数基于人脸肌肉运动损失构成;
[0009]通过所述待识别人脸动作的人脸肌肉运动参数,控制人脸模型中按人脸肌肉分布划分的多个弹性体上的角点运动,得到待识别人脸动作结果。
[0010]本专利技术的实施方式还提供了一种电子设备,包括:
[0011]至少一个处理器;以及,
[0012]与所述至少一个处理器通信连接的存储器;其中,
[0013]所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如上所述的基于语音驱动的人脸动作合成方法。
[0014]本专利技术的实施方式还提供了一种计算机可读存储介质,存储有计算机程序,所述
计算机程序被处理器执行时实现如上所述的基于语音驱动的人脸动作合成方法。
[0015]本专利技术实施方式相对于现有技术而言,通过对待识别人脸动作的语音信号进行处理,得到语音信号对应的音频向量;将音频向量输入参数识别模型进行处理,其中,所述参数识别模型是基于样本音频向量及预先确定的对应于各样本音频向量的人脸肌肉运动参数标签进行训练后得到的,且参数识别模型训练时的损失函数是基于人脸肌肉运动损失构成,从而通过参数识别模型搭建出语音信号与人脸肌肉的运动参数之间的对应关系;通过这种对应关系将待识别人脸动作的语音信号转换为人脸肌肉运动参数;通过该人脸肌肉运动参数,控制人脸模型中按人脸肌肉分布划分的多个弹性体上的角点运动,得到待识别人脸动作结果。本方案中,摒弃了传统基于语音驱动人脸动作(如口型)的模型中直接构建语音信号与人脸模型中具体角点之间的关系,而是先通过参数识别模型建立语音信号与人脸肌肉运动参数之间的对应关系,然后将人脸肌肉运动参数与人脸模型中按人脸肌肉分布划分的多个弹性体上的角点运动相关联,从而基于人脸肌肉运动参数控制角点运动。由于通过人脸肌肉运动模拟人脸动作遵从了生物行为特性,输出的动作生动逼真。且由于是基于人脸肌肉运动参数控制角点运动,因此对角点数量没有限定,可适用多种不同角点数量的人脸模型,移植性好。
附图说明
[0016]一个或多个实施例通过与之对应的附图中的图片进行示例性说明,这些示例性说明并不构成对实施例的限定,附图中具有相同参考数字标号的元件表示为类似的元件,除非有特别申明,附图中的图不构成比例限制。
[0017]图1是根据本专利技术第一实施方式的基于语音驱动的人脸动作合成方法的具体流程图;
[0018]图2是根据本专利技术第二实施方式的一种基于语音驱动的人脸动作合成方法的具体流程图;
[0019]图3是根据本专利技术第二实施方式的另一种基于语音驱动的人脸动作合成方法的具体流程图;
[0020]图4是根据本专利技术第三实施方式的基于语音驱动的人脸动作合成方法的具体流程图;
[0021]图5是根据本专利技术第四实施方式的电子设备的结构示意图。
具体实施方式
[0022]为使本专利技术实施例的目的、技术方案和优点更加清楚,下面将结合附图对本专利技术的各实施方式进行详细的阐述。然而,本领域的普通技术人员可以理解,在本专利技术各实施方式中,为了使读者更好地理解本申请而提出了许多技术细节。但是,即使没有这些技术细节和基于以下各实施方式的种种变化和修改,也可以实现本申请所要求保护的技术方案。
[0023]在现有的基于语音驱动的人脸动作合成的方案中,主要是基于语音驱动口型运动。例如让虚拟人物说一句“今天天气真好”,那么在语音播放的同时,虚拟人物的口型运动要和真人的口型基本相同,从而给人感觉这句话就是虚拟人物说出。如果口型对不上,会给人带来“假”的感觉。这也是目前很多“虚拟主播”的口型运动要解决的问题。
[0024]目前,基于语音驱动虚拟人物口型的方式有很多,最常用的是VOCA(Voice Operated Character Animation)模型。VOCA模型的训练的目标数据是利用三维视觉特效合成软件如FALME虚拟出的人物模型中的角点位置,而由于FLAME所合成的人物模型的角点数量固定,很难将目标数据迁移到自定义的虚拟人物中,从而不能达到一次训练,多场景应用的效果。此外,voca模型通常只对口型运动进行建模,人脸的其他很多地方是没有运动的,譬如,抬眉、眨眼等,这会导致输出的人脸动作效果僵硬。
[0025]因此,本方案为解决上述问题,决定放弃传统方案中对虚拟人物的人脸的角点进行训练,转而采用对虚拟人物的“肌肉”参数进行训练。在对虚拟人物的人脸模型进行构建时,参考真人面部肌肉,进行人脸肌肉的模型构建,即在虚拟人物的面部根据人脸肌肉分布建模一些弹性体,用以模仿真人的面部肌肉(如眼轮匝肌、皱眉肌、上唇举肌、颧肌等)。然后,基于这些“肌肉”参数对相应的弹性体上的角点位置进行控制,从而达到基于语音驱合成人脸动作的效果,且在合成的人脸动作中不局限于口型运动。
[0026]本专利技术的第一实施方式涉及一种基于语音驱动的人脸动作合成方法,该方法适用于基于语音驱动人脸动作的场景,如虚拟人物、机器人场景等。如图1所示,该基于语音驱动的人脸动作合成方法包括如下步骤:
[0027]步骤101:对待识别人脸动作的语音信号进行处理,得到语音信号对应的音频向量。...

【技术保护点】

【技术特征摘要】
1.一种基于语音驱动的人脸动作合成方法,其特征在于,包括:对待识别人脸动作的语音信号进行处理,得到所述语音信号对应的音频向量;将所述音频向量输入参数识别模型进行处理,输出所述待识别人脸动作对应的人脸肌肉运动参数;其中,所述参数识别模型是基于样本音频向量及预先确定的对应于各样本音频向量的人脸肌肉运动参数标签进行训练后得到的,所述参数识别模型训练时的损失函数基于人脸肌肉运动损失构成;通过所述待识别人脸动作的人脸肌肉运动参数,控制人脸模型中按人脸肌肉分布划分的多个弹性体上的角点运动,得到待识别人脸动作结果。2.根据权利要求1所述的方法,其特征在于,所述参数识别模型为神经网络模型,所述神经网络模型包括三层卷积层和两层全连接层;所述将所述音频向量输入参数识别模型进行处理,输出所述待识别人脸动作对应的人脸肌肉运动参数,包括:将所述音频向量依次经所述三层卷积层进行样本空间特征提取,得到卷积层特征数据;将所述卷积层特征数据依次经所述两层全连接层进行分类后,输出所述待识别人脸动作对应的人脸肌肉运动参数。3.根据权利要求2所述的方法,其特征在于,所述神经网络模型还包两层池化层;所述将所述音频向量依次经所述三层卷积层进行样本空间特征提取,得到卷积层特征数据,包括:在将所述音频向量依次经前两层卷积层处理时,每经一个所述卷积层处理后,将处理后的音频向量经一个所述池化层处理,并将经所述池化层处理后的音频向量输入到下一层卷积层进行处理。4.根据权利要求3所述的方法,其特征在于,所述对待识别人脸动作的语音信号进行处理,得到所述语音信号对应的音频向量包括:对待识别人脸动作的语音信号采用深度语音模型进行编码,将语音信号帧中每32帧编码成一个具有29个维度的向量作为一个所述音频向量;所述将所述音频向量输入参数识别模型进行处理,输出所述待识别人脸动作对应的人脸肌肉运动参数包括:从所述音频向量中每次提取n个音频向量,经第一层卷积层进行处理得到第一卷积特征数据;所述第一层卷积层包含32个卷积核且卷积核大小为3;将所述第一卷积特征数据经第一层池化层进行处理得到第一池化特征数据;所述第一池化层大小为2;将所述第一池化特征数据经第二层卷积层进行处理得到第二卷积特征数据;所述第二层卷积层包含64个卷积核且卷积核大小为3;将所述第二卷积特征数据经第二层池化层进行处理得到第二池化特征数据;所述第二池化层大小为2;将所述第二池化特征数据经第三层卷积层进行处理得到第三卷积特征数据;所述第三层卷积层包含128个卷积核且卷积核大小为4;将所述第三卷积特征数据依次经所述两层全连接层进行分类后,输出n个分别具有28
个维度的向量,且每个向量分别为一组所述待识别人脸动作对应的人脸肌肉运动参数。5.根据权利要求1所述的方法,其特征在于,所述人脸肌肉运动参数包括:人脸肌肉...

【专利技术属性】
技术研发人员:彭飞马世奎
申请(专利权)人:达闼科技北京有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1