基于语音驱动的人脸动作合成方法、电子设备及存储介质技术

技术编号：30093399 阅读：16 留言：0更新日期：2021-09-18 08:56

本发明专利技术实施例涉及计算机信息技术领域，公开了一种基于语音驱动的人脸动作合成方法、电子设备及存储介质。通过对待识别人脸动作的语音信号进行处理，得到所述语音信号对应的音频向量；将所述音频向量输入参数识别模型进行处理，输出所述待识别人脸动作对应的人脸肌肉运动参数；通过所述待识别人脸动作的人脸肌肉运动参数，控制人脸模型中按人脸肌肉分布划分的多个弹性体上的角点运动，得到待识别人脸动作结果。本方案可以普遍适用于包含多种角点数量的人物模型，且输出的人脸动作丰富，表情效果自然。自然。自然。

全部详细技术资料下载

【技术实现步骤摘要】
基于语音驱动的人脸动作合成方法、电子设备及存储介质

[0001]本专利技术实施例涉及计算机信息
，特别涉及一种基于语音驱动的人脸动作合成方法、电子设备及存储介质。

技术介绍

[0002]无论是现实中的机器人还是计算机里面的虚拟人物或模型，如何通过音频实现虚拟人物或模型自动对口型，这都是业界的一个难题，即使经过多年的研究和发展，这个问题依然困扰着相关从业人员。
[0003]目前，基于语音驱动虚拟人物口型的方式有很多，最常用的是VOCA(Voice Operated Character Animation)模型。VOCA模型的训练的目标数据是利用三维视觉特效合成软件如FALME虚拟出的人物模型的角点位置，而由于FLAME所合成的人物模型的角点数量固定，很难将目标数据迁移到自定义的虚拟人物中，从而不能达到一次训练，多场景应用的效果。此外，voca模型通常只对口型运动进行建模，人脸的其他很多地方是没有运动的，譬如，抬眉、眨眼等，这会导致输出的人脸动作效果僵硬。

技术实现思路

[0004]本专利技术实施方式的目的在于提供一种基于语音驱动的人脸动作合成方法、电子设备及存储介质，可以普遍适用于包含多种角点数量的人物模型，且输出的人脸动作丰富，表情效果自然。
[0005]为解决上述技术问题，本专利技术的实施方式提供了一种基于语音驱动的人脸动作合成方法，包括：
[0006]对待识别人脸动作的语音信号进行处理，得到所述语音信号对应的音频向量；
[0007]将所述音频向量输入参数识别模

【技术保护点】

【技术特征摘要】
1.一种基于语音驱动的人脸动作合成方法，其特征在于，包括：对待识别人脸动作的语音信号进行处理，得到所述语音信号对应的音频向量；将所述音频向量输入参数识别模型进行处理，输出所述待识别人脸动作对应的人脸肌肉运动参数；其中，所述参数识别模型是基于样本音频向量及预先确定的对应于各样本音频向量的人脸肌肉运动参数标签进行训练后得到的，所述参数识别模型训练时的损失函数基于人脸肌肉运动损失构成；通过所述待识别人脸动作的人脸肌肉运动参数，控制人脸模型中按人脸肌肉分布划分的多个弹性体上的角点运动，得到待识别人脸动作结果。2.根据权利要求1所述的方法，其特征在于，所述参数识别模型为神经网络模型，所述神经网络模型包括三层卷积层和两层全连接层；所述将所述音频向量输入参数识别模型进行处理，输出所述待识别人脸动作对应的人脸肌肉运动参数，包括：将所述音频向量依次经所述三层卷积层进行样本空间特征提取，得到卷积层特征数据；将所述卷积层特征数据依次经所述两层全连接层进行分类后，输出所述待识别人脸动作对应的人脸肌肉运动参数。3.根据权利要求2所述的方法，其特征在于，所述神经网络模型还包两层池化层；所述将所述音频向量依次经所述三层卷积层进行样本空间特征提取，得到卷积层特征数据，包括：在将所述音频向量依次经前两层卷积层处理时，每经一个所述卷积层处理后，将处理后的音频向量经一个所述池化层处理，并将经所述池化层处理后的音频向量输入到下一层卷积层进行处理。4.根据权利要求3所述的方法，其特征在于，所述对待识别人脸动作的语音信号进行处理，得到所述语音信号对应的音频向量包括：对待识别人脸动作的语音信号采用深度语音模型进行编码，将语音信号帧中每32帧编码成一个具有29个维度的向量作为一个所述音频向量；所述将所述音频向量输入参数识别模型进行处理，输出所述待识别人脸动作对应的人脸肌肉运动参数包括：从所述音频向量中每次提取n个音频向量，经第一层卷积层进行处理得到第一卷积特征数据；所述第一层卷积层包含32个卷积核且卷积核大小为3；将所述第一卷积特征数据经第一层池化层进行处理得到第一池化特征数据；所述第一池化层大小为2；将所述第一池化特征数据经第二层卷积层进行处理得到第二卷积特征数据；所述第二层卷积层包含64个卷积核且卷积核大小为3；将所述第二卷积特征数据经第二层池化层进行处理得到第二池化特征数据；所述第二池化层大小为2；将所述第二池化特征数据经第三层卷积层进行处理得到第三卷积特征数据；所述第三层卷积层包含128个卷积核且卷积核大小为4；将所述第三卷积特征数据依次经所述两层全连接层进行分类后，输出n个分别具有28
个维度的向量，且每个向量分别为一组所述待识别人脸动作对应的人脸肌肉运动参数。5.根据权利要求1所述的方法，其特征在于，所述人脸肌肉运动参数包括：人脸肌肉...

【专利技术属性】
技术研发人员：彭飞，马世奎，
申请(专利权)人：达闼科技北京有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人