基于语音驱动的嘴部动作生成方法、装置、设备及介质制造方法及图纸

技术编号：43156762 阅读：26 留言：0更新日期：2024-11-01 19:52

本申请涉及图像处理领域及金融领域，公开了一种基于语音驱动的嘴部动作生成方法、装置、设备及介质，所述方法包括根据预训练的2D驱动算法的目标关键点坐标与目标源图像的初始音频特征，生成梅尔频谱特征；通过所述预训练的2D驱动算法提取所述目标源图像的目标脸部特征，并基于所述目标脸部特征与所述梅尔频谱特征，生成嘴部动作图像。通过上述方式，本申请通过使用源图像的初始音频特征生成梅尔频谱特征，更准确地捕捉到语音信号中的关键信息，结合预训练的2D驱动算法和梅尔频谱特征，生成与语音高度同步的嘴部动作图像，提升了用户与虚拟人交互时的沉浸感和真实感，从而驱动嘴部动作的生成，提高了金融场景中生成虚拟人嘴部特征图像的准确性。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及图像处理领域及金融领域，尤其涉及一种基于语音驱动的嘴部动作生成方法、装置、设备及介质。

技术介绍

1、现有2d金融场景中的虚拟客服仅仅对嘴部区域重新生成，与当前人脸姿态耦合，所以不能迁移到3d场景的嘴型动作中使用。虚拟人是指在计算机上模拟一个类似真人动作、语音等的虚拟形象。虚拟人的脸部驱动是至关重要的技术方向，脸部动作的真实和自然程度与整体的驱动效果密切相关。

2、现有语音驱动算法很几个方向：(1)语音驱动生成b l endshape(线性面部模型)，该方式直接获取驱动信号比较直观。缺点是语音和嘴型运动数据需要专业设备生成，而且只有作用到当前模型的b l endshape结构，通用性不足；(2)嘴部区域生成，该方法生成的整体清晰度较低，牙齿部分还原度较差等问题。因此，如何提高金融场景中生成虚拟人嘴部特征图像的准确性成为目前亟待解决的技术问题。

技术实现思路

1、本申请提供了一种基于语音驱动的嘴部动作生成方法、装置、设备及介质，以提高金融场景中生成虚拟人嘴部特征图像的准确性。

本文档来自技高网...

【技术保护点】

1.一种基于语音驱动的嘴部动作生成方法，其特征在于，包括：

2.根据权利要求1所述的基于语音驱动的嘴部动作生成方法，其特征在于，所述通过所述预训练的2D驱动算法提取所述目标源图像的目标脸部特征，并基于所述目标脸部特征与所述梅尔频谱特征，生成嘴部动作图像之前，包括：

3.根据权利要求2所述的基于语音驱动的嘴部动作生成方法，其特征在于，所述通过脸部特征模型、自适应关键点模型、脸部姿态动作特征模型与各预设源图像，对初始2D驱动算法进行训练，确定所述预训练的2D驱动算法，包括：

4.根据权利要求3所述的基于语音驱动的嘴部动作生成方法，其特征在于，所述基于所述预...

【技术特征摘要】

1.一种基于语音驱动的嘴部动作生成方法，其特征在于，包括：

2.根据权利要求1所述的基于语音驱动的嘴部动作生成方法，其特征在于，所述通过所述预训练的2d驱动算法提取所述目标源图像的目标脸部特征，并基于所述目标脸部特征与所述梅尔频谱特征，生成嘴部动作图像之前，包括：

3.根据权利要求2所述的基于语音驱动的嘴部动作生成方法，其特征在于，所述通过脸部特征模型、自适应关键点模型、脸部姿态动作特征模型与各预设源图像，对初始2d驱动算法进行训练，确定所述预训练的2d驱动算法，包括：

4.根据权利要求3所述的基于语音驱动的嘴部动作生成方法，其特征在于，所述基于所述预设源图像的预设脸部特征、自适应关键点坐标、基础正脸关键点坐标和所述初始2d驱动算法，提取各所述预设源图像中的嘴部特征之前，包括：

5.根据权利要求4所述的基于语音驱动的嘴部动作生成方法，其特征在于，所述通过预设损失函数对所述嘴部特征进行...

【专利技术属性】
技术研发人员：胡魁，李佼，姜禹，戴磊，陈远旭，
申请(专利权)人：平安科技深圳有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人