【技术实现步骤摘要】
人脸关键点的生成方法、装置、终端设备及可读存储介质
[0001]本申请属于跨模态生成
,尤其涉及一种人脸关键点的生成方法、装置、终端设备及可读存储介质。
技术介绍
[0002]视觉与听觉是人们感知外部世界最主要的途径。研究表明,视觉信息与听觉信息的结合可以帮助人们更好地理解外部世界所要表达的内容。比如,人们相互交流时,看见唇部运动可以显著提高人们对语音内容的理解。
[0003]因此,根据语音信号生成会说话的人脸可以帮助用户更好地理解语音内容,从而提高人际交流和人机交互的便捷性。
[0004]目前,根据语音信号生成会说话的人脸的方法主要有面向形状模型的方法和面向图像的方法。面向形状模型的方法一般是采用可变形的脸部形状模型,面向图像的方法一般是直接根据语音预测RGB脸部或嘴巴图像序列。
[0005]然而,目前这些方法均无法直接根据语音信号生成三维人脸关键点。
技术实现思路
[0006]本申请实施例提供了一种人脸关键点的生成方法、装置、终端设备及可读存储介质,可以一定程度上解决无法直接 ...
【技术保护点】
【技术特征摘要】
1.一种人脸关键点的生成方法,其特征在于,包括:获取目标音频信号,并将所述目标音频信号输入至已训练的神经网络模型中进行处理,输出目标权重向量;获取目标平均形状向量和目标特征向量,以及根据所述目标平均形状向量、所述目标特征向量和所述目标权重向量计算所述目标音频信号对应的目标三维人脸关键点。2.如权利要求1所述的方法,其特征在于,在所述获取目标音频信号之前,所述方法还包括:获取初始音频信号,并将所述初始音频信号输入至待训练的神经网络模型中进行处理,输出初始权重向量;获取所述初始音频信号对应的真实权重向量,并根据所述初始权重向量和所述真实权重向量计算目标损失值;若所述目标损失值不满足预设条件,则根据所述目标损失值更新所述待训练的神经网络模型的网络参数,并返回执行获取初始音频信号的步骤;若所述目标损失值满足所述预设条件,则停止训练,得到所述已训练的神经网络模型。3.如权利要求2所述的方法,其特征在于,在所述获取所述初始音频信号对应的真实权重向量之前,所述方法还包括:获取所述初始音频信号对应的初始人脸图像,提取所述初始人脸图像对应的初始二维人脸关键点;根据所述初始人脸图像将所述初始二维人脸关键点转换为初始三维人脸关键点,并根据所述初始三维人脸关键点构建初始形状向量;对所述初始形状向量进行主成分分析,得到所述初始人脸图像对应的真实权重向量、目标平均形状向量以及目标特征向量。4.如权利要求3所述的方法,其特征在于,所述对所述初始形状向量进行主成分分析,得到所述初始人脸图像对应的真实权重向量、目标平均形状向量以及目标特征向量,包括:根据所述初始人脸图像确定参考人脸图像以及模板人脸图像,并根据所述初始形状向量、所述参考人脸图像以及所述模板人脸图像计算目标形状向量;对所述目标形状向量进行主成分分析,得到所述初始人脸图像对应的真实权重向量、目标平均形状向量以及目标特征向量。5.如权利要求4所述的方法,...
【专利技术属性】
技术研发人员:张传昊,陈鹏,邹梦超,谢中朝,刘阳兴,
申请(专利权)人:武汉TCL集团工业研究院有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。