人脸关键点的生成方法、装置、终端设备及可读存储介质制造方法及图纸

技术编号:35807730 阅读:19 留言:0更新日期:2022-12-03 13:26
本申请适用于跨模态生成技术领域,提供了一种人脸关键点的生成方法、装置、终端设备及可读存储介质,该方法包括:获取目标音频信号,并将目标音频信号输入至已训练的神经网络模型中进行处理,输出目标权重向量;获取目标平均形状向量和目标特征向量,以及根据目标平均形状向量、目标特征向量和目标权重向量计算目标音频信号对应的目标三维人脸关键点。本申请一定程度上可以解决无法直接根据语音信号生成三维人脸关键点的问题。成三维人脸关键点的问题。成三维人脸关键点的问题。

【技术实现步骤摘要】
人脸关键点的生成方法、装置、终端设备及可读存储介质


[0001]本申请属于跨模态生成
,尤其涉及一种人脸关键点的生成方法、装置、终端设备及可读存储介质。

技术介绍

[0002]视觉与听觉是人们感知外部世界最主要的途径。研究表明,视觉信息与听觉信息的结合可以帮助人们更好地理解外部世界所要表达的内容。比如,人们相互交流时,看见唇部运动可以显著提高人们对语音内容的理解。
[0003]因此,根据语音信号生成会说话的人脸可以帮助用户更好地理解语音内容,从而提高人际交流和人机交互的便捷性。
[0004]目前,根据语音信号生成会说话的人脸的方法主要有面向形状模型的方法和面向图像的方法。面向形状模型的方法一般是采用可变形的脸部形状模型,面向图像的方法一般是直接根据语音预测RGB脸部或嘴巴图像序列。
[0005]然而,目前这些方法均无法直接根据语音信号生成三维人脸关键点。

技术实现思路

[0006]本申请实施例提供了一种人脸关键点的生成方法、装置、终端设备及可读存储介质,可以一定程度上解决无法直接根据语音信号生成三维人脸关键点的问题。
[0007]第一方面,本申请实施例提供了一种人脸关键点的生成方法,包括:
[0008]获取目标音频信号,并将上述目标音频信号输入至已训练的神经网络模型中进行处理,输出目标权重向量;
[0009]获取目标平均形状向量和目标特征向量,以及根据上述目标平均形状向量、上述目标特征向量和上述目标权重向量计算上述目标音频信号对应的目标三维人脸关键点。
[0010]第二方面,本申请实施例提供了一种人脸关键点的生成装置,包括:
[0011]第一获取模块,用于获取目标音频信号;
[0012]处理模块,用于将上述目标音频信号输入至已训练的神经网络模型中进行处理,输出目标权重向量;
[0013]第二获取模块,用于获取目标平均形状向量和目标特征向量;
[0014]计算模块,用于根据上述目标平均形状向量、上述目标特征向量和上述目标权重向量计算上述目标音频信号对应的目标三维人脸关键点。
[0015]第三方面,本申请实施例提供了一种终端设备,终端设备包括存储器、处理器以及存储在上述存储器中并可在上述处理器上运行的计算机程序,上述处理器执行上述计算机程序时实现如上述第一方面提供的方法中的步骤。
[0016]第四方面,本申请实施例提供了一种计算机可读存储介质,上述计算机可读存储介质存储有计算机程序,上述计算机程序被处理器执行时实现如上述第一方面提供的方法中的步骤。
[0017]第五方面,本申请实施例提供了一种计算机程序产品,当计算机程序产品在终端设备上运行时,使得终端设备执行上述第一方面中提供的图像识别方法。
[0018]可以理解的是,上述第二方面至第五方面的有益效果可以参见上述第一方面中的相关描述,在此不再赘述。
[0019]本申请实施例与现有技术相比存在的有益效果是:在本申请中,根据目标平均形状向量、目标特征向量和目标权重向量即可得到目标音频信号对应的三维人脸关键点,简单方便,实现了直接根据目标音频信号生成三维人脸关键点。
附图说明
[0020]为了更清楚地说明本申请实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0021]图1是本申请一实施例提供的人脸关键点的生成方法的流程示意图;
[0022]图2是本申请一实施例提供的待训练的神经网络模型的结构示意图;
[0023]图3是本申请一实施例提供的另外一种待训练的神经网络模型的结构示意图;
[0024]图4是本申请一实施例提供的人脸关键点的生成装置的结构示意图;
[0025]图5是本申请实施例提供的终端设备的结构示意图。
具体实施方式
[0026]以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具体细节,以便透彻理解本申请实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本申请。在其它情况中,省略对众所周知的系统、装置、电路以及方法的详细说明,以免不必要的细节妨碍本申请的描述。
[0027]应当理解,当在本申请说明书和所附权利要求书中使用时,术语“包括”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
[0028]还应当理解,在本申请说明书和所附权利要求书中使用的术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
[0029]如在本申请说明书和所附权利要求书中所使用的那样,术语“如果”可以依据上下文被解释为“当...时”或“一旦”或“响应于确定”或“响应于检测到”。类似地,短语“如果确定”或“如果检测到[所描述条件或事件]”可以依据上下文被解释为意指“一旦确定”或“响应于确定”或“一旦检测到[所描述条件或事件]”或“响应于检测到[所描述条件或事件]”。
[0030]另外,在本申请说明书和所附权利要求书的描述中,术语“第一”、“第二”、“第三”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
[0031]在本申请说明书中描述的参考“一个实施例”或“一些实施例”等意味着在本申请的一个或多个实施例中包括结合该实施例描述的特定特征、结构或特点。由此,在本说明书中的不同之处出现的语句“在一个实施例中”、“在一些实施例中”、“在其他一些实施例中”、“在另外一些实施例中”等不是必然都参考相同的实施例,而是意味着“一个或多个但不是
所有的实施例”,除非是以其他方式另外特别强调。术语“包括”、“包含”、“具有”及它们的变形都意味着“包括但不限于”,除非是以其他方式另外特别强调。
[0032]本申请实施例提供的人脸关键点的生成方法可以应用于手机、平板电脑、笔记本电脑、超级移动个人计算机(ultra

mobile personal computer,UMPC)、上网本、个人数字助理(personal digital assistant,PDA)等终端设备上,本申请实施例对终端设备的具体类型不作任何限制。
[0033]为了说明本申请提供的技术方案,下面通过具体实施例来进行说明。
[0034]实施例一
[0035]下面对本申请实施例一提供的一种人脸关键点的生成方法进行描述,请参阅附图1,该方法包括:
[0036]步骤S101、获取目标音频信号,并将目标音频信号输入至已训练的神经网络模型中进行处理,输出目标权重向量。
[0037]在步骤S101中,目标音频信号可以通过本实施例的终端设备采集,也可以通过其他终端设备采集后,再发送至本实施例的终端设备进本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种人脸关键点的生成方法,其特征在于,包括:获取目标音频信号,并将所述目标音频信号输入至已训练的神经网络模型中进行处理,输出目标权重向量;获取目标平均形状向量和目标特征向量,以及根据所述目标平均形状向量、所述目标特征向量和所述目标权重向量计算所述目标音频信号对应的目标三维人脸关键点。2.如权利要求1所述的方法,其特征在于,在所述获取目标音频信号之前,所述方法还包括:获取初始音频信号,并将所述初始音频信号输入至待训练的神经网络模型中进行处理,输出初始权重向量;获取所述初始音频信号对应的真实权重向量,并根据所述初始权重向量和所述真实权重向量计算目标损失值;若所述目标损失值不满足预设条件,则根据所述目标损失值更新所述待训练的神经网络模型的网络参数,并返回执行获取初始音频信号的步骤;若所述目标损失值满足所述预设条件,则停止训练,得到所述已训练的神经网络模型。3.如权利要求2所述的方法,其特征在于,在所述获取所述初始音频信号对应的真实权重向量之前,所述方法还包括:获取所述初始音频信号对应的初始人脸图像,提取所述初始人脸图像对应的初始二维人脸关键点;根据所述初始人脸图像将所述初始二维人脸关键点转换为初始三维人脸关键点,并根据所述初始三维人脸关键点构建初始形状向量;对所述初始形状向量进行主成分分析,得到所述初始人脸图像对应的真实权重向量、目标平均形状向量以及目标特征向量。4.如权利要求3所述的方法,其特征在于,所述对所述初始形状向量进行主成分分析,得到所述初始人脸图像对应的真实权重向量、目标平均形状向量以及目标特征向量,包括:根据所述初始人脸图像确定参考人脸图像以及模板人脸图像,并根据所述初始形状向量、所述参考人脸图像以及所述模板人脸图像计算目标形状向量;对所述目标形状向量进行主成分分析,得到所述初始人脸图像对应的真实权重向量、目标平均形状向量以及目标特征向量。5.如权利要求4所述的方法,...

【专利技术属性】
技术研发人员:张传昊陈鹏邹梦超谢中朝刘阳兴
申请(专利权)人:武汉TCL集团工业研究院有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1