System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 人体关键点生成方法及装置、计算机可读存储介质、终端制造方法及图纸_技高网

人体关键点生成方法及装置、计算机可读存储介质、终端制造方法及图纸

技术编号:40324958 阅读:5 留言:0更新日期:2024-02-09 14:19
一种人体关键点生成方法及装置、计算机可读存储介质、终端,所述人体关键点包含人脸关键点和躯体关键点,所述方法包括:对目标音频进行第一特征提取得到第一特征序列,然后解码得到多组人脸关键点,第一特征序列至少包含目标音频的语义信息和韵律信息;对目标音频进行第二特征提取得到第二特征序列,第二特征序列包含目标音频的语义信息且不包含韵律信息;采用第二特征序列与预设的待匹配样本库中的至少一部分样本特征序列进行特征匹配,以确定相似度最高的样本特征序列;基于所述多组人脸关键点,以及相似度最高的样本特征序列对应的一组或多组躯体关键点进行拼接,得到多组人体关键点。上述方案有助于提高生成的人体关键点的准确性和稳定性。

【技术实现步骤摘要】

本专利技术涉及人体关键点生成,尤其涉及一种人体关键点生成方法及装置、计算机可读存储介质、终端


技术介绍

1、随着人工智能技术的发展,生成式人工智能(artificial intelligencegenerated content,aigc)已经成为当前最热门的研究课题。其中,元宇宙仍是非常重要的应用方向之一。随着算力和技术的发展,各种和元宇宙相关的增强现实(augmentedreality,ar)和虚拟现实(virtual reality,vr)设备被不断推出。而在这些设备中,人物形象都是不可缺少的一环。无论是虚拟人物形象还是真实人物形象都会涉及到大量生成任务。当前主流的人物形象生成技术通常包含两个任务,其一是基于驱动音频生成人体关键点;其二是基于已获得的人体关键点生成人物形象。研究如何准确地生成人体关键点,对于提高后续生成的人物形象的质量至关重要。

2、现有技术中,大多数人体关键点生成任务并没有针对人脸区域和非人脸区域(也称为躯体区域)进行区分,而是对这两大区域执行统一的生成任务。例如,直接将驱动音频输入训练好的模型,由模型统一输出包含人脸区域和躯体区域的完整人体关键点。

3、然而,由于人脸区域与音频的相关性,和躯体区域与音频的相关性并不相同。具体而言,人脸区域的表现状态(例如,表情、口型等)与音频的语义和韵律(例如,节奏、音速、音强等)都具有较强相关性,而躯体区域的表现状态(例如,手势动作)与音频相关性较弱,具体体现在不同个性的人在说同一段话时,可能采取不同风格的手势动作。因此现有技术针对人脸关键点和躯体关键点采用统一生成任务,可能导致最终获得的人体关键点的准确性和稳定性不足。


技术实现思路

1、本专利技术实施例解决的技术问题是如何提高生成的人体关键点的准确性和稳定性。

2、为解决上述技术问题,本专利技术实施例提供一种人体关键点生成方法,所述人体关键点包含人脸关键点和躯体关键点,所述方法包括以下步骤:对目标音频进行第一特征提取,得到第一特征序列,然后对所述第一特征序列进行解码,得到多组人脸关键点,其中,所述第一特征序列至少包含所述目标音频的语义信息和韵律信息;对所述目标音频进行第二特征提取,得到第二特征序列,其中,所述第二特征序列包含所述目标音频的语义信息且不包含韵律信息;采用所述第二特征序列与预设的待匹配样本库中的至少一部分样本特征序列进行特征匹配,以确定与所述第二特征序列相似度最高的样本特征序列,其中,所述待匹配样本库包含多个样本特征序列及每个样本特征序列对应的一组或多组躯体关键点;基于所述多组人脸关键点,以及所述相似度最高的样本特征序列对应的一组或多组躯体关键点进行拼接,得到多组人体关键点。

3、可选的,在采用所述第二特征序列与预设的待匹配样本库中的至少一部分样本特征序列进行特征匹配之前,所述方法还包括:获取说话者说话过程的样本视频,并从中提取样本音频和样本图像序列;对所述样本音频进行特征提取,以得到多个样本特征序列;对于至少一部分样本特征序列,从所述样本图像序列中确定与每个所述样本特征序列时序对齐的多帧样本图像;从与每个所述样本特征序列时序对齐的多帧样本图像中,选取一帧或多帧样本图像进行躯体关键点识别,得到该样本特征序列对应的一组或多组躯体关键点;采用所述至少一部分样本特征序列及其各自对应的一组或多组躯体关键点,构建所述待匹配样本库。

4、可选的,采用下述方式确定所述至少一部分样本特征序列:确定每个样本特征序列对应的原始样本文本;从所述多个样本特征序列中,选取原始样本文本列入预设文本集合的样本特征序列,作为所述至少一部分样本特征序列。

5、可选的,从与每个所述样本特征序列时序对齐的多帧样本图像中,选取一帧或多帧样本图像进行躯体关键点识别,包括:从与每个所述样本特征序列时序对齐的多帧样本图像中,选取时序最前的一帧样本图像以及时序最后的一帧样本图像分别进行躯体关键识别。

6、可选的,基于所述多组人脸关键点,以及所述相似度最高的样本特征序列对应的一组或多组躯体关键点进行拼接,包括:如果所述相似度最高的样本特征序列对应的躯体关键点组的总组数,小于所述多组人脸关键点的总组数,则基于所述相似度最高的样本特征序列对应的一组或多组躯体关键点进行插值处理,得到与所述多组人脸关键点在时序上一一对齐的多组躯体关键点;基于预设的标准间距,对每组人脸关键点及其时序对齐的躯体关键点组进行拼接;其中,所述标准间距用于表示每组人脸关键点中预设的基准人脸关键点位置及其时序对齐的躯体关键点组中预设的基准躯体关键点位置之间的间距。

7、可选的,所述对目标音频进行第一特征提取,得到第一特征序列,然后对所述第一特征序列进行解码,得到多组人脸关键点,包括:确定人脸关键点生成模型,所述人脸关键点生成模型包括:音频特征提取子模型和解码子模型;将所述目标音频输入所述音频特征提取子模型进行第一特征提取,得到所述第一特征序列;将所述第一特征序列输入所述解码子模型,得到所述多组人脸关键点。

8、可选的,所述音频特征提取子模型包括第一子模型和第二子模型;将所述目标音频输入所述音频特征提取子模型进行第一特征提取,包括:将所述目标音频输入所述第一子模型进行初步特征提取,得到初步特征序列;将所述初步特征序列输入所述第二子模型进行特征再提取,得到所述第一特征序列;其中,所述第一特征序列中的第一特征的维度小于所述初步特征序列中的初步特征的维度。

9、可选的,所述确定人脸关键点生成模型,包括:构建初始化模型,所述初始化模型包括预训练的第一子模型、待优化的第二子模型以及预训练的解码子模型;采用训练音频构建训练数据集,以及采用所述训练音频对应的训练图像的人脸关键点作为标注数据,对所述初始化模型进行迭代训练,以得到所述人脸关键点生成模型;其中,迭代训练过程中,仅优化所述待优化的第二子模型的参数。

10、本专利技术实施例还提供一种人体关键点生成装置,包括:人脸关键点生成模块,用于对目标音频进行第一特征提取,得到第一特征序列,然后对所述第一特征序列进行解码,得到多组人脸关键点,其中,所述第一特征序列至少包含所述目标音频的语义信息和韵律信息;特征提取模块,用于对所述目标音频进行第二特征提取,得到第二特征序列,其中,所述第二特征序列包含所述目标音频的语义信息且不包含韵律信息;躯体关键点生成模块,用于采用所述第二特征序列与预设的待匹配样本库中的至少一部分样本特征序列进行特征匹配,以确定与所述第二特征序列相似度最高的样本特征序列,其中,所述待匹配样本库包含多个样本特征序列及每个样本特征序列对应的一组或多组躯体关键点;关键点拼接模块,用于基于所述多组人脸关键点,以及所述相似度最高的样本特征序列对应的一组或多组躯体关键点进行拼接,得到多组人体关键点。

11、本专利技术实施例还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器运行时执行上述人体关键点生成方法的步骤。

12、本专利技术实施例还提供一种终端,包括存储器和处理器,所述存储器上本文档来自技高网...

【技术保护点】

1.一种人体关键点生成方法,其特征在于,所述人体关键点包含人脸关键点和躯体关键点,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,在采用所述第二特征序列与预设的待匹配样本库中的至少一部分样本特征序列进行特征匹配之前,所述方法还包括:

3.根据权利要求2所述的方法,其特征在于,采用下述方式确定所述至少一部分样本特征序列:

4.根据权利要求2或3所述的方法,其特征在于,从与每个所述样本特征序列时序对齐的多帧样本图像中,选取一帧或多帧样本图像进行躯体关键点识别,包括:

5.根据权利要求1所述的方法,其特征在于,基于所述多组人脸关键点,以及所述相似度最高的样本特征序列对应的一组或多组躯体关键点进行拼接,包括:

6.根据权利要求1所述的方法,其特征在于,所述对目标音频进行第一特征提取,得到第一特征序列,然后对所述第一特征序列进行解码,得到多组人脸关键点,包括:

7.根据权利要求6所述的方法,其特征在于,所述音频特征提取子模型包括第一子模型和第二子模型;

8.根据权利要求7所述的方法,其特征在于,所述确定人脸关键点生成模型,包括:

9.一种人体关键点生成装置,其特征在于,所述人体关键点包含人脸关键点和躯体关键点,所述装置包括:

10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器运行时执行权利要求1至8任一项所述人体关键点生成方法的步骤。

11.一种终端,包括存储器和处理器,所述存储器上存储有能够在所述处理器上运行的计算机程序,其特征在于,所述处理器运行所述计算机程序时执行权利要求1至8任一项所述人体关键点生成方法的步骤。

...

【技术特征摘要】

1.一种人体关键点生成方法,其特征在于,所述人体关键点包含人脸关键点和躯体关键点,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,在采用所述第二特征序列与预设的待匹配样本库中的至少一部分样本特征序列进行特征匹配之前,所述方法还包括:

3.根据权利要求2所述的方法,其特征在于,采用下述方式确定所述至少一部分样本特征序列:

4.根据权利要求2或3所述的方法,其特征在于,从与每个所述样本特征序列时序对齐的多帧样本图像中,选取一帧或多帧样本图像进行躯体关键点识别,包括:

5.根据权利要求1所述的方法,其特征在于,基于所述多组人脸关键点,以及所述相似度最高的样本特征序列对应的一组或多组躯体关键点进行拼接,包括:

6.根据权利要求1所述的方法,其特征在于,所述对目标音频进行第一特征...

【专利技术属性】
技术研发人员:虞钉钉徐清宣晓华王晓梅沈伟林沈旭立曹培
申请(专利权)人:华院计算技术上海股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1