关节姿态参数的确定方法、模型训练方法及装置制造方法及图纸

技术编号:33812062 阅读:9 留言:0更新日期:2022-06-16 10:22
本公开提供的关节姿态参数的确定方法、模型训练方法及装置,涉及深度学习技术、增强现实技术和数字人技术领域,包括:获取用于驱动数字人动作的音频数据和视频数据;视频数据中包括人物动作画面;提取音频数据中包括的音频帧的音频特征,以及视频数据中包括的视频帧的动作特征;根据音频特征和动作特征,确定出关节姿态参数,关节姿态参数用于控制数字人的动作。本公开提供的方案中,能够提取视频画面中人物做出的动作特征,并融合音频数据中的音频特征,得到关节姿态参数,使得关节姿态参数符合人物动作的特征,又符合音频数据中的音频特征,从而实现数字人的高效、高精度驱动。高精度驱动。高精度驱动。

【技术实现步骤摘要】
关节姿态参数的确定方法、模型训练方法及装置


[0001]本公开涉及人工智能技术中的深度学习技术、增强现实技术和数字人
,尤其涉及一种关节姿态参数的确定方法、模型训练方法、装置、电子设备、计算机可读存储介质及程序产品。

技术介绍

[0002]数字人是虚拟的3D人形模型,数字人存在很多应用,比如可以控制数字人跳舞,以实现娱乐功能,再比如,可以控制数字人做出与正在播放的语音内容相符的手语动作。
[0003]目前,在驱动数字人的方案中,以驱动数字人跳舞为例,通常利用音频数据驱动数字人跳舞,或者利用视频数据驱动数字人跳舞。
[0004]在利用音频数据驱动数字人跳舞时,现有的基于音频驱动数字人跳舞的方法无法针对音频的音高和频率变化,对应产生富有节奏的舞蹈动作变化,具体表现在动作的速度和幅度不准确,没有打点的感觉。
[0005]而基于视频的驱动方案则需要采集真实用户的舞蹈视频,这就要求用户有较高的舞蹈基础,如果其动作不标准,最终驱动效果则会大打折扣,需要加入很多后处理或者人工动画修正才能驱动数字人做出合理的动作。

技术实现思路

[0006]本公开提供了一种关节姿态参数的确定方法、模型训练方法及装置,从而实现数字人的高效、高精度驱动。
[0007]根据本公开的第一方面,提供了一种数字人的关节姿态参数的确定方法,包括:
[0008]获取用于驱动数字人动作的音频数据,以及用于驱动数字人动作的视频数据;所述视频数据中包括人物动作画面;
[0009]提取所述音频数据中包括的音频帧的音频特征,以及所述视频数据中包括的视频帧的动作特征;
[0010]根据所述音频特征和所述动作特征,确定出关节姿态参数,所述关节姿态参数用于控制所述数字人的动作。
[0011]根据本公开的第二方面,提供了一种数字人的驱动方法,包括:
[0012]利用权利要求如第一方面所述的方法获取数字人的关节姿态参数;
[0013]基于所述关节姿态参数,控制所述数字人的动作。
[0014]根据本公开的第三方面,提供了一种模型训练方法,包括:
[0015]获取训练数据集,所述训练数据集中包括关节姿态标签参数、与所述关节姿态标签参数对应的样本音频帧数据,以及与所述关节姿态标签参数对应的样本视频帧数据;
[0016]提取所述样本音频帧数据包括的样本音频特征,以及所述样本视频帧数据包括的样本动作特征;
[0017]将所述样本音频特征和所述样本动作特征输入预设的模型中,得到与所述样本音
频帧数据和所述样本视频帧数据对应的关节姿态预测参数;
[0018]根据与所述样本音频帧数据和所述样本视频帧数据对应的所述关节姿态标签参数,以及与所述样本音频帧数据和所述样本视频帧数据对应的所述关节姿态预测参数,调整所述模型中的参数,得到用于生成关节姿态参数的模型。
[0019]根据本公开的第四方面,提供了一种数字人的关节姿态参数的确定装置,包括:
[0020]获取单元,用于获取用于驱动数字人动作的音频数据,以及用于驱动所述数字人动作的视频数据;所述视频数据中包括人物动作画面;
[0021]提取单元,用于提取所述音频数据中包括的音频帧的音频特征,以及所述视频数据中包括的视频帧的动作特征;
[0022]生成单元,用于根据所述音频特征和所述动作特征,确定出关节姿态参数,所述关节姿态参数用于控制所述数字人的动作。
[0023]根据本公开的第五方面,提供了一种数字人的驱动装置,包括:
[0024]利用第六方面所述的装置获取数字人的关节姿态参数;
[0025]基于所述关节姿态参数,控制所述数字人的动作。
[0026]根据本公开的第六方面,提供了一种模型训练装置,包括:
[0027]数据获取单元,用于获取训练数据集,所述训练数据集中包括关节姿态标签参数、与所述关节姿态标签参数对应的样本音频帧数据,以及与所述关节姿态标签参数对应的样本视频帧数据;
[0028]特征提取单元,用于提取所述样本音频帧数据包括的样本音频特征,以及所述样本视频帧数据包括的样本动作特征;
[0029]参数生成单元,用于将所述样本音频特征和所述样本动作特征输入预设的模型中,得到与所述样本音频帧数据和所述样本视频帧数据对应的关节姿态预测参数;
[0030]调整单元,用于根据与所述样本音频帧数据和所述样本视频帧数据对应的所述关节姿态标签参数,以及与所述样本音频帧数据和所述样本视频帧数据对应的所述关节姿态预测参数,调整所述模型中的参数,得到用于生成关节姿态参数的模型。
[0031]根据本公开的第七方面,提供了一种电子设备,包括:
[0032]至少一个处理器;以及
[0033]与所述至少一个处理器通信连接的存储器;其中,
[0034]所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如第一方面或第二方面所述的方法。
[0035]根据本公开的第八方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行如第一方面或第二方面所述的方法。
[0036]根据本公开的第九方面,提供了一种计算机程序产品,所述计算机程序产品包括:计算机程序,所述计算机程序存储在可读存储介质中,电子设备的至少一个处理器可以从所述可读存储介质读取所述计算机程序,所述至少一个处理器执行所述计算机程序使得电子设备执行第一方面或第二方面所述的方法。
[0037]本公开提供的关节姿态参数的确定方法、模型训练方法及装置,包括:获取用于驱动数字人动作的音频数据,以及用于驱动数字人动作的视频数据;视频数据中包括人物动作画面;提取音频数据中包括的音频帧的音频特征,以及视频数据中包括的视频帧的动作
特征;根据音频特征和动作特征,确定出关节姿态参数,关节姿态参数用于控制数字人的动作。本公开提供的方案中,能够提取视频画面中人物做出的动作特征,并融合音频数据中的音频特征,得到关节姿态参数,使得关节姿态参数符合人物动作的特征,又符合音频数据中的音频特征,从而实现数字人的高效、高精度驱动,能够高效的得到数字人做出有节奏的动作的画面。
[0038]应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
[0039]附图用于更好地理解本方案,不构成对本公开的限定。其中:
[0040]图1为本公开一示例性实施例示出的数字人的关节姿态参数的确定方法的流程示意图;
[0041]图2为本公开另一示例性实施例示出的数字人的关节姿态参数的确定方法的流程示意图;
[0042]图3为本公开一示例性实施例示出的通过模型生成关节姿态参数的流程示意图;
[0043]图4为本公开又一示例性实施例示出的数字人的关节姿态本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数字人的关节姿态参数的确定方法,包括:获取用于驱动数字人动作的音频数据,以及用于驱动所述数字人动作的视频数据;所述视频数据中包括人物动作画面;提取所述音频数据中包括的音频帧的音频特征,以及所述视频数据中包括的视频帧的动作特征;根据所述音频特征和所述动作特征,确定出关节姿态参数,所述关节姿态参数用于控制所述数字人的动作。2.根据权利要求1所述的方法,其中,所述根据所述音频特征和所述动作特征,确定出关节姿态参数,包括:将所述音频特征和所述动作特征输入用于生成关节姿态参数的模型,得到与所述音频帧和所述视频帧对应的关节姿态参数。3.根据权利要求1或2所述的方法,其中,所述音频特征包括音频频率特征、音调特征和频域特征;所述提取所述音频数据中包括的音频帧的音频特征,包括:对所述音频数据包括的音频帧进行处理,得到所述音频帧的音频频率特征、音调特征和频域特征;所述根据所述音频特征和所述动作特征,确定出关节姿态参数,包括:根据所述音频频率特征、所述音调特征、所述频域特征和所述动作特征,确定出所述关节姿态参数。4.根据权利要求1

3任一项所述的方法,其中,提取所述视频数据中包括的视频帧的动作特征,包括:对所述视频数据包括的视频帧进行处理,得到所述视频帧中包括的动作频率特征和动作幅度特征;所述根据所述音频特征和所述动作特征,确定出关节姿态参数,包括:根据所述音频特征、所述动作频率特征和所述动作幅度特征,确定出所述关节姿态参数。5.根据权利要求1

4任一项所述的方法,还包括:获取风格参数信息;所述风格参数信息用于表征数字人根据所述关节姿态参数所作出的动作的风格;所述根据所述音频特征和所述动作特征,确定出关节姿态参数,包括:根据所述音频特征、所述动作特征以及所述风格参数信息,确定出所述关节姿态参数。6.根据权利要求5所述的方法,所述根据所述音频特征、所述动作特征以及所述风格参数信息,确定出所述关节姿态参数,包括:将所述音频特征、所述动作特征以及所述风格参数信息输入用于生成关节姿态参数的模型,得到所述关节姿态参数。7.一种数字人的驱动方法,包括:利用权利要求1

6中任一项所述的方法获取数字人的关节姿态参数;基于所述关节姿态参数,控制所述数字人的动作。8.一种模型训练方法,包括:
获取训练数据集,所述训练数据集中包括关节姿态标签参数、与所述关节姿态标签参数对应的样本音频帧数据,以及与所述关节姿态标签参数对应的样本视频帧数据;提取所述样本音频帧数据包括的样本音频特征,以及所述样本视频帧数据包括的样本动作特征;将所述样本音频特征和所述样本动作特征输入预设的模型中,得到与所述样本音频帧数据和所述样本视频帧数据对应的关节姿态预测参数;根据与所述样本音频帧数据和所述样本视频帧数据对应的所述关节姿态标签参数,以及与所述样本音频帧数据和所述样本视频帧数据对应的所述关节姿态预测参数,调整所述模型中的参数,得到用于生成关节姿态参数的模型。9.根据权利要求8所述的方法,还包括:在所述样本视频帧数据中识别人体关节的第一二维位置坐标,并将所述第一二维位置坐标转换为三维位置坐标;根据所述第一二维位置坐标和所述三维位置坐标,确定与所述样本视频帧数据对应的关节姿态标签参数。10.根据权利要求9所述的方法,其中,所述根据所述第一二维位置坐标和所述三维位置坐标,确定与所述样本视频帧数据对应的关节姿态标签参数,包括:根据所述样本视频帧数据中人体关节的所述三维位置坐标,调整预设的三维数字人的关节姿态,并确定调整了关节姿态后的所述三维数字人的关节的第二二维位置坐标;根据所述第一二维位置坐标和所述第二二维位置坐标,调整所述三维数字人的关节姿态,将调整后的关节姿态的参数确定为与所述样本视频帧数据对应的关节姿态标签参数。11.根据权利要求10所述的方法,其中,所述确定调整了关节姿态后的所述三维数字人的关节的第二二维位置坐标,包括:获取调整了关节姿态后的所述三维数字人的图像,并在所述图像中确定所述三维数字人的关节的第二二维位置坐标。12.根据权利要求10所述的方法,其中,所述根据所述第一二维位置坐标和所述第二二维位置坐标,调整所述三维数字人的关节姿态,包括:根据所述第一二维位置坐标和所述第二二维位置坐标,确定位置误差;根据所述位置误差拟合得到所述三维数字人调整后的关节姿态参数,并根据调整后的关节姿态参数调整所述三维数字人的关节姿态。13.根据权利要求8

12任一项所述的方法,其中,所述样本音频特征包括样本音频频率特征、样本音调特征和样本频域特征;所述提取所述样本音频帧数据包括的样本音频特征,包括:对所述样本音频帧数据进行处理,得到所述样本音频帧数据的样本音频频率特征、样本音调特征和样本频域特征;所述将所述样本音频特征和所述样本动作特征输入预设的模型中,得到与所述样本音频帧数据和所述样本视频帧数据对应的关节姿态预测参数,包括:将所述样本音频频率特征、所述样本音调特征、所述样本频域特征和所述样本动作特征,输入预设的模型中,得到与所述样本音频帧数据和所述样本视频帧数据对应的关节姿态预测参数。
14.根据权利要求8

13任一项所述的方法,其中,提取所述样本视频帧数据包括的样本动作特征,包括:对所述样本视频帧数据进行处理,得到所述样本视频帧数据中包括的样本动作频率特征和样本动作幅度特征;所述将所述样本音频特征和所述样本动作特征输入预设的模型中,得到与所述样本音频帧数据和所述样本视频帧数据对应的关节姿态预测参数,包括:将所述样本音频特征、所述样本动作频率特征和所述样本动作幅度特征,输入预设的模型中,得到与所述样本音频帧数据和所述样本视频帧数据对应的关节姿态预测参数。15.一种数字人的关节姿态参数的确定装置,包括:第一获取单元,用于获取用于驱动数字人动作的音频数据,以及用于驱动所述数字...

【专利技术属性】
技术研发人员:郭紫垣赵亚飞张世昌范锡睿
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1