关节姿态参数的确定方法、模型训练方法及装置制造方法及图纸

技术编号：33812062 阅读：9 留言：0更新日期：2022-06-16 10:22

本公开提供的关节姿态参数的确定方法、模型训练方法及装置，涉及深度学习技术、增强现实技术和数字人技术领域，包括：获取用于驱动数字人动作的音频数据和视频数据；视频数据中包括人物动作画面；提取音频数据中包括的音频帧的音频特征，以及视频数据中包括的视频帧的动作特征；根据音频特征和动作特征，确定出关节姿态参数，关节姿态参数用于控制数字人的动作。本公开提供的方案中，能够提取视频画面中人物做出的动作特征，并融合音频数据中的音频特征，得到关节姿态参数，使得关节姿态参数符合人物动作的特征，又符合音频数据中的音频特征，从而实现数字人的高效、高精度驱动。高精度驱动。高精度驱动。

全部详细技术资料下载

【技术实现步骤摘要】
关节姿态参数的确定方法、模型训练方法及装置

[0001]本公开涉及人工智能技术中的深度学习技术、增强现实技术和数字人
，尤其涉及一种关节姿态参数的确定方法、模型训练方法、装置、电子设备、计算机可读存储介质及程序产品。

技术介绍

[0002]数字人是虚拟的3D人形模型，数字人存在很多应用，比如可以控制数字人跳舞，以实现娱乐功能，再比如，可以控制数字人做出与正在播放的语音内容相符的手语动作。
[0003]目前，在驱动数字人的方案中，以驱动数字人跳舞为例，通常利用音频数据驱动数字人跳舞，或者利用视频数据驱动数字人跳舞。
[0004]在利用音频数据驱动数字人跳舞时，现有的基于音频驱动数字人跳舞的方法无法针对音频的音高和频率变化，对应产生富有节奏的舞蹈动作变化，具体表现在动作的速度和幅度不准确，没有打点的感觉。
[0005]而基于视频的驱动方案则需要采集真实用户的舞蹈视频，这就要求用户有较高的舞蹈基础，如果其动作不标准，最终驱动效果则会大打折扣，需要加入很多后处理或者人工动画修正才能驱动数字人做出合理的动作。

技术实现思路

[0006]本公开提供了一种关节姿态参数的确定方法、模型训练方法及装置，从而实现数字人的高效、高精度驱动。
[0007]根据本公开的第一方面，提供了一种数字人的关节姿态参数的确定方法，包括：
[0008]获取用于驱动数字人动作的音频数据，以及用于驱动数字人动作的视频数据；所述视频数据中包括人物动作画面；
[0009]提取所述音频数据中包括...

【技术保护点】

【技术特征摘要】
1.一种数字人的关节姿态参数的确定方法，包括：获取用于驱动数字人动作的音频数据，以及用于驱动所述数字人动作的视频数据；所述视频数据中包括人物动作画面；提取所述音频数据中包括的音频帧的音频特征，以及所述视频数据中包括的视频帧的动作特征；根据所述音频特征和所述动作特征，确定出关节姿态参数，所述关节姿态参数用于控制所述数字人的动作。2.根据权利要求1所述的方法，其中，所述根据所述音频特征和所述动作特征，确定出关节姿态参数，包括：将所述音频特征和所述动作特征输入用于生成关节姿态参数的模型，得到与所述音频帧和所述视频帧对应的关节姿态参数。3.根据权利要求1或2所述的方法，其中，所述音频特征包括音频频率特征、音调特征和频域特征；所述提取所述音频数据中包括的音频帧的音频特征，包括：对所述音频数据包括的音频帧进行处理，得到所述音频帧的音频频率特征、音调特征和频域特征；所述根据所述音频特征和所述动作特征，确定出关节姿态参数，包括：根据所述音频频率特征、所述音调特征、所述频域特征和所述动作特征，确定出所述关节姿态参数。4.根据权利要求1
‑
3任一项所述的方法，其中，提取所述视频数据中包括的视频帧的动作特征，包括：对所述视频数据包括的视频帧进行处理，得到所述视频帧中包括的动作频率特征和动作幅度特征；所述根据所述音频特征和所述动作特征，确定出关节姿态参数，包括：根据所述音频特征、所述动作频率特征和所述动作幅度特征，确定出所述关节姿态参数。5.根据权利要求1
‑
4任一项所述的方法，还包括：获取风格参数信息；所述风格参数信息用于表征数字人根据所述关节姿态参数所作出的动作的风格；所述根据所述音频特征和所述动作特征，确定出关节姿态参数，包括：根据所述音频特征、所述动作特征以及所述风格参数信息，确定出所述关节姿态参数。6.根据权利要求5所述的方法，所述根据所述音频特征、所述动作特征以及所述风格参数信息，确定出所述关节姿态参数，包括：将所述音频特征、所述动作特征以及所述风格参数信息输入用于生成关节姿态参数的模型，得到所述关节姿态参数。7.一种数字人的驱动方法，包括：利用权利要求1
‑
6中任一项所述的方法获取数字人的关节姿态参数；基于所述关节姿态参数，控制所述数字人的动作。8.一种模型训练方法，包括：
获取训练数据集，所述训练数据集中包括关节姿态标签参数、与所述关节姿态标签参数对应的样本音频帧数据，以及与所述关节姿态标签参数对应的样本视频帧数据；提取所述样本音频帧数据包括的样本音频特征，以及所述样本视频帧数据包括的样本动作特征；将所述样本音频特征和所述样本动作特征输入预设的模型中，得到与所述样本音频帧数据和所述样本视频帧数据对应的关节姿态预测参数；根据与所述样本音频帧数据和所述样本视频帧数据对应的所述关节姿态标签参数，以及与所述样本音频帧数据和所述样本视频帧数据对应的所述关节姿态预测参数，调整所述模型中的参数，得到用于生成关节姿态参数的模型。9.根据权利要求8所述的方法，还包括：在所述样本视频帧数据中识别人体关节的第一二维位置坐标，并将所述第一二维位置坐标转换为三维位置坐标；根据所述第一二维位置坐标和所述三维位置坐标，确定与所述样本视频帧数据对应的关节姿态标签参数。10.根据权利要求9所述的方法，其中，所述根据所述第一二维位置坐标和所述三维位置坐标，确定与所述样本视频帧数据对应的关节姿态标签参数，包括：根据所述样本视频帧数据中人体关节的所述三维位置坐标，调整预设的三维数字人的关节姿态，并确定调整了关节姿态后的所述三维数字人的关节的第二二维位置坐标；根据所述第一二维位置坐标和所述第二二维位置坐标，调整所述三维数字人的关节姿态，将调整后的关节姿态的参数确定为与所述样本视频帧数据对应的关节姿态标签参数。11.根据权利要求10所述的方法，其中，所述确定调整了关节姿态后的所述三维数字人的关节的第二二维位置坐标，包括：获取调整了关节姿态后的所述三维数字人的图像，并在所述图像中确定所述三维数字人的关节的第二二维位置坐标。12.根据权利要求10所述的方法，其中，所述根据所述第一二维位置坐标和所述第二二维位置坐标，调整所述三维数字人的关节姿态，包括：根据所述第一二维位置坐标和所述第二二维位置坐标，确定位置误差；根据所述位置误差拟合得到所述三维数字人调整后的关节姿态参数，并根据调整后的关节姿态参数调整所述三维数字人的关节姿态。13.根据权利要求8
‑
12任一项所述的方法，其中，所述样本音频特征包括样本音频频率特征、样本音调特征和样本频域特征；所述提取所述样本音频帧数据包括的样本音频特征，包括：对所述样本音频帧数据进行处理，得到所述样本音频帧数据的样本音频频率特征、样本音调特征和样本频域特征；所述将所述样本音频特征和所述样本动作特征输入预设的模型中，得到与所述样本音频帧数据和所述样本视频帧数据对应的关节姿态预测参数，包括：将所述样本音频频率特征、所述样本音调特征、所述样本频域特征和所述样本动作特征，输入预设的模型中，得到与所述样本音频帧数据和所述样本视频帧数据对应的关节姿态预测参数。
14.根据权利要求8
‑
13任一项所述的方法，其中，提取所述样本视频帧数据包括的样本动作特征，包括：对所述样本视频帧数据进行处理，得到所述样本视频帧数据中包括的样本动作频率特征和样本动作幅度特征；所述将所述样本音频特征和所述样本动作特征输入预设的模型中，得到与所述样本音频帧数据和所述样本视频帧数据对应的关节姿态预测参数，包括：将所述样本音频特征、所述样本动作频率特征和所述样本动作幅度特征，输入预设的模型中，得到与所述样本音频帧数据和所述样本视频帧数据对应的关节姿态预测参数。15.一种数字人的关节姿态参数的确定装置，包括：第一获取单元，用于获取用于驱动数字人动作的音频数据，以及用于驱动所述数字...

【专利技术属性】
技术研发人员：郭紫垣，赵亚飞，张世昌，范锡睿，
申请(专利权)人：北京百度网讯科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人