一种面部、身体运动参数的联合生成方法及相关设备技术

技术编号：39292334 阅读：10 留言：0更新日期：2023-11-07 11:00

本发明专利技术公开了一种面部、身体运动参数的联合生成方法及相关设备，通过获取音频数据，并获取预设的风格数据；根据音频数据和风格数据，生成运动参数，其中，运动参数包括面部运动参数和身体运动参数，身体运动参数基于面部运动参数生成；根据运动参数进行目标驱动。本发明专利技术可以根据音频数据和风格数据联合生成面部运动参数和身体运动参数，并在生成身体运动参数时会参考面部运动参数，从而使得音频驱动面部表情和身体动作的效果能够达到更高的同步性，更接近面部、身体的真实运动状态。身体的真实运动状态。身体的真实运动状态。

全部详细技术资料下载

【技术实现步骤摘要】
一种面部、身体运动参数的联合生成方法及相关设备

[0001]本专利技术涉及语音驱动
，尤其涉及的是一种面部、身体运动参数的联合生成方法及相关设备。

技术介绍

[0002]随着语音识别、语音合成、自然语言处理和人工智能等技术的发展，人与计算机之间语音方式的交流成为可能。语音驱动的人机交互方式为人机交互提供了一种新途径，能有效提高人机交互的便捷性和易用性。目前，语音驱动领域中采用的数据驱动方法是通过设计不同的网络模型来生成面部表情和身体动作。由于不同的网络模型之间信息交互较少，导致生成的面部表情和身体动作的真实度以及自然性受限。
[0003]因此，现有技术还有待改进和发展。

技术实现思路

[0004]本专利技术要解决的技术问题在于，针对现有技术的上述缺陷，提供一种面部、身体运动参数的联合生成方法及相关设备，旨在解决现有的语音驱动方法通过设计不同的网络模型来生成面部表情和身体动作，由于不同的网络模型之间信息交互较少，导致生成的面部表情和身体动作的真实度和自然性受限的问题。
[0005]本专利技术解决问题所采用的技术方案如下：第一方面，本专利技术实施例提供一种面部、身体运动参数的联合生成方法，所述方法包括：获取音频数据，并获取预设的风格数据；根据所述音频数据和所述风格数据，生成运动参数，其中，所述运动参数包括面部运动参数和身体运动参数，所述身体运动参数基于所述面部运动参数生成；根据所述运动参数进行目标驱动。
[0006]在一种实施方式中，所述根据所述音频数据和所述风格数据，生成运...

【技术保护点】

【技术特征摘要】
1.一种面部、身体运动参数的联合生成方法，其特征在于，所述方法包括：获取音频数据，并获取预设的风格数据；根据所述音频数据和所述风格数据，生成运动参数，其中，所述运动参数包括面部运动参数和身体运动参数，所述身体运动参数基于所述面部运动参数生成；根据所述运动参数进行目标驱动。2.根据权利要求1所述的面部、身体运动参数的联合生成方法，其特征在于，所述根据所述音频数据和所述风格数据，生成运动参数包括：根据所述音频数据确定音频特征信息，并根据所述风格数据确定风格特征信息；将所述音频特征信息和所述风格特征信息输入生成模型，得到所述运动参数，其中，所述生成模型用于：根据所述音频特征信息和所述风格特征信息，确定所述面部运动参数；根据所述音频特征信息、所述风格特征信息以及所述面部运动参数，确定所述身体运动参数。3.根据权利要求2所述的面部、身体运动参数的联合生成方法，其特征在于，所述根据所述音频数据确定音频特征信息，包括：对所述音频数据进行特征提取，得到若干音频特征数据，其中，当所述音频特征数据的数量大于一时，各所述音频特征数据分别对应不同的特征类型；根据若干所述音频特征数据，确定所述音频特征信息。4.根据权利要求2所述的面部、身体运动参数的联合生成方法，其特征在于，所述根据所述风格数据确定风格特征信息，包括：对所述风格数据进行编码，得到风格编码数据；对所述风格编码数据进行特征提取，得到所述风格特征信息。5.根据权利要求2所述的面部、身体运动参数的联合生成方法，其特征在于，所述生成模型为扩散模型，所述面部运动参数为面部噪声数据，所述身体运动参数为身体噪声数据，所述扩散模型用于：根据所述音频特征信息和所述风格特征信息对预设噪声数据进行降噪，得到所述面部噪声数据；根据所述音频特征信息、所述风格特征信息以及所述面部噪声数据对所述预设噪声数据进行降噪，得到所述身体噪声数据。6.根据权利要求5所述的面部、身体运动参数的联合生成方法，其特征在于，所述扩散模型为逐扩散时间步降噪，所述扩散模型还用于：判断扩散时间步的步数是否达到预设步数；当所述扩散时间步的步数未达到所述预设步数时，将所述面部噪声数据和所述身体噪声数据作为所述预设噪声数据，继续执行所述根据所述音频特征信息和所述风格特征信息对预设噪声数据进行降噪，得到所述面部噪声数据的步骤，直至所述扩散时间步的步数达到所述预设步数。7.根据权利要求5所述的面部、身体运动参数的联合生成方法，其特征在于，所述方法还包括：当所述音频特征信息大于预设的序列长度时，根据所述序列长度将所述音频特征信息
分为若干子序列，其中，任意相邻的两个所述子序列之间具有重叠区域；针对每一所述子序列，将所述子序列作为所述音频特征信息，执行所述将所述音频特征信息和所述风格特征信息...

【专利技术属性】
技术研发人员：陈俊名，刘云飞，李昱，王佳楠，曾爱玲，周昌印，余飞，幺宝刚，
申请(专利权)人：杭州盖视科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人