语音驱动的3D数字人动作生成方法、系统、设备及介质技术方案

技术编号：40956979 阅读：28 留言：0更新日期：2024-04-18 20:34

本发明专利技术公开了一种语音驱动的3D数字人动作生成方法、系统、设备及介质，方法包括：获取目标输入信号，目标输入信号为音频、或者音频和动作序列；将目标输入信号输入至动作生成模型中，生成与目标输入信号对应的3D数字人动作序列；动作生成模型包括音频编码器、动作风格编码器和动作生成器，音频编码器与动作风格编码器并行处理，分别生成与音频对应的第一特征向量序列以及与动作序列对应的第二特征向量，当无动作序列输入时第二特征向量为零特征向量，动作生成器基于第一特征向量序列和第二特征向量生成3D数字人动作序列。本发明专利技术具有实时性、减少了人力成本，可以自由控制生成的动作序列风格的特点。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及3d数字人，更具体的说是涉及一种语音驱动的3d数字人动作生成方法、系统、设备及介质。

技术介绍

1、3d数字人是一种超写实的人类仿真体，随着元宇宙的兴起，如何驱动3d数字人与用户进行交互成为了许多人关注的问题。为了达到更好的交互体验，往往要求驱动相关的技术具有实时性、多元性。

2、虽然3d数字人已经出现在大众视野，但现有技术通常是使用动画师预先制作的动画来驱动数字人，造成了较高的人力和时间成本，且这样制作的动画的韵律往往跟数字人说话的语言无法匹配，同时也存在动作风格单一的情况。

3、同时现有技术中，一种通过语音驱动数字人肢体表情的方法(cn116880695a)主要是驱动面部的肢体表情，而不是驱动身体的动作。一种多用途数字人的控制系统及方法(cn117076755a)和数字人的交互控制方法、装置、电子设备和存储介质(cn116841391a)和数字人驱动方法及装置(cn116485960a)，可以根据交互内容生成唇动信息和身体动作信息，但无法根据一段动作序列控制生成动作的风格。一种基于大语言模型的手...

【技术保护点】

1.一种语音驱动的3D数字人动作生成方法，其特征在于，包括：

2.根据权利要求1所述的一种语音驱动的3D数字人动作生成方法，其特征在于，音频编码器依次包括：特征提取模块、两层一维卷积层和一层全连接层，每层一维卷积层后有一个非线性激活函数；

3.根据权利要求1所述的一种语音驱动的3D数字人动作生成方法，其特征在于，动作风格编码器依次包括：两层一维卷积层、位置编码模块和前馈模块；

4.根据权利要求1所述的一种语音驱动的3D数字人动作生成方法，其特征在于，动作生成器依次包括：三层全连接层和两层门控循环单元；

5.根据权利要求1所述的一种语音驱动的...

【技术特征摘要】

1.一种语音驱动的3d数字人动作生成方法，其特征在于，包括：

2.根据权利要求1所述的一种语音驱动的3d数字人动作生成方法，其特征在于，音频编码器依次包括：特征提取模块、两层一维卷积层和一层全连接层，每层一维卷积层后有一个非线性激活函数；

3.根据权利要求1所述的一种语音驱动的3d数字人动作生成方法，其特征在于，动作风格编码器依次包括：两层一维卷积层、位置编码模块和前馈模块；

4.根据权利要求1所述的一种语音驱动的3d数字人动作生成方法，其特征在于，动作生成器依次包括：三层全连接层和两层门控循环单元；

5.根据权利要求1所述的一种语音驱动的3d数字人动作生成方法，其特征在于，动作生成模型损失函数l为：

6.一种语音驱动的3d数字人动作生成系统，其特征在于，包括：

7.根据权利要求6所述的一种语音驱动的3d数字人...

【专利技术属性】
技术研发人员：陈靖涵，张鹏飞，苏江，
申请(专利权)人：暗物质北京智能科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人