【技术实现步骤摘要】
本专利技术涉及3d数字人,更具体的说是涉及一种语音驱动的3d数字人动作生成方法、系统、设备及介质。
技术介绍
1、3d数字人是一种超写实的人类仿真体,随着元宇宙的兴起,如何驱动3d数字人与用户进行交互成为了许多人关注的问题。为了达到更好的交互体验,往往要求驱动相关的技术具有实时性、多元性。
2、虽然3d数字人已经出现在大众视野,但现有技术通常是使用动画师预先制作的动画来驱动数字人,造成了较高的人力和时间成本,且这样制作的动画的韵律往往跟数字人说话的语言无法匹配,同时也存在动作风格单一的情况。
3、同时现有技术中,一种通过语音驱动数字人肢体表情的方法(cn116880695a)主要是驱动面部的肢体表情,而不是驱动身体的动作。一种多用途数字人的控制系统及方法(cn117076755a)和数字人的交互控制方法、装置、电子设备和存储介质(cn116841391a)和数字人驱动方法及装置(cn116485960a),可以根据交互内容生成唇动信息和身体动作信息,但无法根据一段动作序列控制生成动作的风格。一种基于大语言模型的手
...【技术保护点】
1.一种语音驱动的3D数字人动作生成方法,其特征在于,包括:
2.根据权利要求1所述的一种语音驱动的3D数字人动作生成方法,其特征在于,音频编码器依次包括:特征提取模块、两层一维卷积层和一层全连接层,每层一维卷积层后有一个非线性激活函数;
3.根据权利要求1所述的一种语音驱动的3D数字人动作生成方法,其特征在于,动作风格编码器依次包括:两层一维卷积层、位置编码模块和前馈模块;
4.根据权利要求1所述的一种语音驱动的3D数字人动作生成方法,其特征在于,动作生成器依次包括:三层全连接层和两层门控循环单元;
5.根据权利要求1
...【技术特征摘要】
1.一种语音驱动的3d数字人动作生成方法,其特征在于,包括:
2.根据权利要求1所述的一种语音驱动的3d数字人动作生成方法,其特征在于,音频编码器依次包括:特征提取模块、两层一维卷积层和一层全连接层,每层一维卷积层后有一个非线性激活函数;
3.根据权利要求1所述的一种语音驱动的3d数字人动作生成方法,其特征在于,动作风格编码器依次包括:两层一维卷积层、位置编码模块和前馈模块;
4.根据权利要求1所述的一种语音驱动的3d数字人动作生成方法,其特征在于,动作生成器依次包括:三层全连接层和两层门控循环单元;
5.根据权利要求1所述的一种语音驱动的3d数字人动作生成方法,其特征在于,动作生成模型损失函数l为:
6.一种语音驱动的3d数字人动作生成系统,其特征在于,包括:
7.根据权利要求6所述的一种语音驱动的3d数字人...
【专利技术属性】
技术研发人员:陈靖涵,张鹏飞,苏江,
申请(专利权)人:暗物质北京智能科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。