一种基于语音生成手势姿态动画的方法及装置制造方法及图纸

技术编号：38867833 阅读：21 留言：0更新日期：2023-09-22 14:06

本申请提供一种基于语音生成手势姿态动画的方法，包括：从语音信号中提取包括基频在内的语音特征，指定基频序列的每个波峰为关键帧；将所述关键帧的所述语音特征输入基于卷积神经网络和长短时记忆网络的深度学习预测模型，预测出手势和人体姿态的第一相关参数；将所述第一相关参数输入到，由预设动作库中的每个动作预先提取的第二相关参数预训练好的基于残差矢量量化的编解码器深度学习模型，输出以动作姿态关键帧；根据所述动作姿态关键帧生成过渡动画，将所述过渡动画与所述动作姿态关键帧拼接生成姿态动画。本申请通过引入深度学习进行关键帧之间过渡帧的预测，保证模型在训练数据有限的情况下能生成稳定的动画，降低了传统动作匹配方法带来的大量开销。传统动作匹配方法带来的大量开销。传统动作匹配方法带来的大量开销。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于语音生成手势姿态动画的方法及装置

[0001]本申请涉及动画控制的领域，尤其涉及一种基于语音生成手势姿态动画的方法。本申请还涉及一种基于语音生成手势姿态动画的装置。

技术介绍

[0002]人工智能(artificial intelligence，ai)在当前处于爆发前期，目前ai的应用范围已经遍及各个领域，比如三维虚拟对象领域的应用就是是其中一种实际的应用例子。
[0003]当前，3d虚拟对象，利用语音交互、虚拟形象生成等ai技术，赋予文娱角色多模态交互的能力，以助力媒体、教育、会展、客服等行业的智能娱乐化双升级。
[0004]随着虚拟主播、虚拟客服等三维虚拟对象的应用场景逐渐广泛，三维虚拟对象与人的交互成为一个热门主题，而虚拟对象的手势姿态对交互的自然度十分重要，日益引起业内关注。
[0005]目前，三维虚拟对象的手势姿态动画制作，往往需要大量的人力劳动。考虑到三维虚拟对象在与人交互时会有说话交互，AI深度学习方法可以根据其说话的语音预测三维虚拟对象的手势姿态，能让虚拟对象生成与其发出的语音自然匹配的手势姿态动画，提高交互自然度并显著减少人力劳动。
[0006]但是，现有的此类方法都面临需要大量的训练样本、容易效果不稳定导致动画走形、仍然需要手工调整动画过渡等问题。

技术实现思路

[0007]本申请的目的在于克服现有技术中三维虚拟对象姿态动画制作需要大量的训练样本、容易效果不稳定导致动画走形、仍然需要手工调整动画过渡的问题，提供一种基于语音生成手势姿态动画的方...

【技术保护点】

【技术特征摘要】
1.一种基于语音生成手势姿态动画的方法，其特征在于，包括：从语音信号中提取包括基频在内的语音特征，指定基频序列的每个波峰为关键帧；将所述关键帧的所述语音特征输入基于卷积神经网络和长短时记忆网络的深度学习预测模型，预测出手势和人体姿态的第一相关参数；将所述第一相关参数输入到，由预设动作库中的每个动作预先提取的第二相关参数预训练好的基于残差矢量量化的编解码器深度学习模型，输出以动作姿态关键帧；根据所述动作姿态关键帧生成过渡动画，将所述过渡动画与所述动作姿态关键帧拼接生成姿态动画。2.根据权利要求1所述基于语音生成手势姿态动画的方法，其特征在于，生成过渡动画，包括：基于加入噪声和位置编码的深度神经网络和长短时记忆网络的深度学习模型，输入起始帧和结束帧的参数，输出两者中间的过渡帧。3.根据权利要求2所述基于语音生成手势姿态动画的方法，其特征在于，所述输入起始帧和结束帧的参数，还包括：输入过渡动画帧长。4.根据权利要求1所述基于语音生成手势姿态动画的方法，其特征在于，所述语音特征至少还包括GEMAPS特征。5.根据权利要求1所述基于语音生成手势姿态动画的方法，其特征在于，所述预设动作库，包括：将所有动画关键帧中出现的动作设计保存为一个预设动作库。6.一种基于语音生成手势姿态动画的装置，其特征在于，...

【专利技术属性】
技术研发人员：郭建君，
申请(专利权)人：北京蔚领时代科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人