一种基于语音生成手势姿态动画的方法及装置制造方法及图纸

技术编号:38867833 阅读:21 留言:0更新日期:2023-09-22 14:06
本申请提供一种基于语音生成手势姿态动画的方法,包括:从语音信号中提取包括基频在内的语音特征,指定基频序列的每个波峰为关键帧;将所述关键帧的所述语音特征输入基于卷积神经网络和长短时记忆网络的深度学习预测模型,预测出手势和人体姿态的第一相关参数;将所述第一相关参数输入到,由预设动作库中的每个动作预先提取的第二相关参数预训练好的基于残差矢量量化的编解码器深度学习模型,输出以动作姿态关键帧;根据所述动作姿态关键帧生成过渡动画,将所述过渡动画与所述动作姿态关键帧拼接生成姿态动画。本申请通过引入深度学习进行关键帧之间过渡帧的预测,保证模型在训练数据有限的情况下能生成稳定的动画,降低了传统动作匹配方法带来的大量开销。传统动作匹配方法带来的大量开销。传统动作匹配方法带来的大量开销。

【技术实现步骤摘要】
一种基于语音生成手势姿态动画的方法及装置


[0001]本申请涉及动画控制的领域,尤其涉及一种基于语音生成手势姿态动画的方法。本申请还涉及一种基于语音生成手势姿态动画的装置。

技术介绍

[0002]人工智能(artificial intelligence,ai)在当前处于爆发前期,目前ai的应用范围已经遍及各个领域,比如三维虚拟对象领域的应用就是是其中一种实际的应用例子。
[0003]当前,3d虚拟对象,利用语音交互、虚拟形象生成等ai技术,赋予文娱角色多模态交互的能力,以助力媒体、教育、会展、客服等行业的智能娱乐化双升级。
[0004]随着虚拟主播、虚拟客服等三维虚拟对象的应用场景逐渐广泛,三维虚拟对象与人的交互成为一个热门主题,而虚拟对象的手势姿态对交互的自然度十分重要,日益引起业内关注。
[0005]目前,三维虚拟对象的手势姿态动画制作,往往需要大量的人力劳动。考虑到三维虚拟对象在与人交互时会有说话交互,AI深度学习方法可以根据其说话的语音预测三维虚拟对象的手势姿态,能让虚拟对象生成与其发出的语音自然匹配的手势姿态动画,提高交互自然度并显著减少人力劳动。
[0006]但是,现有的此类方法都面临需要大量的训练样本、容易效果不稳定导致动画走形、仍然需要手工调整动画过渡等问题。

技术实现思路

[0007]本申请的目的在于克服现有技术中三维虚拟对象姿态动画制作需要大量的训练样本、容易效果不稳定导致动画走形、仍然需要手工调整动画过渡的问题,提供一种基于语音生成手势姿态动画的方法。本申请还涉及一种基于语音生成手势姿态动画的装置。
[0008]本申请提供一种基于语音生成手势姿态动画的方法,包括:
[0009]从语音信号中提取包括基频在内的语音特征,指定基频序列的每个波峰为关键帧;
[0010]将所述关键帧的所述语音特征输入基于卷积神经网络和长短时记忆网络的深度学习预测模型,预测出手势和人体姿态的第一相关参数;
[0011]将所述第一相关参数输入到,由预设动作库中的每个动作预先提取的第二相关参数预训练好的基于残差矢量量化的编解码器深度学习模型,输出以动作姿态关键帧;
[0012]根据所述动作姿态关键帧生成过渡动画,将所述过渡动画与所述动作姿态关键帧拼接生成姿态动画。
[0013]可选地,生成过渡动画,包括:
[0014]基于加入噪声和位置编码的深度神经网络和长短时记忆网络的深度学习模型,输入起始帧和结束帧的参数,输出两者中间的过渡帧。
[0015]可选地,所述输入起始帧和结束帧的参数,还包括:
[0016]输入过渡动画帧长。
[0017]可选地,所述语音特征至少还包括GEMAPS特征。
[0018]可选地,所述预设动作库,包括:
[0019]将所有动画关键帧中出现的动作设计保存为一个预设动作库。
[0020]本申请还提供一种基于语音生成手势姿态动画的装置,包括:
[0021]提取模块,用于从语音信号中提取包括基频在内的语音特征,指定基频序列的每个波峰为关键帧;
[0022]预测模块,用于将所述关键帧的所述语音特征输入基于卷积神经网络和长短时记忆网络的深度学习预测模型,预测出手势和人体姿态的第一相关参数;
[0023]匹配模块,用于将所述第一相关参数输入到,由预设动作库中的每个动作预先提取的第二相关参数预训练好的基于残差矢量量化的编解码器深度学习模型,输出以动作姿态关键帧;
[0024]输出模块,用于根据所述动作姿态关键帧生成过渡动画,将所述过渡动画与所述动作姿态关键帧拼接生成姿态动画。
[0025]可选地,所述输出模块生成过渡动画,包括:
[0026]基于加入噪声和位置编码的深度神经网络和长短时记忆网络的深度学习模型,输入起始帧和结束帧的参数,输出两者中间的过渡帧。
[0027]可选地,所述输出模块输入起始帧和结束帧的参数,还包括:
[0028]输入过渡动画帧长。
[0029]可选地,所述语音特征至少还包括GEMAPS特征。
[0030]可选地,所述预设动作库,包括:
[0031]将所有动画关键帧中出现的动作设计保存为一个预设动作库。
[0032]本申请的优点和有益效果:
[0033]本申请提供一种基于语音生成手势姿态动画的方法,包括:从语音信号中提取包括基频在内的语音特征,指定基频序列的每个波峰为关键帧;将所述关键帧的所述语音特征输入基于卷积神经网络和长短时记忆网络的深度学习预测模型,预测出手势和人体姿态的第一相关参数;将所述第一相关参数输入到,由预设动作库中的每个动作预先提取的第二相关参数预训练好的基于残差矢量量化的编解码器深度学习模型,输出以动作姿态关键帧;根据所述动作姿态关键帧生成过渡动画,将所述过渡动画与所述动作姿态关键帧拼接生成姿态动画。本申请通过动作匹配技术并使用残差矢量量化编解码模型进行优化,引入深度学习方法进行关键帧之间过渡帧的预测,保证深度学习模型在训练数据有限的情况下仍然能生成自然稳定的动画,同时降低了传统动作匹配方法带来的大量开销。
附图说明
[0034]图1是本申请中基于语音生成手势姿态动画示意图。
[0035]图2是本申请中基于语音生成手势姿态动画逻辑示意图。
[0036]图3是本申请中过渡帧生成示意图。
[0037]图4是本申请中基于语音生成手势姿态动画的装置示意图。
具体实施方式
[0038]下面结合附图和具体实施例对本申请作进一步说明,以使本领域的技术人员可以更好地理解本申请并能予以实施。
[0039]以下内容均是为了详细说明本申请要保护的技术方案所提供的具体实施过程的示例,但是本申请还可以采用不同于此的描述的其他方式实施,本领域技术人员可以在本申请构思的指引下,采用不同的技术手段实现本申请,因此本申请不受下面具体实施例的限制。
[0040]本申请提供一种基于语音生成手势姿态动画的方法,包括:从语音信号中提取包括基频在内的语音特征,指定基频序列的每个波峰为关键帧;将所述关键帧的所述语音特征输入基于卷积神经网络和长短时记忆网络的深度学习预测模型,预测出手势和人体姿态的第一相关参数;将所述第一相关参数输入到,由预设动作库中的每个动作预先提取的第二相关参数预训练好的基于残差矢量量化的编解码器深度学习模型,输出以动作姿态关键帧;根据所述动作姿态关键帧生成过渡动画,将所述过渡动画与所述动作姿态关键帧拼接生成姿态动画。本申请通过动作匹配技术并使用残差矢量量化编解码模型进行优化,引入深度学习方法进行关键帧之间过渡帧的预测,保证深度学习模型在训练数据有限的情况下仍然能生成自然稳定的动画,同时降低了传统动作匹配方法带来的大量开销。
[0041]本申请提供的方法,在接收语音生成手势姿态动画过程中,手势姿态预测部分接收语音信号输出预测的手势姿态参数,动作匹配部分则以关键帧预测的参数作为输入,残差矢量量化编解码器输出关键本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于语音生成手势姿态动画的方法,其特征在于,包括:从语音信号中提取包括基频在内的语音特征,指定基频序列的每个波峰为关键帧;将所述关键帧的所述语音特征输入基于卷积神经网络和长短时记忆网络的深度学习预测模型,预测出手势和人体姿态的第一相关参数;将所述第一相关参数输入到,由预设动作库中的每个动作预先提取的第二相关参数预训练好的基于残差矢量量化的编解码器深度学习模型,输出以动作姿态关键帧;根据所述动作姿态关键帧生成过渡动画,将所述过渡动画与所述动作姿态关键帧拼接生成姿态动画。2.根据权利要求1所述基于语音生成手势姿态动画的方法,其特征在于,生成过渡动画,包括:基于加入噪声和位置编码的深度神经网络和长短时记忆网络的深度学习模型,输入起始帧和结束帧的参数,输出两者中间的过渡帧。3.根据权利要求2所述基于语音生成手势姿态动画的方法,其特征在于,所述输入起始帧和结束帧的参数,还包括:输入过渡动画帧长。4.根据权利要求1所述基于语音生成手势姿态动画的方法,其特征在于,所述语音特征至少还包括GEMAPS特征。5.根据权利要求1所述基于语音生成手势姿态动画的方法,其特征在于,所述预设动作库,包括:将所有动画关键帧中出现的动作设计保存为一个预设动作库。6.一种基于语音生成手势姿态动画的装置,其特征在于,...

【专利技术属性】
技术研发人员:郭建君
申请(专利权)人:北京蔚领时代科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1