虚拟说话人肢体手势生成方法、装置、设备及存储介质制造方法及图纸

技术编号：30893158 阅读：18 留言：0更新日期：2021-11-22 23:34

本申请实施例涉及数据处理技术领域，具体涉及一种虚拟说话人肢体手势生成方法、装置、设备及存储介质，旨在增加虚拟说话人肢体手势合成结果的自然度，提升虚拟形象的信息传达效果。所述方法包括：将说话音频、说话文本以及初始化手势序列输入自注意力肢体手势生成网络中；通过所述自注意力肢体手势生成网络对所述说话音频、说话文本以及初始化手势序列进行特征提取，得到音频特征、文本特征以及初始化手势序列特征；通过所述自注意力肢体手势生成网络对所述音频特征、文本特征以及初始化手势序列特征进行融合处理，得到合成手势序列。得到合成手势序列。得到合成手势序列。

全部详细技术资料下载

【技术实现步骤摘要】
虚拟说话人肢体手势生成方法、装置、设备及存储介质

[0001]本申请实施例涉及数据处理
，具体而言，涉及一种虚拟说话人肢体手势生成方法、装置、设备及存储介质。

技术介绍

[0002]虚拟说话人合成技术是人工智能领域研究的热点方向，主要是通过音频驱动虚拟的说话人进行动作，有着广泛的应用前景。说话人的肢体手势的合成在虚拟说话人合成技术中是一个较为重要的任务，如何为说话人合成具有表现力、和说话内容相匹配、具有情感的肢体手势，以提升虚拟说话人的表达效果，是一个研究的重点。现有技术中，通常把说话音频和说话文本输入一个循环神经网络(RNN)或者卷积神经网络(CNN)中，输出一段虚拟人物的关节关键点序列，这个关键节点序列可以用来驱动虚拟人物做出相应的手势。
[0003]现有技术中，使用循环神经网络(RNN)或者卷积神经网络(CNN)作为算法模型的基本结构，然而受到自身结构特性的限制，这两种神经网络主要对说话人肢体手势的短时模式进行建模，无法对肢体手势序列中广泛存在的长时依赖关系以及更加复杂的时序模式进行建模，导致生成的肢体手势自然度受限，表现力不足，和真人的手势差别较大，虚拟说话人的自然度较低。

技术实现思路

[0004]本申请实施例提供一种虚拟说话人肢体手势生成方法、装置、设备及存储介质，旨在增加虚拟说话人肢体手势合成结果的自然度，提升虚拟形象的信息传达效果。
[0005]本申请实施例第一方面提供一种虚拟说话人肢体手势生成方法，所述方法包括：
[0006]将说话音频、说话文本以及初始...

【技术保护点】

【技术特征摘要】
1.一种虚拟说话人肢体手势生成方法，所述方法包括：将说话音频、说话文本以及初始化手势序列输入自注意力肢体手势生成网络中；通过所述自注意力肢体手势生成网络对所述说话音频、说话文本以及初始化手势序列进行特征提取，得到音频特征、文本特征以及初始化手势序列特征；通过所述自注意力肢体手势生成网络对所述音频特征、文本特征以及初始化手势序列特征进行融合处理，得到合成手势序列。2.根据权利要求1所述的方法，其特征在于，所述自注意力肢体手势生成网络的训练步骤包括：收集说话人视频；对所述说话人视频进行处理，得到所述说话人视频中的说话音频、说话文本以及初始化手势序列；将所述说话音频、说话文本以及初始化手势序列作为训练集，将所述说话人视频作为对照组输入所述自注意力肢体手势生成网络中对该网络进行训练，得到训练好的自注意力肢体手势生成网络。3.根据权利要求1所述的方法，其特征在于，通过所述自注意力肢体手势生成网络对所述说话音频进行特征提取的步骤包括：对所述说话音频进行计算，得到该段音频的梅尔频谱；将所述梅尔频谱输入音频编码器中，得到所述音频特征。4.根据权利要求1所述的方法，其特征在于，通过所述自注意力肢体手势生成网络对所述说话文本进行特征提取的步骤包括：使用预训练好的语言模型对所述说话文本进行处理，得到语义特征；将所述语义特征与所述音频特征进行时序对齐，得到对齐后的语义特征；将所述对齐后的语义特征输入语义编码器，得到所述文本特征。5.根据权...

【专利技术属性】
技术研发人员：叶梓杰，贾珈，陈伟，王砚峰，王小川，
申请(专利权)人：北京搜狗科技发展有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人