虚拟说话人肢体手势生成方法、装置、设备及存储介质制造方法及图纸

技术编号:30893158 阅读:18 留言:0更新日期:2021-11-22 23:34
本申请实施例涉及数据处理技术领域,具体涉及一种虚拟说话人肢体手势生成方法、装置、设备及存储介质,旨在增加虚拟说话人肢体手势合成结果的自然度,提升虚拟形象的信息传达效果。所述方法包括:将说话音频、说话文本以及初始化手势序列输入自注意力肢体手势生成网络中;通过所述自注意力肢体手势生成网络对所述说话音频、说话文本以及初始化手势序列进行特征提取,得到音频特征、文本特征以及初始化手势序列特征;通过所述自注意力肢体手势生成网络对所述音频特征、文本特征以及初始化手势序列特征进行融合处理,得到合成手势序列。得到合成手势序列。得到合成手势序列。

【技术实现步骤摘要】
虚拟说话人肢体手势生成方法、装置、设备及存储介质


[0001]本申请实施例涉及数据处理
,具体而言,涉及一种虚拟说话人肢体手势生成方法、装置、设备及存储介质。

技术介绍

[0002]虚拟说话人合成技术是人工智能领域研究的热点方向,主要是通过音频驱动虚拟的说话人进行动作,有着广泛的应用前景。说话人的肢体手势的合成在虚拟说话人合成技术中是一个较为重要的任务,如何为说话人合成具有表现力、和说话内容相匹配、具有情感的肢体手势,以提升虚拟说话人的表达效果,是一个研究的重点。现有技术中,通常把说话音频和说话文本输入一个循环神经网络(RNN)或者卷积神经网络(CNN)中,输出一段虚拟人物的关节关键点序列,这个关键节点序列可以用来驱动虚拟人物做出相应的手势。
[0003]现有技术中,使用循环神经网络(RNN)或者卷积神经网络(CNN)作为算法模型的基本结构,然而受到自身结构特性的限制,这两种神经网络主要对说话人肢体手势的短时模式进行建模,无法对肢体手势序列中广泛存在的长时依赖关系以及更加复杂的时序模式进行建模,导致生成的肢体手势自然度受限,表现力不足,和真人的手势差别较大,虚拟说话人的自然度较低。

技术实现思路

[0004]本申请实施例提供一种虚拟说话人肢体手势生成方法、装置、设备及存储介质,旨在增加虚拟说话人肢体手势合成结果的自然度,提升虚拟形象的信息传达效果。
[0005]本申请实施例第一方面提供一种虚拟说话人肢体手势生成方法,所述方法包括:
[0006]将说话音频、说话文本以及初始化手势序列输入自注意力肢体手势生成网络中;
[0007]通过所述自注意力肢体手势生成网络对所述说话音频、说话文本以及初始化手势序列进行特征提取,得到音频特征、文本特征以及初始化手势序列特征;
[0008]通过所述自注意力肢体手势生成网络对所述音频特征、文本特征以及初始化手势序列特征进行融合处理,得到合成手势序列。
[0009]可选地,所述自注意力肢体手势生成网络的训练步骤包括:
[0010]收集说话人视频;
[0011]对所述说话人视频进行处理,得到所述说话人视频中的说话音频、说话文本以及初始化手势序列;
[0012]将所述说话音频、说话文本以及初始化手势序列作为训练集,将所述说话人视频作为对照组输入所述自注意力肢体手势生成网络中对该网络进行训练,得到训练好的自注意力肢体手势生成网络。
[0013]可选地,通过所述自注意力肢体手势生成网络对所述说话音频进行特征提取的步骤包括:
[0014]对所述说话音频进行计算,得到该段音频的梅尔频谱;
[0015]将所述梅尔频谱输入音频编码器中,得到所述音频特征。
[0016]可选地,通过所述自注意力肢体手势生成网络对所述说话文本进行特征提取的步骤包括:
[0017]使用预训练好的语言模型对所述说话文本进行处理,得到语义特征;
[0018]将所述语义特征与所述音频特征进行时序对齐,得到对齐后的语义特征;
[0019]将所述对齐后的语义特征输入语义编码器,得到所述文本特征。
[0020]可选地,通过所述自注意力肢体手势生成网络对所述初始化手势序列进行特征提取的步骤包括:
[0021]将所述初始化手势序列输入初始化手势序列编码器,得所述初始化手势序列特征。
[0022]可选地,通过所述自注意力肢体手势生成网络对所述音频特征、文本特征以及初始化手势序列特征进行融合处理,得到合成手势序列,包括:
[0023]将所述音频特征和所述文本特征进行加和,得到加和后的特征;
[0024]将所述加和后的特征和所述初始化手势序列特征输入解码器中,得到所述合成手势序列。
[0025]本申请实施例第二方面提供一种虚拟说话人肢体手势生成装置,所述装置包括:
[0026]数据输入模块,用于将说话音频、说话文本以及初始化手势序列输入自注意力肢体手势生成网络中;
[0027]特征提取模块,用于通过所述自注意力肢体手势生成网络对所述说话音频、说话文本以及初始化手势序列进行特征提取,得到音频特征、文本特征以及初始化手势序列特征;
[0028]手势合成模块,用于通过所述自注意力肢体手势生成网络对所述音频特征、文本特征以及初始化手势序列特征进行融合处理,得到合成手势序列。
[0029]可选地,所述装置还包括:
[0030]视频收集模块,用于收集说话人视频;
[0031]视频处理模块,用于对所述说话人视频进行处理,得到所述说话人视频中的说话音频、说话文本以及初始化手势序列;
[0032]模型训练模块,用于将所述说话音频、说话文本以及初始化手势序列作为训练集,将所述说话人视频作为对照组输入所述自注意力肢体手势生成网络中对该网络进行训练,得到训练好的自注意力肢体手势生成网络。
[0033]可选地,所述特征提取模块包括:
[0034]音频计算子模块,用于对所述说话音频进行计算,得到该段音频的梅尔频谱;
[0035]音频特征提取子模块们勇于将所述梅尔频谱输入音频编码器中,得到所述音频特征。
[0036]可选地,所述特征提取模块还包括:
[0037]语义特征提取子模块,用于使用预训练好的语言模型对所述说话文本进行处理,得到语义特征;
[0038]语义特征对其子模块,用于将所述语义特征与所述音频特征进行时序对齐,得到对齐后的语义特征;
[0039]文本特征提取子模块,用于将所述对齐后的语义特征输入语义编码器,得到所述文本特征。
[0040]可选地,所述特征提取模块还包括:
[0041]初始化手势序列特征提取子模块,用于将所述初始化手势序列输入初始化手势序列编码器,得所述初始化手势序列特征。
[0042]可选地,所述手势合成模块包括:
[0043]特征加和子模块,用于将所述音频特征和所述文本特征进行加和,得到加和后的特征;
[0044]手势合成子模块,用于将所述加和后的特征和所述初始化手势序列特征输入解码器中,得到所述合成手势序列。
[0045]本申请实施例第三方面提供一种可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时,实现如本申请第一方面所述的方法中的步骤。
[0046]本申请实施例第四方面提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时,实现本申请第一方面所述的方法的步骤。
[0047]采用本申请提供的虚拟说话人肢体手势生成方法,将说话音频、说话文本以及初始化手势序列输入自注意力肢体手势生成网络中;通过所述自注意力肢体手势生成网络对所述说话音频、说话文本以及初始化手势序列进行特征提取,得到音频特征、文本特征以及初始化手势序列特征;通过所述自注意力肢体手势生成网络对所述音频特征、文本特征以及初始化手势序列特征进行融合处理,得到合成手势序列。本申请中将说话本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种虚拟说话人肢体手势生成方法,所述方法包括:将说话音频、说话文本以及初始化手势序列输入自注意力肢体手势生成网络中;通过所述自注意力肢体手势生成网络对所述说话音频、说话文本以及初始化手势序列进行特征提取,得到音频特征、文本特征以及初始化手势序列特征;通过所述自注意力肢体手势生成网络对所述音频特征、文本特征以及初始化手势序列特征进行融合处理,得到合成手势序列。2.根据权利要求1所述的方法,其特征在于,所述自注意力肢体手势生成网络的训练步骤包括:收集说话人视频;对所述说话人视频进行处理,得到所述说话人视频中的说话音频、说话文本以及初始化手势序列;将所述说话音频、说话文本以及初始化手势序列作为训练集,将所述说话人视频作为对照组输入所述自注意力肢体手势生成网络中对该网络进行训练,得到训练好的自注意力肢体手势生成网络。3.根据权利要求1所述的方法,其特征在于,通过所述自注意力肢体手势生成网络对所述说话音频进行特征提取的步骤包括:对所述说话音频进行计算,得到该段音频的梅尔频谱;将所述梅尔频谱输入音频编码器中,得到所述音频特征。4.根据权利要求1所述的方法,其特征在于,通过所述自注意力肢体手势生成网络对所述说话文本进行特征提取的步骤包括:使用预训练好的语言模型对所述说话文本进行处理,得到语义特征;将所述语义特征与所述音频特征进行时序对齐,得到对齐后的语义特征;将所述对齐后的语义特征输入语义编码器,得到所述文本特征。5.根据权...

【专利技术属性】
技术研发人员:叶梓杰贾珈陈伟王砚峰王小川
申请(专利权)人:北京搜狗科技发展有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1