【技术实现步骤摘要】
手势动作生成方法和电子设备
[0001]本申请涉及计算机图形学
,具体涉及一种手势动作生成方法和电子设备。
技术介绍
[0002]手势是指人类伴随着说话时所做的连续、风格化的手部运动。恰当的手势有利于增加谈话的生动性并具象化谈话内容。在计算机图形学领域中,为了让数字角色的肢体运动更加生动,人们会利用动作捕捉技术录制常见的手势动作来驱动数字角色进行仿生运动。然而,施行此类方案通常门槛较高。因此,借助计算机根据输入的语音文字自动生成高质量的手势动作成为一个技术热点。
[0003]当前主流的技术方案是利用神经网络技术从大量语音
‑
手势数据集中学习规律,从而实现根据输入的语音和文字直接预测对应的手势动作。然而,该方案缺乏足够的可控性,使得用户较难根据个人意图自由地控制生成手势的风格。虽然已有诸多工作致力于语音文字驱动的数字人风格化手势动作生成,但如何准确地理解用户意图,并高效地实现手势生成的风格化控制依然是一个重要且尚未解决的问题。
技术实现思路
[0004]为解决以上问题,本申请提供 ...
【技术保护点】
【技术特征摘要】
1.一种手势动作生成方法,其特征在于,包括:响应于接收到的待生成手势动作的语音信息、第一文本信息和第一生成风格信息;对所述第一文本信息和所述第一生成风格信息进行编码处理,得到第二文本信息和第二生成风格信息;根据所述语音信息、所述第二文本信息和所述第二生成风格信息预测噪声;根据预测到的所述噪声对所述语音信息、所述第二文本信息和所述第二生成风格信息进行去噪处理,得到待生成手势动作编码序列;将所述待生成手势动作编码序列输入到预训练的手势动作生成模型,生成对应的手势动作。2.根据权利要求1所述的手势动作生成方法,其特征在于,所述手势动作生成模型包括编码器和解码器,所述将所述待生成手势动作编码序列输入到预训练的手势动作生成模型之前,还包括:将第一待训练手势动作信息输入所述编码器进行下采样,得到第一隐式编码序列;根据预设的离散码本,对所述第一隐式编码序列中的每个隐向量进行映射,得到第二隐式编码序列;通过所述解码器对所述第二隐式编码序列进行解码,得到第二待训练手势动作信息;根据所述第二待训练手势动作信息和所述第一待训练手势动作信息确定第一训练值;基于所述第一训练值确定达到第一预设收敛条件时,获得所述手势动作生成模型。3.根据权利要求1所述的手势动作生成方法,其特征在于,所述根据预测到的所述噪声对所述语音信息、所述第二文本信息和所述第二生成风格信息进行去噪处理,得到待生成手势动作编码序列,包括:根据预测到的所述噪声,通过下列公式计算得到所述待生成手势动作编码序列:其中,所述Z
n
‑1表示所述待生成手势动作编码序列,所述E
n
表示预测到的所述噪声,所述x表示标准正态分布的随机噪声,所述n表示扩散步数,所述
n
、和σ
n
均表示常系数。4.根据权利要求1所述的手势动作生成方法,其特征在于,所述根据所述语音信息、所述第二文本信息和所述第二生成风格信息预测噪声,包括:将所述语音信息、所述第二文本信息和所述第二生成风格信息输入到预训练的去噪扩散随机模型中,通过所述去噪扩散随机模型中的去噪网络预测所述噪声,其中,所述去噪网络包括因果注意力层、语义感知注意力层、自适应实例归一化层和子网络;其中,所述通过所述去噪扩散随机模型中的去噪网络预测所述噪声,包括:通过所述因果注意力层将所述语音信息中的语音节奏特征和音强特征与预设的加噪手势编码进行拼接,得到新的语音信息特征,传输至所述自适应实例归一化层;通过所述语义感知注意力层将所述第二文本信息中的第一文本特征与预设的中间特征进行融合,得到新的中间特征;用所述新的中间特征替换所述预设的中间特征,传输至所述自适应实例归一化层;通过所述自适应实例归一化层将所述第二生成风格信息中的第一生成风格特征映射
为数值参数;根据所述数值参数修改传输到所述自适应实例归一化层中的所述新的语音信息特征和所述新的中间特征的均值和方差;利用所述子网络对修改后新的语音信息特征和所述新的中间特征进行融合计算,得到的计算结果作为预测到的所述噪声。5.根据权利要求4所述的手势动作生成方法,其特征在于,所述通过所述语义感知注意力层将所述第二文本信息中的第一文本特征与预设的中间特征进行融合,得到新的中间特征,包括:获取所述第一文本特征经过最大池化处理后得到的第二文本特征;将所述第一文本特征和所述第二文本特征的乘积作为所述第二文本信息的语义显著度;将所述第一文本特征和所述语义显著度与所述预设的中间特征进行融合,得到新的中间特征。6.根据权利要求5所述的手势动作生成方法,其特征在于,所述将所述第一文本特征和所述语义显著度与所述预设的中间特征进行融合,得到新的中间特征,包括:采用交叉注意力机制,将所述第一文本特征映射为第一矩阵和第二矩阵,所述预设的中间特征映射为第三矩阵;根据所述第一矩阵、所述第二矩阵、所述第三矩阵以及所述语义显著度,并通过下列公式进行融合,得到新的中间特征:其...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。