基于三维虚拟对象的人机交互方法、装置、设备及介质制造方法及图纸

技术编号:31229891 阅读:30 留言:0更新日期:2021-12-08 09:59
本申请公开了一种基于三维虚拟对象的人机交互方法、装置、设备及介质,属于人工智能技术领域。该方法包括:获取语音数据;基于深度学习网络的音频编码器对语音数据进行特征编码,得到第一音频特征;基于深度学习网络的动作解码器对第一音频特征进行动作解码,得到三维虚拟对象各个关节的姿态数据;姿态数据用于指示各个关节在三维空间中的旋转角度;动作解码器中最后一个卷积层的卷积核数量与三维虚拟对象的关节数量和姿态数据的维度相关;基于各个关节的姿态数据,驱动三维虚拟对象执行相应的动作。本申请合成的动作流畅自然,更具真实性。更具真实性。更具真实性。

【技术实现步骤摘要】
基于三维虚拟对象的人机交互方法、装置、设备及介质


[0001]本申请涉及人工智能
,特别涉及一种基于三维虚拟对象的人机交互方法、装置、设备及介质。

技术介绍

[0002]在人工智能(Artificial Intelligence,AI)时代,AI的应用范围已经遍及各个领域,比如三维(3

Dimensional,3D)虚拟对象便是其中一种。其中,3D虚拟对象,利用语音交互、虚拟形象生成等AI技术,赋予文娱角色多模态交互的能力,以助力媒体、教育、会展、客服等行业的智能娱乐化双升级。
[0003]其中,用户可以与3D虚拟对象进行交互,以满足用户的信息需求、情感需求或娱乐需求等。相关技术中,通常基于拼接的方案实现音频驱动3D虚拟对象。该种方案首先会构建一个动作库,该动作库以音频特征为键、以动作为值。在驱动3D虚拟对象时,首先在动作库中查询与输入音频的音频特征最相似的动作片段,进而采用拼接算法将这些片段的动作拼接起来,形成合成动作。
[0004]然而,该种方案一方面合成的动作较为呆板僵硬,逼真度低。比如,在生成长本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于三维虚拟对象的人机交互方法,其特征在于,所述方法包括:获取语音数据;基于深度学习网络的音频编码器对所述语音数据进行特征编码,得到第一音频特征;以及,基于所述深度学习网络的动作解码器对所述第一音频特征进行动作解码,得到所述三维虚拟对象各个关节的姿态数据;其中,所述姿态数据用于指示所述各个关节在三维空间中的旋转角度;所述动作解码器中最后一个卷积层的卷积核数量与所述三维虚拟对象的关节数量和所述姿态数据的维度相关;基于所述各个关节的姿态数据,驱动所述三维虚拟对象执行相应的动作。2.根据权利要求1所述的方法,其特征在于,所述音频编码器中包括串联的M个编码块,每两个编码块之后连接一个池化层,所述M个编码块中的第M个编码块之后连接一个卷积层,M为奇数。3.根据权利要求2所述的方法,其特征在于,所述基于深度学习网络的音频编码器,对所述语音数据进行特征编码,得到第一音频特征,包括:经过顺次连接的所述M个编码块和所述池化层,对所述语音数据依次进行特征提取和降采样;将所述第M个编码块输出的特征数据输入连接的卷积层进行降维处理,得到一维特征数据;对所述一维特征数据进行线性插值,得到所述第一音频特征。4.根据权利要求2所述的方法,其特征在于,所述M个编码块的结构相同,各个所述编码块中均包括N维卷积层、批量归一化层和激活函数,N为正整数。5.根据权利要求1所述的方法,其特征在于,所述最后一个卷积层的卷积核数量是所述三维虚拟对象的关节数量与所述姿态数据的维度之积。6.根据权利要求1所述的方法,其特征在于,所述姿态数据为六维旋转表示形式;所述基于所述各个关节的姿态数据,驱动所述三维虚拟对象执行相应的动作,包括:将所述各个关节的六维旋转表示数据变换为旋转矩阵形式;驱动所述三维虚拟对象执行所述各个关节的第一旋转矩阵指示的动作。7.根据权利要求6所述的方法,其特征在于,所述将所述各个关节的六维旋转表示数据变换为旋转矩阵形式,包括:对于第i个关节,将所述第i个关节的六维旋转表示数据,作为所述第i个关节的第一旋转矩阵的前两列数据,i为正整数;对所述前两列数据分别进行归一化处理;对归一化后的前两列数据进行正交化处理,以使经过正交化处理的前两列数据相互正交;对相互正交的前两列数据进行叉乘处理,得到所述第i个关节的第一旋转矩阵的第三列数据。8.根据权利要求1所述的方法,其特征在于,所述获取语音数据,包括:将原始音频作为所述语音数据;所述第一音频特征的特征长度和所述原始音频的帧数相同;或,
对所述原始音频进行音频特征提取,得到第二音频特征;将所述第二音频特征作为所述语音数据;所述第一音频特征的特征长度和所述第二音频特征的帧数相同。9.一种模型训练方法,其特征在于,所述方法包括:获取训练数据,所述训练数据中包括样本语音数据和所述样本语音数据对应的标准姿态数据;基于初始网络中的音频编码器,对所述样本语音数据进行特征编码,得到第一样本音频特征;以及,基于所述初始网络中的动作解码器,对所述第一样本音频特征进行动作解码,得到所述各个关节的预测姿态数据;基于所述各个关节的预...

【专利技术属性】
技术研发人员:李晶康頔暴林超
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1