虚拟形象的驱动方法、计算机可读存储介质及电子设备技术

技术编号：37145277 阅读：24 留言：0更新日期：2023-04-06 21:56

本申请公开了一种虚拟形象的驱动方法、计算机可读存储介质及电子设备。其中，该方法包括：采集生物对象发出的音频数据；对音频数据进行特征提取，得到音频数据的多模态特征，其中，多模态特征用于表征音频数据的语义、音调、节奏和情绪；基于多模态特征，生成生物对象的目标动作数据；基于目标动作数据驱动生物对象对应的虚拟形象。本申请解决了相关技术中虚拟形象的动作呆板、情绪变化单一，导致用户体验感差的技术问题。感差的技术问题。感差的技术问题。

全部详细技术资料下载

【技术实现步骤摘要】
虚拟形象的驱动方法、计算机可读存储介质及电子设备

[0001]本申请涉及数据处理领域，具体而言，涉及一种虚拟形象的驱动方法、计算机可读存储介质及电子设备。

技术介绍

[0002]随着社会的发展以及时代的进步，当今市面上已经逐渐出现了与虚拟形象相关的技术。虚拟形象即为以动画形象进行形象展示，包括人物形象，语音生成，动画生成，音视频合成展示等多种部分组成。较常应用于直播、游戏、虚拟世界交互等场景。相关技术中已经出现了依据音频数据，生成与音频数据相应的用于展示虚拟形象的动作的技术。
[0003]但是相关技术中依据音频数据，仅能得到虚拟形象的口型，用户只能在直播中或者虚拟现实交互等场景中看到虚拟形象变更口型，虚拟形象的面部动作呆板、情绪变化单一，甚至没有情绪变化，造成了用户体验感差的问题。
[0004]针对上述的问题，目前尚未提出有效的解决方案。

技术实现思路

[0005]本申请实施例提供了一种虚拟形象的驱动方法、计算机可读存储介质及电子设备，以至少解决相关技术中虚拟形象的动作呆板、情绪变化单一，导致...

【技术保护点】

【技术特征摘要】
1.一种虚拟形象的驱动方法，其特征在于，包括：采集生物对象发出的音频数据；对所述音频数据进行特征提取，得到所述音频数据的多模态特征，其中，所述多模态特征用于表征所述音频数据的语义、音调、节奏和情绪；基于所述多模态特征，生成所述生物对象的目标动作数据；基于所述目标动作数据驱动所述生物对象对应的虚拟形象。2.根据权利要求1所述的方法，其特征在于，所述多模态特征包括：用于表征音频数据的语义的深度学习特征，以及用于表征所述音频数据的音调、节奏和情绪的声学特征。3.根据权利要求2所述的方法，其特征在于，对所述音频数据进行特征提取，得到所述音频数据的多模态特征，利用语音识别模型对所述音频数据进行特征提取，得到所述深度学习特征，其中，所述语音识别模型通过深度学习得到；提取所述音频数据的所述声学特征。4.根据权利要求2所述的方法，其特征在于，基于所述多模态特征，生成所述生物对象的目标动作数据，包括：基于所述深度学习特征和所述声学特征，生成所述生物对象的目标嘴部动作；基于所述声学特征，生成所述生物对象的目标眼部动作；将所述目标嘴部动作和所述目标眼部动作进行叠加，得到所述目标动作数据。5.根据权利要求4所述的方法，其特征在于，基于所述深度学习特征和所述声学特征，生成所述生物对象的目标嘴部动作，包括：利用第一口型生成模型对所述深度学习特征进行动作生成，得到所述生物对象的初始嘴部动作；利用情绪识别模块对所述声学特征进行情绪识别，得到所述音频数据对应的情绪信息，其中，所述情绪信息包括：情绪类别和情绪强度；利用第二口型生成模型对所述情绪信息和所述初始嘴部动作进行动作生成，得到所述目标嘴部动作。6.根据权利要求4所述的方法，其特征在于，基于所述声学特征，生成所述生物对象的目标眼部动作，包括：利用情绪识别模块对所述声学特征进行情绪识别，得到所述音频数据对应的情绪信息；利用表情生成模块对所述情绪信息进行表情生成，得到所述目标眼部特征。7.根据权利要求6所述的方法，其特征在于，利用表情生成模块对所述情绪信息进行表情生成，得到所述目标眼部特征，包括：获取所述生物对象的历史动作数据；对所述历史动作数据进行特征提取，得到所述历史动作数据的动作特征；利用所述表情生成模块对所...

【专利技术属性】
技术研发人员：綦金玮，张邦，
申请(专利权)人：阿里巴巴中国有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人