基于表情识别的虚拟人物驱动方法、装置及设备制造方法及图纸

技术编号：34346154 阅读：12 留言：0更新日期：2022-07-31 04:50

本申请提供一种基于表情识别的虚拟人物驱动方法、装置及设备，涉及计算机技术中的人工智能、深度学习、机器学习、虚拟现实等领域。本申请的方法，通过在虚拟人物与用户对话中，实时获取用户的人脸图像，通过用于人脸表情识别的基模型和多模态对齐模型，根据用户的人脸图像精准地识别用户当前表情的目标分类；在确定目标分类属于预设表情分类并且当前满足目标分类的响应触发条件时，根据用户表情的表情分类对应的响应策略确定对应的驱动数据，并根据驱动数据和虚拟人物的三维形象渲染模型驱动虚拟人物执行对应的响应行为，使得虚拟人物针对用户表情做出及时响应，提高了虚拟人物拟人化程度，使得虚拟人物与人的交互更顺畅、更智能。智能。智能。

Virtual character driving method, device and equipment based on expression recognition

全部详细技术资料下载

【技术实现步骤摘要】
基于表情识别的虚拟人物驱动方法、装置及设备

[0001]本申请涉及计算机技术中的人工智能、深度学习、机器学习、虚拟现实等领域，尤其涉及一种基于表情识别的虚拟人物驱动方法、装置及设备。

技术介绍

[0002]传统的虚拟人物与人的交互中主要以语音为载体，虚拟人物与人的交互仅停留在语音层面，不具备理解人的表情等视觉信息的能力，虚拟人物无法根据人的表情做出相应的反馈，例如虚拟人物播报过程中，若虚拟人物当前播报的内容不是作为交互对象的人想要获取的信息时，人会做出不耐烦甚至愤怒的表情，如果是真人交互会主动询问以促使当前对话顺利并有效地进行，但是虚拟人物不具有这种能力；遇到用户无语音打断虚拟人物播报，但表情上有明显打断意图的情况时，虚拟人物无法做出相应的打断行为，虚拟人物拟人化程度低，导致交互过程不顺畅、不智能。

技术实现思路

[0003]本申请提供一种基于表情识别的虚拟人物驱动方法、装置及设备，用以解决传统虚拟人物拟人化程度低，导致沟通过程不顺畅、不智能的问题。
[0004]一方面，本申请提供一种基于表情识别的虚拟人物驱动方法，包括：
[0005]获取虚拟人物的三维形象渲染模型，以利用虚拟人物向用户提供交互服务；
[0006]在虚拟人物与用户的一轮对话中，实时获取所述用户的人脸图像；
[0007]将所述用户的人脸图像分别输入用于人脸表情识别的基模型和多模态对齐模型，通过所述基模型确定第一表情分类结果，并通过所述多模态对齐模型确定第二表情分类结果；
[0008]根据所述第一表...

【技术保护点】

【技术特征摘要】
1.一种基于表情识别的虚拟人物驱动方法，其特征在于，包括：获取虚拟人物的三维形象渲染模型，以利用虚拟人物向用户提供交互服务；在虚拟人物与用户的一轮对话中，实时获取所述用户的人脸图像；将所述用户的人脸图像分别输入用于人脸表情识别的基模型和多模态对齐模型，通过所述基模型确定第一表情分类结果，并通过所述多模态对齐模型确定第二表情分类结果；根据所述第一表情分类结果和所述第二表情分类结果，确定所述用户当前表情的目标分类；若确定所述目标分类属于预设表情分类，并且当前满足所述目标分类的响应触发条件，则根据所述目标分类对应的响应策略，确定对应的驱动数据；根据所述驱动数据和虚拟人物的三维形象渲染模型，驱动虚拟人物执行对应的响应行为。2.根据权利要求1所述的方法，其特征在于，所述第一表情分类结果包括：所述用户当前表情属于每一表情分类的第一置信度，所述第二表情分类结果包括所述用户当前表情属于每一表情分类的第二置信度，所述根据所述第一表情分类结果和所述第二表情分类结果，确定所述用户当前表情的目标分类，包括：根据所述用户当前表情属于每一表情分类的第一置信度和第二置信度，确定所述用户当前表情的目标分类，以及所述用户当前表情属于所述目标分类的置信度。3.根据权利要求1所述的方法，其特征在于，所述若确定所述目标分类属于预设表情分类，并且当前满足所述目标分类的响应触发条件，则根据所述目标分类对应的响应策略，确定对应的驱动数据，包括：若当前的对话状态为虚拟人物输出用户接收的状态，并且所述目标分类属于第一预设表情分类，则根据所述用户当前表情属于所述目标分类的置信度和当前的上下文信息，确定当前是否满足所述目标分类对应的打断触发条件，所述第一预设表情分类具有对应的打断策略；若确定当前满足所述目标分类对应的打断触发条件，则打断所述虚拟人物的当前输出，并根据所述目标分类对应的打断策略，确定对应的驱动数据，所述驱动数据用于驱动所述虚拟人物执行如下至少一种打断响应行为：播报针对对应表情分类的话术、做出具有规定情绪的表情、做出规定动作。4.根据权利要求3所述的方法，其特征在于，所述目标分类对应的打断触发条件，包括以下至少一项：所述用户当前表情属于所述目标分类的置信度大于或等于所述目标分类对应的置信度阈值；当前对话轮次与前一次触发打断的对话轮次之间的间隔的轮次数量大于或等于预设轮次数量。5.根据权利要求3所述的方法，其特征在于，所述根据所述驱动数据和虚拟人物的三维形象渲染模型，驱动虚拟人物执行对应的响应行为之后，还包括：若在第一预设时长内接收到用户的语音输入，并识别出所述用户的语音输入的语义信息，则开启下一轮对话，根据所述用户的语音输入的语义信息进行对话处理；
若在第一预设时长内未接收到所述用户的语音输入，或者无法识别出所述用户的语音输入的语义信息，则继续被打断的所述虚拟人物的当前输出。6.根据权利要求1所述的方法，其特征在于，所述若确定所述目标分类属于预设表情分类，并且当前满足所述目标分类的响应触发条件，则根据所述目标分类对应的响应策略，确定对应的驱动数据，包括：若当前的对话状态为用户输入虚拟人物接收的状态，并且所述目标分类属于第二预设表情分类，则根据所述目标分类，判断当前是否满足所述目标分类对应的承接触发条件，所述第二预设表情分类具有对应的承接策略；若确定当前满足所述目标分类对应的承接触发条件，则根据所述目标分类对应的承接策略，确定对应的驱动数据，所述驱动数据用于驱动所述虚拟人物执行如下至少一种承接响应行为：播报具有特定语气的承接话术、做出具有特定情绪的表情、做出规定动作；其中，所述播报具有特...

【专利技术属性】
技术研发人员：马远凯，朱鹏程，张昆才，冷海涛，罗智凌，周伟，钱景，李禹，王郁菲，
申请(专利权)人：阿里巴巴中国有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人