基于表情识别的虚拟人物驱动方法、装置及设备制造方法及图纸

技术编号:34346154 阅读:12 留言:0更新日期:2022-07-31 04:50
本申请提供一种基于表情识别的虚拟人物驱动方法、装置及设备,涉及计算机技术中的人工智能、深度学习、机器学习、虚拟现实等领域。本申请的方法,通过在虚拟人物与用户对话中,实时获取用户的人脸图像,通过用于人脸表情识别的基模型和多模态对齐模型,根据用户的人脸图像精准地识别用户当前表情的目标分类;在确定目标分类属于预设表情分类并且当前满足目标分类的响应触发条件时,根据用户表情的表情分类对应的响应策略确定对应的驱动数据,并根据驱动数据和虚拟人物的三维形象渲染模型驱动虚拟人物执行对应的响应行为,使得虚拟人物针对用户表情做出及时响应,提高了虚拟人物拟人化程度,使得虚拟人物与人的交互更顺畅、更智能。智能。智能。

Virtual character driving method, device and equipment based on expression recognition

【技术实现步骤摘要】
基于表情识别的虚拟人物驱动方法、装置及设备


[0001]本申请涉及计算机技术中的人工智能、深度学习、机器学习、虚拟现实等领域,尤其涉及一种基于表情识别的虚拟人物驱动方法、装置及设备。

技术介绍

[0002]传统的虚拟人物与人的交互中主要以语音为载体,虚拟人物与人的交互仅停留在语音层面,不具备理解人的表情等视觉信息的能力,虚拟人物无法根据人的表情做出相应的反馈,例如虚拟人物播报过程中,若虚拟人物当前播报的内容不是作为交互对象的人想要获取的信息时,人会做出不耐烦甚至愤怒的表情,如果是真人交互会主动询问以促使当前对话顺利并有效地进行,但是虚拟人物不具有这种能力;遇到用户无语音打断虚拟人物播报,但表情上有明显打断意图的情况时,虚拟人物无法做出相应的打断行为,虚拟人物拟人化程度低,导致交互过程不顺畅、不智能。

技术实现思路

[0003]本申请提供一种基于表情识别的虚拟人物驱动方法、装置及设备,用以解决传统虚拟人物拟人化程度低,导致沟通过程不顺畅、不智能的问题。
[0004]一方面,本申请提供一种基于表情识别的虚拟人物驱动方法,包括:
[0005]获取虚拟人物的三维形象渲染模型,以利用虚拟人物向用户提供交互服务;
[0006]在虚拟人物与用户的一轮对话中,实时获取所述用户的人脸图像;
[0007]将所述用户的人脸图像分别输入用于人脸表情识别的基模型和多模态对齐模型,通过所述基模型确定第一表情分类结果,并通过所述多模态对齐模型确定第二表情分类结果;
[0008]根据所述第一表情分类结果和所述第二表情分类结果,确定所述用户当前表情的目标分类;
[0009]若确定所述目标分类属于预设表情分类,并且当前满足所述目标分类的响应触发条件,则根据所述目标分类对应的响应策略,确定对应的驱动数据;
[0010]根据所述驱动数据和虚拟人物的三维形象渲染模型,驱动虚拟人物执行对应的响应行为。
[0011]另一方面,本申请提供一种基于表情识别的虚拟人物驱动装置,包括:
[0012]渲染模型获取模块,用于获取虚拟人物的三维形象渲染模型,以利用虚拟人物向用户提供交互服务;
[0013]实时数据获取模块,用于在虚拟人物与用户的一轮对话中,实时获取所述用户的人脸图像;
[0014]实时表情识别模块,用于将所述用户的人脸图像分别输入用于人脸表情识别的基模型和多模态对齐模型,通过所述基模型确定第一表情分类结果,并通过所述多模态对齐模型确定第二表情分类结果;根据所述第一表情分类结果和所述第二表情分类结果,确定
所述用户当前表情的目标分类;
[0015]决策驱动模块,用于若确定所述目标分类属于预设表情分类,并且当前满足所述目标分类的响应触发条件,则根据所述目标分类对应的响应策略,确定对应的驱动数据;根据所述驱动数据和虚拟人物的三维形象渲染模型,驱动虚拟人物执行对应的响应行为。
[0016]另一方面,本申请提供一种电子设备,包括:处理器,以及与所述处理器通信连接的存储器;
[0017]所述存储器存储计算机执行指令;
[0018]所述处理器执行所述存储器存储的计算机执行指令,以实现上述所述的方法。
[0019]另一方面,本申请提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机执行指令,所述计算机执行指令被处理器执行时用于实现上述所述的方法。
[0020]本申请提供的基于表情识别的虚拟人物驱动方法、装置及设备,通过在虚拟人物与用户的一轮对话中,实时获取用户的人脸图像,将用户的人脸图像分别输入用于人脸表情识别的基模型和多模态对齐模型,通过基模型确定第一表情分类结果,并通过多模态对齐模型确定第二表情分类结果;根据第一表情分类结果和第二表情分类结果,确定用户当前表情的目标分类,从而实时地精准地识别用户面部表情的表情分类;基于用户表情的表情分类,在确定目标分类属于预设表情分类并且当前满足目标分类的响应触发条件时,根据用户表情的表情分类对应的响应策略,确定对应的驱动数据,并根据驱动数据和虚拟人物的三维形象渲染模型驱动虚拟人物执行对应的响应行为,使得输出视频流中虚拟人物做出对应的响应行为,增加用户表情的识别能力,并且驱动虚拟人物针对用户的面部表情做出及时响应,提高了虚拟人物拟人化程度,使得虚拟人物与人的交互更顺畅、更智能。
附图说明
[0021]此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本申请的实施例,并与说明书一起用于解释本申请的原理。
[0022]图1为本申请提供的基于表情识别的虚拟人物驱动方法的系统框架图;
[0023]图2为本申请一实施例提供的基于表情识别的虚拟人物驱动方法流程图;
[0024]图3为本申请一示例性实施例提供的表情识别方法的框架图;
[0025]图4为本申请另一实施例提供的基于表情识别的虚拟人物驱动方法流程图;
[0026]图5为本申请另一实施例提供的基于表情识别的虚拟人物驱动方法流程图;
[0027]图6为本申请另一实施例提供的虚拟人物驱动方法流程图;
[0028]图7为本申请一示例性实施例提供的基于表情识别的虚拟人物驱动装置的结构示意图;
[0029]图8为本申请一示例实施例提供的电子设备的结构示意图。
[0030]通过上述附图,已示出本申请明确的实施例,后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本申请构思的范围,而是通过参考特定实施例为本领域技术人员说明本申请的概念。
具体实施方式
[0031]这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及
附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本申请相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本申请的一些方面相一致的装置和方法的例子。
[0032]首先对本申请所涉及的名词进行解释:
[0033]多模态交互:用户可通过文字、语音、表情等方式与虚拟人物交流,虚拟人物可以理解用户文字、语音、表情等信息,并可以反过来通过文字、语音、表情等方式与用户进行交流。
[0034]双工交互:实时的、双向的交互方式,用户可以随时打断虚拟人物,虚拟人物也可以在必要的时候打断正在说话的自己。
[0035]静态表情识别:从给定的静态图像中分离出人特定的表情状态,给出表情种类的判断。
[0036]本申请提供的基于表情识别的虚拟人物驱动方法,涉及计算机技术中的人工智能、深度学习、机器学习、虚拟现实等领域,具体可以应用于虚拟人物与人类交互的场景中。
[0037]示例性地,常见的虚拟人物与人类交互的场景包括:智能客服、政务咨询、生活服务、智慧交通、虚拟陪伴人、虚拟主播、虚拟教师、网络游戏等等。
[0038]针对传统虚拟人物拟人化程度低,导致沟通过程不顺畅、不智能的问题,本申请提供一种基于表情识别本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于表情识别的虚拟人物驱动方法,其特征在于,包括:获取虚拟人物的三维形象渲染模型,以利用虚拟人物向用户提供交互服务;在虚拟人物与用户的一轮对话中,实时获取所述用户的人脸图像;将所述用户的人脸图像分别输入用于人脸表情识别的基模型和多模态对齐模型,通过所述基模型确定第一表情分类结果,并通过所述多模态对齐模型确定第二表情分类结果;根据所述第一表情分类结果和所述第二表情分类结果,确定所述用户当前表情的目标分类;若确定所述目标分类属于预设表情分类,并且当前满足所述目标分类的响应触发条件,则根据所述目标分类对应的响应策略,确定对应的驱动数据;根据所述驱动数据和虚拟人物的三维形象渲染模型,驱动虚拟人物执行对应的响应行为。2.根据权利要求1所述的方法,其特征在于,所述第一表情分类结果包括:所述用户当前表情属于每一表情分类的第一置信度,所述第二表情分类结果包括所述用户当前表情属于每一表情分类的第二置信度,所述根据所述第一表情分类结果和所述第二表情分类结果,确定所述用户当前表情的目标分类,包括:根据所述用户当前表情属于每一表情分类的第一置信度和第二置信度,确定所述用户当前表情的目标分类,以及所述用户当前表情属于所述目标分类的置信度。3.根据权利要求1所述的方法,其特征在于,所述若确定所述目标分类属于预设表情分类,并且当前满足所述目标分类的响应触发条件,则根据所述目标分类对应的响应策略,确定对应的驱动数据,包括:若当前的对话状态为虚拟人物输出用户接收的状态,并且所述目标分类属于第一预设表情分类,则根据所述用户当前表情属于所述目标分类的置信度和当前的上下文信息,确定当前是否满足所述目标分类对应的打断触发条件,所述第一预设表情分类具有对应的打断策略;若确定当前满足所述目标分类对应的打断触发条件,则打断所述虚拟人物的当前输出,并根据所述目标分类对应的打断策略,确定对应的驱动数据,所述驱动数据用于驱动所述虚拟人物执行如下至少一种打断响应行为:播报针对对应表情分类的话术、做出具有规定情绪的表情、做出规定动作。4.根据权利要求3所述的方法,其特征在于,所述目标分类对应的打断触发条件,包括以下至少一项:所述用户当前表情属于所述目标分类的置信度大于或等于所述目标分类对应的置信度阈值;当前对话轮次与前一次触发打断的对话轮次之间的间隔的轮次数量大于或等于预设轮次数量。5.根据权利要求3所述的方法,其特征在于,所述根据所述驱动数据和虚拟人物的三维形象渲染模型,驱动虚拟人物执行对应的响应行为之后,还包括:若在第一预设时长内接收到用户的语音输入,并识别出所述用户的语音输入的语义信息,则开启下一轮对话,根据所述用户的语音输入的语义信息进行对话处理;
若在第一预设时长内未接收到所述用户的语音输入,或者无法识别出所述用户的语音输入的语义信息,则继续被打断的所述虚拟人物的当前输出。6.根据权利要求1所述的方法,其特征在于,所述若确定所述目标分类属于预设表情分类,并且当前满足所述目标分类的响应触发条件,则根据所述目标分类对应的响应策略,确定对应的驱动数据,包括:若当前的对话状态为用户输入虚拟人物接收的状态,并且所述目标分类属于第二预设表情分类,则根据所述目标分类,判断当前是否满足所述目标分类对应的承接触发条件,所述第二预设表情分类具有对应的承接策略;若确定当前满足所述目标分类对应的承接触发条件,则根据所述目标分类对应的承接策略,确定对应的驱动数据,所述驱动数据用于驱动所述虚拟人物执行如下至少一种承接响应行为:播报具有特定语气的承接话术、做出具有特定情绪的表情、做出规定动作;其中,所述播报具有特...

【专利技术属性】
技术研发人员:马远凯朱鹏程张昆才冷海涛罗智凌周伟钱景李禹王郁菲
申请(专利权)人:阿里巴巴中国有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1