基于虚拟角色的多模态交互方法、装置及系统、存储介质、终端制造方法及图纸

技术编号:26923591 阅读:17 留言:0更新日期:2021-01-01 22:47
一种基于虚拟角色的多模态交互方法、装置及系统、存储介质、终端,该方法包括:获取输入信息,输入信息包括一种或多种数据类型;将输入信息输入感知层,感知层根据输入信息的数据类型对输入信息进行识别和处理得到识别结果;将识别结果输入逻辑决策层,逻辑决策层对识别结果进行处理,生成识别结果对应的驱动指令;根据驱动指令获取多模态虚拟内容,多模态虚拟内容至少包括虚拟角色;输出获取的多模态虚拟内容。由此,能对多种数据类型输入信息进行识别、处理,输出的多模态虚拟内容对应虚拟角色的多种响应(如做出动作、表情、说出语句等)结合虚拟场景、虚拟信息控件、虚拟特效、虚拟道具等,使输出的虚拟内容更直观、炫彩,提高用户体验。

【技术实现步骤摘要】
基于虚拟角色的多模态交互方法、装置及系统、存储介质、终端
本专利技术涉及虚拟角色
,具体地涉及一种基于虚拟角色的多模态交互方法、装置及系统、存储介质、终端。
技术介绍
近年来,随着人工智能技术及应用发展迅速,对话交互类的智能助手的智能手机,智能家居,银行,政府等行业架构中运用越来越普及,比如在C端(即企业用户端)领域,有很多的产品集成了智能语音助手,例如智能手机、智能音箱、智能电视等;另外在B端(即消费者端)领域,也有许多智能助手的落地场景,例如电商客服机器人、银行前台机器人、教育机器人,展厅咨询机器人等。但当前的智能助手存在很多问题,其中主要包括信息获取效率低和交互体验差。具体的:(1)信息获取效率低:用户在使用现有的智能助手或者信息类的应用程序(Application,简称APP)和网站搜索或者问询信息的时候,不能第一时间获取到需要的信息,必须在繁多的信息中筛选出需要的信息,信息获取效率较低。(2)交互体验差:现有的智能助手主要通过文本和语音进行交互,基本上是文字或者语音的单模态交互,或者文字和语音的双模态交互。可支持的输入模态较少,一般只支持语音或者文本两个模态的输入;逻辑决策模块的人工智能(ArtificialIntelligence,简称AI)大脑处理无法处理复杂的情况,例如其中的对话系统模块,只能处理简单的问答和明确的任务指令,当出现复杂的问答时,经常会出现答非所问,找不到信息等情况;在使用现有的智能助手时,输出信息的形式单一,主要是通过文字和语音结合的输出,或者以图片等传统信息方式进行呈现,呈现方式死板。综合现有智能助手的上述情况,导致用户与智能助手的交互体验较差。
技术实现思路
本专利技术解决的技术问题是如何提高智能助手的信息获取效率,并改善用户交互体验。为解决上述技术问题,本专利技术实施例提供一种基于虚拟角色的多模态交互方法,所述方法包括:获取输入信息,所述输入信息包括一种或多种数据类型;将输入信息输入感知层,以使所述感知层根据输入信息的数据类型对输入信息进行识别和处理,得到识别结果;将所述识别结果输入逻辑决策层,以使所述逻辑决策层对所述识别结果进行处理,并生成所述识别结果对应的驱动指令;根据所述驱动指令获取多模态虚拟内容,所述多模态虚拟内容至少包括虚拟角色;输出获取的多模态虚拟内容。可选的,所述逻辑决策层包括逻辑决策模型,所述逻辑决策模型基于训练样本训练得到,所述训练样本为所述识别结果的样本和所述驱动指令的样本,所述训练样本包括一个训练集及测试集。可选的,所述多模态虚拟内容还包括虚拟场景、虚拟信息控件、虚拟特效、虚拟道具中的一种或多种。可选的,所述输入信息至少包括文本类数据、音频类数据以及图像类数据。可选的,所述感知层通过语音识别处理技术、文本识别技术、图像识别技术中的一种或多种技术对所述输入信息进行信息识别。可选的,当所述感知层通过语音识别处理技术对所述输入信息进行信息识别时,将所述输入信息中的音频类数据输入语音识别模型中以得到对应的识别结果。可选的,当所述感知层通过图像识别技术对所述输入信息进行信息识别时,至少识别所述输入信息中的图像类数据中的人脸信息、手势信息、面部表情信息、面部情绪信息、图像中包含的物体种类。可选的,所述识别结果为多种数据类型对应的语义信息,所述将所述识别结果输入逻辑决策层,所述逻辑决策层对所述识别结果进行处理,并生成所述输入信息对应的驱动指令,还包括:将多种数据类型对应的语义信息输入自然语言对话系统,以得到驱动指令。可选的,所述多模态虚拟内容包括虚拟角色的虚拟内容和除虚拟角色之外的其他虚拟内容,所述得到驱动指令之后,还包括:通过路由模块从所述驱动指令中获取输出文本和/或展示指令;其中,所述输出文本用于获取虚拟角色的虚拟内容,所述展示指令用于获取除虚拟角色之外的其他虚拟内容。可选的,所述方法还包括虚拟角色及其素材库生成,包括:通过人脸扫描、人脸智能建模、人脸智能绑定、身体智能建模、身体智能绑定中的一种或多种技术生成虚拟角色;通过动作捕捉和/或运动重定向技术采集虚拟角色的动作动画数据,以得到所述虚拟角色的身体动作素材;通过表情和/或眼神捕捉以及表情和眼神迁移技术采集虚拟角色的表情动画数据,以得到所述虚拟角色的表情动作素材;获取训练文本和训练语音;以所述训练文本、所述训练语音和所述表情动作素材为训练样本,通过模型训练得到语音动画合成模型。可选的,所述根据所述驱动指令获取多模态虚拟内容,包括:基于所述输出文本,通过所述语音动画合成模型获取所述虚拟角色对应的输出语音和/或表情动作。可选的,所述虚拟角色的表情动作包括唇形。可选的,所述根据所述驱动指令获取多模态虚拟内容,还包括:基于所述输出文本,从所述身体动作素材获取所述虚拟角色对应的身体动作。可选的,所述根据所述驱动指令获取多模态虚拟内容,还包括:基于所述展示指令,获取虚拟场景、虚拟信息控件、虚拟特效、虚拟道具中的一种或多种。可选的,所述输出获取的多模态虚拟内容,包括:根据获取的多模态虚拟内容生成动画数据;将所述动画数据以语音的内容为时间轴、按照时间序列进行输出。可选的,所述根据获取的多模态内容生成动画数据之后,还包括:对所述动画数据进行实时解算和/或实时渲染,得到视频并输出。可选的,通过解算算法对所述动画数据进行物体在真实场景中的物理行为的模拟。可选的,所述输入信息由信息采集设备采集得到,所述信息采集设备包括文本采集设备、图像采集设备、拾音设备、温度传感器以及陀螺仪中的一种或多种。本专利技术实施例还提供一种基于虚拟角色的多模态交互装置,所述装置包括:输入信息获取模块,用于获取输入信息,所述输入信息包括一种或多种数据类型;感知层处理模块,用于将输入信息输入感知层,以使所述感知层根据输入信息的数据类型对输入信息进行识别和处理,得到识别结果;逻辑决策层处理模块,用于将所述识别结果输入逻辑决策层,以使所述逻辑决策层对所述识别结果进行处理,并生成所述识别结果对应的驱动指令;虚拟内容获取模块,用于根据所述驱动指令获取多模态虚拟内容,所述多模态虚拟内容至少包括所述虚拟角色;输出模块,用于输出获取的多模态虚拟内容。本专利技术实施例还提供一种存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任一项所述方法的步骤。本专利技术实施例还提供一种终端,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述任一项所述方法的步骤。本专利技术实施例还提供一种基于虚拟角色的多模态交互系统,所述系统包括信息采集设备,平台和输出设备;所述信息采集设备用于采集外部数据以得到输入信息;所述平台用于执行上述任一项所述的方法;所述输出设备,用于展示输出的多模态虚拟内容。与现有技术相比,本专利技术实施例的技术方案具有以下有益效果:较之现有技术,本专利技术实施例提供的基于虚拟角色的多模态交互方法,能够对多种数据类型的输入信息进行识别、处理,提高信息处理的能力;本文档来自技高网
...

【技术保护点】
1.一种基于虚拟角色的多模态交互方法,其特征在于,所述方法包括:/n获取输入信息,所述输入信息包括一种或多种数据类型;/n将输入信息输入感知层,以使所述感知层根据输入信息的数据类型对输入信息进行识别和处理,得到识别结果;/n将所述识别结果输入逻辑决策层,以使所述逻辑决策层对所述识别结果进行处理,并生成所述识别结果对应的驱动指令;/n根据所述驱动指令获取多模态虚拟内容,所述多模态虚拟内容至少包括虚拟角色;/n输出获取的多模态虚拟内容。/n

【技术特征摘要】
1.一种基于虚拟角色的多模态交互方法,其特征在于,所述方法包括:
获取输入信息,所述输入信息包括一种或多种数据类型;
将输入信息输入感知层,以使所述感知层根据输入信息的数据类型对输入信息进行识别和处理,得到识别结果;
将所述识别结果输入逻辑决策层,以使所述逻辑决策层对所述识别结果进行处理,并生成所述识别结果对应的驱动指令;
根据所述驱动指令获取多模态虚拟内容,所述多模态虚拟内容至少包括虚拟角色;
输出获取的多模态虚拟内容。


2.根据权利要求1所述的方法,其特征在于,所述逻辑决策层包括逻辑决策模型,所述逻辑决策模型基于训练样本训练得到,所述训练样本为所述识别结果的样本和所述驱动指令的样本,所述训练样本包括一个训练集及测试集。


3.根据权利要求1所述的方法,其特征在于,所述多模态虚拟内容还包括虚拟场景、虚拟信息控件、虚拟特效、虚拟道具中的一种或多种。


4.根据权利要求1所述的方法,其特征在于,所述输入信息至少包括文本类数据、音频类数据以及图像类数据。


5.根据权利要求4所述的方法,其特征在于,所述感知层通过语音识别处理技术、文本识别技术、图像识别技术中的一种或多种技术对所述输入信息进行信息识别。


6.根据权利要求5所述的方法,其特征在于,当所述感知层通过语音识别处理技术对所述输入信息进行信息识别时,将所述输入信息中的音频类数据输入语音识别模型中以得到对应的识别结果。


7.根据权利要求5所述的方法,其特征在于,当所述感知层通过图像识别技术对所述输入信息进行信息识别时,至少识别所述输入信息中的图像类数据中的人脸信息、手势信息、面部表情信息、面部情绪信息、图像中包含的物体种类。


8.根据权利要求5所述的方法,其特征在于,所述识别结果为多种数据类型对应的语义信息,所述将所述识别结果输入逻辑决策层,所述逻辑决策层对所述识别结果进行处理,并生成所述输入信息对应的驱动指令,还包括:
将多种数据类型对应的语义信息输入自然语言对话系统,以得到驱动指令。


9.根据权利要求8所述的方法,其特征在于,所述多模态虚拟内容包括虚拟角色的虚拟内容和除虚拟角色之外的其他虚拟内容,所述得到驱动指令之后,还包括:
通过路由模块从所述驱动指令中获取输出文本和/或展示指令;
其中,所述输出文本用于获取虚拟角色的虚拟内容,所述展示指令用于获取除虚拟角色之外的其他虚拟内容。


10.根据权利要求9所述的方法,其特征在于,所述方法还包括虚拟角色及其素材库生成,包括:
通过人脸扫描、人脸智能建模、人脸智能绑定、身体智能建模、身体智能绑定中的一种或多种技术生成虚拟角色;
通过动作捕捉和/或运动重定向技术采集虚拟角色的动作动画数据,以得到所述虚拟角色的身体动作素材;
通过表情和/或眼神捕捉以及表情和眼神迁移技术采集虚拟角色的表情动画数据,以得到所述虚拟角色的表情动作素材;
获取训练文本和训练语音;
以所述训练文本、所述训练语音和所述表情...

【专利技术属性】
技术研发人员:柴金祥梁志强其他发明人请求不公开姓名
申请(专利权)人:魔珐上海信息科技有限公司上海墨舞科技有限公司
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1