基于虚拟角色的多模态交互方法、装置及系统、存储介质、终端制造方法及图纸

技术编号：26923591 阅读：17 留言：0更新日期：2021-01-01 22:47

一种基于虚拟角色的多模态交互方法、装置及系统、存储介质、终端，该方法包括：获取输入信息，输入信息包括一种或多种数据类型；将输入信息输入感知层，感知层根据输入信息的数据类型对输入信息进行识别和处理得到识别结果；将识别结果输入逻辑决策层，逻辑决策层对识别结果进行处理，生成识别结果对应的驱动指令；根据驱动指令获取多模态虚拟内容，多模态虚拟内容至少包括虚拟角色；输出获取的多模态虚拟内容。由此，能对多种数据类型输入信息进行识别、处理，输出的多模态虚拟内容对应虚拟角色的多种响应(如做出动作、表情、说出语句等)结合虚拟场景、虚拟信息控件、虚拟特效、虚拟道具等，使输出的虚拟内容更直观、炫彩，提高用户体验。

全部详细技术资料下载

【技术实现步骤摘要】
基于虚拟角色的多模态交互方法、装置及系统、存储介质、终端
本专利技术涉及虚拟角色
，具体地涉及一种基于虚拟角色的多模态交互方法、装置及系统、存储介质、终端。
技术介绍
近年来，随着人工智能技术及应用发展迅速，对话交互类的智能助手的智能手机，智能家居，银行，政府等行业架构中运用越来越普及，比如在C端(即企业用户端)领域，有很多的产品集成了智能语音助手，例如智能手机、智能音箱、智能电视等；另外在B端(即消费者端)领域，也有许多智能助手的落地场景，例如电商客服机器人、银行前台机器人、教育机器人，展厅咨询机器人等。但当前的智能助手存在很多问题，其中主要包括信息获取效率低和交互体验差。具体的：(1)信息获取效率低：用户在使用现有的智能助手或者信息类的应用程序(Application，简称APP)和网站搜索或者问询信息的时候，不能第一时间获取到需要的信息，必须在繁多的信息中筛选出需要的信息，信息获取效率较低。(2)交互体验差：现有的智能助手主要通过文本和语音进行交互，基本上是文字或者语音的单模态交互，或者文字和语音的双模态交互。可支持的输入模态较少，一般只支持语音或者文本两个模态的输入；逻辑决策模块的人工智能(ArtificialIntelligence，简称AI)大脑处理无法处理复杂的情况，例如其中的对话系统模块，只能处理简单的问答和明确的任务指令，当出现复杂的问答时，经常会出现答非所问，找不到信息等情况；在使用现有的智能助手时，输出信息的形式单一，主要是通过文字和语音结合的输出，或者以图...

【技术保护点】
1.一种基于虚拟角色的多模态交互方法，其特征在于，所述方法包括：/n获取输入信息，所述输入信息包括一种或多种数据类型；/n将输入信息输入感知层，以使所述感知层根据输入信息的数据类型对输入信息进行识别和处理，得到识别结果；/n将所述识别结果输入逻辑决策层，以使所述逻辑决策层对所述识别结果进行处理，并生成所述识别结果对应的驱动指令；/n根据所述驱动指令获取多模态虚拟内容，所述多模态虚拟内容至少包括虚拟角色；/n输出获取的多模态虚拟内容。/n

【技术特征摘要】
1.一种基于虚拟角色的多模态交互方法，其特征在于，所述方法包括：
获取输入信息，所述输入信息包括一种或多种数据类型；
将输入信息输入感知层，以使所述感知层根据输入信息的数据类型对输入信息进行识别和处理，得到识别结果；
将所述识别结果输入逻辑决策层，以使所述逻辑决策层对所述识别结果进行处理，并生成所述识别结果对应的驱动指令；
根据所述驱动指令获取多模态虚拟内容，所述多模态虚拟内容至少包括虚拟角色；
输出获取的多模态虚拟内容。

2.根据权利要求1所述的方法，其特征在于，所述逻辑决策层包括逻辑决策模型，所述逻辑决策模型基于训练样本训练得到，所述训练样本为所述识别结果的样本和所述驱动指令的样本，所述训练样本包括一个训练集及测试集。

3.根据权利要求1所述的方法，其特征在于，所述多模态虚拟内容还包括虚拟场景、虚拟信息控件、虚拟特效、虚拟道具中的一种或多种。

4.根据权利要求1所述的方法，其特征在于，所述输入信息至少包括文本类数据、音频类数据以及图像类数据。

5.根据权利要求4所述的方法，其特征在于，所述感知层通过语音识别处理技术、文本识别技术、图像识别技术中的一种或多种技术对所述输入信息进行信息识别。

6.根据权利要求5所述的方法，其特征在于，当所述感知层通过语音识别处理技术对所述输入信息进行信息识别时，将所述输入信息中的音频类数据输入语音识别模型中以得到对应的识别结果。

7.根据权利要求5所述的方法，其特征在于，当所述感知层通过图像识别技术对所述输入信息进行信息识别时，至少识别所述输入信息中的图像类数据中的人脸信息、手势信息、面部表情信息、面部情绪信息、图像中包含的物体种类。

8.根据权利要求5所述的方法，其特征在于，所述识别结果为多种数据类型对应的语义信息，所述将所述识别结果输入逻辑决策层，所述逻辑决策层对所述识别结果进行处理，并生成所述输入信息对应的驱动指令，还包括：
将多种数据类型对应的语义信息输入自然语言对话系统，以得到驱动指令。

9.根据权利要求8所述的方法，其特征在于，所述多模态虚拟内容包括虚拟角色的虚拟内容和除虚拟角色之外的其他虚拟内容，所述得到驱动指令之后，还包括：
通过路由模块从所述驱动指令中获取输出文本和/或展示指令；
其中，所述输出文本用于获取虚拟角色的虚拟内容，所述展示指令用于获取除虚拟角色之外的其他虚拟内容。

10.根据权利要求9所述的方法，其特征在于，所述方法还包括虚拟角色及其素材库生成，包括：
通过人脸扫描、人脸智能建模、人脸智能绑定、身体智能建模、身体智能绑定中的一种或多种技术生成虚拟角色；
通过动作捕捉和/或运动重定向技术采集虚拟角色的动作动画数据，以得到所述虚拟角色的身体动作素材；
通过表情和/或眼神捕捉以及表情和眼神迁移技术采集虚拟角色的表情动画数据，以得到所述虚拟角色的表情动作素材；
获取训练文本和训练语音；
以所述训练文本、所述训练语音和所述表情...

【专利技术属性】
技术研发人员：柴金祥，梁志强，其他发明人请求不公开姓名，
申请(专利权)人：魔珐上海信息科技有限公司，上海墨舞科技有限公司，
类型：发明
国别省市：上海;31

全部详细技术资料下载我是这个专利的主人