虚拟人多模态交互数据处理方法和系统技术方案

技术编号:17442450 阅读:47 留言:0更新日期:2018-03-10 15:17
本发明专利技术提供一种虚拟人多模态交互数据处理方法,其包括以下步骤:获取多模态输入数据;调用机器人能力接口解析多模态输入数据,并生成多模态输出数据,其中包括应答数据;将应答数据中的语音文件与虚拟人的头部运动模型进行匹配,其中,语音文件包括:音频旋律及文本切词结果;通过虚拟人的形象输出头部运动数据及其他多模态输出数据,其中,多模态输出数据与虚拟人的性格、属性以及技能关联。本发明专利技术提供的虚拟人多模态交互数据处理方法和系统中虚拟人的头部动作能够与输出的语音文件在输出的时间点以及表达意向上匹配,虚拟人头部的动作能够配合输出的语音进行点头、摇头以及头部摆动等多种动作,丰富了交互的内容,提升了用户的交互体验。

【技术实现步骤摘要】
虚拟人多模态交互数据处理方法和系统
本专利技术涉及人工智能领域,具体地说,涉及一种虚拟人多模态交互数据处理方法和系统。
技术介绍
机器人聊天交互系统的开发致力于模仿人类对话。早期广为人知的聊天机器人应用程序包括小i聊天机器人、苹果手机上的siri聊天机器人等处理所接收到的输入(包括文本或语音)并进行响应,以试图在上下文之间模仿人类响应。然而,要想完全模仿人类进行多模态交互,丰富用户的交互体验,现有的这些机器人聊天系统远远达不到要求。
技术实现思路
为解决上述问题,本专利技术提供了一种虚拟人多模态交互数据处理方法,所述虚拟人搭载于具有操作系统的智能硬件设备中,所述虚拟人在被启动后显示在预设区域内,并具备特定的形象、性格设定、社会属性以及技能,所述虚拟人多模态交互数据处理方法包括以下步骤:获取多模态输入数据;调用机器人能力接口解析所述多模态输入数据,并生成多模态输出数据,其中包括应答数据;将所述应答数据中的语音文件与所述虚拟人的头部运动模型进行匹配,其中,所述语音文件包括:音频旋律及文本切词结果;通过虚拟人的形象输出头部运动数据及其他多模态输出数据,其中,所述多模态输出数据与所述虚拟人的性格、属性以及技能关联。根据本专利技术的一个实施例,在将所述应答数据中的语音文件与所述虚拟人的头部模型进行匹配的步骤中包含以下步骤:提取所述语音文件的音频旋律节奏并将所述语音文件转换为文本;将所述文本进行切词划分,提取出实体分词。根据本专利技术的一个实施例,在将所述应答数据中的语音文件与所述虚拟人的头部模型进行匹配的步骤中通过所述头部模型执行以下步骤:依据所述旋律节奏以及所述实体分词将所述文本的内容进行分类,以确定所述头部运动风格以及对应的头部动作。根据本专利技术的一个实施例,还包括:依据所述实体分词的词性及该实体分词所属领域分类词组进行分类,以确定头部运动风格以及对应的头部动作。根据本专利技术的一个实施例,在输出所述多模态输出数据的步骤中,还包括:根据所述虚拟人的社会属性、性格设定以及当前场景选择最优的头部运动数据来进行输出,所述头部运动数据包括:头部运动动画数据。根据本专利技术的一个实施例,在输出所述多模态输出数据的步骤中,还将所述头部运动数据的动画播放时间点与对应的所述实体分词在所述语音文件中的播放时间点进行匹配。根据本专利技术的另一个方面,还提供了一种存储介质,其上存储有可执行如上所述中任一项所述的方法步骤的程序代码。根据本专利技术的另一个方面,还提供了一种虚拟人多模态交互数据处理装置,所述虚拟人搭载于具有操作系统的智能硬件设备中,所述虚拟人在被启动后显示在预设区域内,并具备特定的形象、性格设定、社会属性以及技能,所述虚拟人多模态交互数据处理装置包含:获取模块,其用于获取多模态输入数据;调用模块,其用于调用机器人能力接口解析所述多模态输入数据,并生成多模态输出数据,其中包括应答数据;匹配模块,其用于将所述应答数据中的语音文件与所述虚拟人的头部运动模型进行匹配,其中,所述语音文件包括:音频旋律及文本切词结果;输出模块,其用于通过虚拟人的形象输出头部运动数据及其他多模态输出数据,其中,所述多模态输出数据与所述虚拟人的性格、属性以及技能关联。根据本专利技术的一个实施例,所述匹配模块包含:转换单元,其用于提取所述语音文件的音频旋律节奏并将所述语音文件转换为文本;提取单元,其用于将所述文本进行切词划分,提取出实体分词。根据本专利技术的另一个方面,还提供了一种虚拟人多模态交互数据处理系统,所述虚拟人搭载于具有操作系统的智能硬件设备中,所述虚拟人在被启动后显示在预设区域内,并具备特定的形象、性格设定、社会属性以及技能,所述虚拟人多模态交互数据处理系统包括:硬件设备,包括:获取模块,其用于获取多模态输入数据;输出模块,其用于通过虚拟人的形象输出头部运动数据及其他多模态输出数据,其中,所述多模态输出数据与所述虚拟人的性格、属性以及技能关联;云服务器,包括:调用模块,其用于调用机器人能力接口解析所述多模态输入数据,并生成多模态输出数据,其中包括应答数据;匹配模块,其用于将所述应答数据中的语音文件与所述虚拟人的头部运动模型进行匹配,其中,所述语音文件包括:音频旋律及文本切词结果。本专利技术提供的虚拟人多模态交互数据处理方法和系统中虚拟人在输出多模态输出数据时,虚拟人的头部动作能够与输出的语音文件在输出的时间点以及表达意向上匹配,虚拟人头部的动作能够配合输出的语音进行点头、摇头以及头部摆动等多种动作,丰富了交互的内容,提升了用户的交互体验。本专利技术的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本专利技术而了解。本专利技术的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。附图说明附图用来提供对本专利技术的进一步理解,并且构成说明书的一部分,与本专利技术的实施例共同用于解释本专利技术,并不构成对本专利技术的限制。在附图中:图1显示了根据本专利技术的一个实施例的虚拟人多模态交互数据处理系统的交互示意图;图2显示了根据本专利技术的一个实施例的虚拟人多模态交互数据处理系统的结构框图;图3显示了根据本专利技术的一个实施例的虚拟人多模态交互数据处理系统的头部运动数据的动画与对应的实体分词播放时间点匹配的示意图;图4显示了根据本专利技术的一个实施例的虚拟人多模态交互数据处理系统的模块框图;图5显示了根据本专利技术的一个实施例的虚拟人多模态交互数据处理方法的流程图;图6显示了根据本专利技术的一个实施例的虚拟人多模态交互数据处理方法的语音文件与头部模型匹配的流程图;图7进一步显示了根据本专利技术的一个实施例的虚拟人多模态交互数据处理方法的输出步骤流程图;图8显示了根据本专利技术的一个实施例的虚拟人多模态交互数据处理系统进行对话交互的另一流程图;以及图9显示了根据本专利技术的一个实施例在用户、硬件设备以及云端服务器三方之间进行通信的流程图。具体实施方式为使本专利技术的目的、技术方案和优点更加清楚,以下结合附图对本专利技术实施例作进一步地详细说明。为表述清晰,需要在实施例前进行如下说明:本专利技术的提到的虚拟人为搭载于支持感知、控制等输入输出模块的智能设备;以高仿真3d虚拟人物形象为主要用户界面,具备显著人物特征的外观;支持多模态人机交互,具备自然语言理解、视觉感知、触摸感知、语言语音输出、情感表情动作输出等AI能力;可配置社会属性、人格属性、人物技能等,使用户享受智能化及个性化流畅体验的虚拟人物。所提到的云端服务器为提供所述多模态交互机器人对用户的交互需求进行语义理解(语言语义理解、动作语义理解、视觉识别、情感计算、认知计算)的处理能力的终端,实现与用户的交互,以便帮助用户进行决策。下面结合附图对本专利技术的各个实施例进行详细描述。图1显示了根据本专利技术的一个实施例的虚拟人多模态交互数据处理系统的交互示意图。如图1所示,该系统包含用户101、硬件设备(包括显示区域1021以及硬件支持设备1022)、虚拟人103以及云端服务器104。其中,与虚拟人103交互的用户101可以为真实人、另一个虚拟人以及实体的虚拟人,另一虚拟人以及实体虚拟人与虚拟人的交互过程与单个的人与虚拟人的交互过程类似。因此,在图1中仅展示的是用户(人)与虚拟人的多模态交互过程。另外,硬件设备包括显示区域1021以及硬件支持设备1022(本文档来自技高网...
虚拟人多模态交互数据处理方法和系统

【技术保护点】
一种虚拟人多模态交互数据处理方法,其特征在于,所述虚拟人搭载于具有操作系统的智能硬件设备中,所述虚拟人在被启动后显示在预设区域内,并具备特定的形象、性格设定、社会属性以及技能,所述虚拟人多模态交互数据处理方法包括以下步骤:获取多模态输入数据;调用机器人能力接口解析所述多模态输入数据,并生成多模态输出数据,其中包括应答数据;将所述应答数据中的语音文件与所述虚拟人的头部运动模型进行匹配,其中,所述语音文件包括:音频旋律及文本切词结果;通过虚拟人的形象输出头部运动数据及其他多模态输出数据,其中,所述多模态输出数据与所述虚拟人的性格、属性以及技能关联。

【技术特征摘要】
1.一种虚拟人多模态交互数据处理方法,其特征在于,所述虚拟人搭载于具有操作系统的智能硬件设备中,所述虚拟人在被启动后显示在预设区域内,并具备特定的形象、性格设定、社会属性以及技能,所述虚拟人多模态交互数据处理方法包括以下步骤:获取多模态输入数据;调用机器人能力接口解析所述多模态输入数据,并生成多模态输出数据,其中包括应答数据;将所述应答数据中的语音文件与所述虚拟人的头部运动模型进行匹配,其中,所述语音文件包括:音频旋律及文本切词结果;通过虚拟人的形象输出头部运动数据及其他多模态输出数据,其中,所述多模态输出数据与所述虚拟人的性格、属性以及技能关联。2.如权利要求1所述的虚拟人多模态交互数据处理方法,其特征在于,在将所述应答数据中的语音文件与所述虚拟人的头部模型进行匹配的步骤中包含以下步骤:提取所述语音文件的音频旋律节奏并将所述语音文件转换为文本;将所述文本进行切词划分,提取出实体分词。3.如权利要求2所述的虚拟人多模态交互数据处理方法,其特征在于,在将所述应答数据中的语音文件与所述虚拟人的头部模型进行匹配的步骤中通过所述头部模型执行以下步骤:依据所述旋律节奏以及所述实体分词将所述文本的内容进行分类,以确定所述头部运动风格以及对应的头部动作。4.如权利要求3所述的虚拟人多模态交互数据处理方法,其特征在于,还包括:依据所述实体分词的词性及该实体分词所属领域分类词组进行分类,以确定头部运动风格以及对应的头部动作。5.如权利要求3所述的虚拟人多模态交互数据处理方法,其特征在于,在输出所述多模态输出数据的步骤中,还包括:根据所述虚拟人的社会属性、性格设定以及当前场景选择最优的头部运动数据来进行输出,所述头部运动数据包括:头部运动动画数据。6.如权利要求3或5所述的虚拟人多模态交互数据处理方法,其特征在于,在输出所述多模态输出数据的步骤中,还将所述头部运动数据的动画播放时间点与对应的...

【专利技术属性】
技术研发人员:尚小维李贺超李晓丹
申请(专利权)人:北京光年无限科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1