基于虚拟人的视觉交互方法及系统技术方案

技术编号:19138893 阅读:27 留言:0更新日期:2018-10-13 08:29
本发明专利技术提供一种基于虚拟人的视觉交互方法,虚拟人通过智能设备展示,在处于交互状态时启动语音、情感、视觉以及感知能力,其包含:通过虚拟人输出多模态数据;接收用户针对多模态数据提供的多模态交互数据;解析多模态交互数据,其中:通过视觉能力检测并提取多模态交互数据中的手部点赞动作作为交互意图;通过虚拟人按照交互意图进行多模态交互输出。本发明专利技术提供的基于虚拟人的视觉交互方法及系统提供了一种虚拟人,具备预设形象和预设属性,能够与用户进行多模态的交互。并且,本发明专利技术还能够通过手部的点赞动作判断用户的意图,与用户展开交互,使得用户与虚拟人之间能够进行流畅的交流,并使得用户享受拟人的交互体验。

Visual interaction method and system based on Virtual Human

The invention provides a visual interaction method based on a virtual human, in which the virtual human starts the voice, emotion, vision and perception ability when it is in an interactive state through an intelligent device display. The method comprises: outputting multi-modal data through a virtual human; receiving multi-modal interactive data provided by a user for multi-modal data; and analyzing multi-modal interactive data; Modal interactive data, in which: through visual ability detection and extraction of multi-modal interactive data in hand praise action as an interactive intention; according to the interactive intention of the virtual human multi-modal interactive output. The method and system of visual interaction based on virtual human provided by the invention provides a virtual human, which has a preset image and preset attributes, and can interact with users in multi-modality. Furthermore, the invention also can judge the user's intention by the hand's praise action, and interact with the user, so that the user can communicate smoothly with the virtual person, and enable the user to enjoy the anthropomorphic interactive experience.

【技术实现步骤摘要】
基于虚拟人的视觉交互方法及系统
本专利技术涉及人工智能领域,具体地说,涉及一种基于虚拟人的视觉交互方法及系统。
技术介绍
机器人多模态交互系统的开发致力于模仿人类对话,以试图在上下文之间模仿人类之间的交互。但是,目前来说,对于虚拟人相关的机器人多模态交互系统的开发还不太完善,尚未出现进行多模态交互的虚拟人,更为重要的是,尚无针对肢体,尤其针对手势交互,且对肢体、尤其手势交互有响应的基于虚拟人的视觉交互产品。因此,本专利技术提供了一种基于虚拟人的视觉交互方法及系统。
技术实现思路
为解决上述问题,本专利技术提供了一种基于虚拟人的视觉交互方法,所述虚拟人通过智能设备展示,在处于交互状态时启动语音、情感、视觉以及感知能力,所述方法包含以下步骤:通过所述虚拟人输出多模态数据;接收用户针对所述多模态数据提供的多模态交互数据;解析所述多模态交互数据,其中:通过视觉能力检测并提取所述多模态交互数据中的手部点赞动作作为交互意图;通过所述虚拟人按照所述交互意图进行多模态交互输出。根据本专利技术的一个实施例,在通过视觉能力检测到所述手部点赞动作时,在判断周期内,如果用户的手部动作包含:大拇指竖立,与所述大拇指在同一只手的其余手指向掌心弯曲,则识别所述手部动作为手部点赞动作。根据本专利技术的一个实施例,在通过视觉能力检测并提取所述多模态交互数据中的手部点赞动作作为交互意图的步骤中,还包括:基于所述虚拟人已经输出的多模态数据将所述交互意图识别为赞扬意图,其中,所述赞扬意图指示用户对所述虚拟人输出的多模态数据的响应;或,基于所述虚拟人已经输出的多模态数据将所述交互意图识别为许可意图,其中,所述许可意图表示用户对所述虚拟人输出的多模态数据的赞同。根据本专利技术的一个实施例,在通过视觉能力检测并提取所述多模态交互数据中的手部点赞动作作为交互意图的步骤中,还包括:基于所述赞扬意图或许可意图将当前交互话题或交互事件存储为该用户的偏好数据。根据本专利技术的一个实施例,所述虚拟人接收来自多个用户的针对所述多模态数据提供的多模态交互数据,识别出所述多个用户中的主要用户,并对所述主要用户的手部动作进行检测;或,采集当前全部或部分用户的手部动作,按照预设的用户采集比例确定被采集用户的交互意图。根据本专利技术的一个实施例,当所述多模态交互数据中包含语音数据、头部数据或表情数据时,依据所述手部点赞动作作为交互意图,以上步骤还包含:检测并提取所述多模态交互数据中的语音数据、头部数据或表情数据;解析所述语音数据、所述头部数据或所述表情数据,判断所述语音数据、所述头部数据或所述表情数据与所述手部点赞动作的意图是否符合;若符合,则根据解析的结果结合所述手部点赞动作作为交互意图;若不符合,则所述手部点赞动作作为交互意图。根据本专利技术的一个实施例,通过所述虚拟人按照所述交互意图进行多模态交互输出,包括:通过所述虚拟人按照所述手部点赞动作对应的交互意图输出并展示多模态交互输出,所述多模态交互输出包括:赞扬意图或许可意图所指示的当前交互话题或交互事件的响应数据。根据本专利技术的另一个方面,还提供了一种程序产品,其包含用于执行如上任一项所述的方法步骤的一系列指令。根据本专利技术的另一个方面,还提供了一种虚拟人,所述虚拟人具备特定的虚拟形象和预设属性,采用如上任一项所述的方法进行多模态的交互。根据本专利技术的另一个方面,还提供了一种基于虚拟人的视觉交互系统,所述系统包含:智能设备,其上装载有如上所述的虚拟人,用于获取多模态交互数据,并具备语音语言输出、情感、表情和动作输出的能力;云端大脑,其用于对所述多模态交互数据进行自然语言理解、视觉识别、认知计算以及情感计算,以决策所述虚拟人输出多模态交互数据。本专利技术提供的基于虚拟人的视觉交互方法及系统提供了一种虚拟人,虚拟人具备预设形象和预设属性,能够与用户进行多模态的交互。并且,本专利技术提供的虚拟人的视觉交互方法及系统还能够通过手部的点赞动作判断用户的意图,与用户展开交互,使得用户与虚拟人之间能够进行流畅的交流,并使得用户享受拟人的交互体验。本专利技术的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本专利技术而了解。本专利技术的目的和其他优点可通过在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。附图说明附图用来提供对本专利技术的进一步理解,并且构成说明书的一部分,与本专利技术的实施例共同用于解释本专利技术,并不构成对本专利技术的限制。在附图中:图1显示了根据本专利技术的一个实施例的基于虚拟人的视觉交互系统的结构框图;图2显示了根据本专利技术的一个实施例的基于虚拟人的视觉交互系统的结构框图;图3显示了根据本专利技术的另一个实施例的基于虚拟人的视觉交互系统的模块框图;图4显示了根据本专利技术的另一个实施例的基于虚拟人的视觉交互系统的结构框图;图5显示了根据本专利技术的一个实施例的基于虚拟人的视觉交互系统进行视觉交互的示意图;图6显示了根据本专利技术的一个实施例的基于虚拟人的视觉交互方法的流程图;图7显示了根据本专利技术的一个实施例的基于虚拟人的视觉交互方法的确定交互意图的流程图;图8显示了根据本专利技术的另一个实施例的基于虚拟人的视觉交互方法的确定交互意图的流程图;图9显示了根据本专利技术的一个实施例的基于虚拟人的视觉交互方法的另一流程图;以及图10显示了根据本专利技术的一个实施例的在用户、智能设备以及云端大脑三方之间进行通信的流程图。具体实施方式为使本专利技术的目的、技术方案和优点更加清楚,以下结合附图对本专利技术实施例作进一步地详细说明。为表述清晰,需要在实施例前进行如下说明:本专利技术提到的虚拟人搭载于支持感知、控制等输入输出模块的智能设备;以高仿真3d虚拟人物形象为主要用户界面,具备显著人物特征的外观;支持多模态人机交互,具备自然语言理解、视觉感知、触摸感知、语言语音输出、情感表情动作输出等AI能力;可配置社会属性、人格属性、人物技能等,使用户享受智能化及个性化流畅体验的虚拟人物。虚拟人所搭载的智能设备为:具备非触摸、非鼠标键盘输入的屏幕(全息、电视屏、多媒体显示屏、LED屏等),并携带有摄像头的智能设备,同时,可以是全息设备、VR设备、PC机。但并不排除其他智能设备,如:手持平板、裸眼3D设备、甚至智能手机等。虚拟人在系统层面与用户进行交互,所述系统硬件中运行操作系统,如全息设备内置系统,如PC则为windows或MACOS。虚拟人为系统应用程序,或者可执行文件。虚拟机器人基于所述智能设备的硬件获取用户多模态交互数据,在云端大脑的能力支持下,对多模态交互数据进行语义理解、视觉识别、认知计算、情感计算,以完成决策输出的过程。所提到的云端大脑为提供所述虚拟人对用户的交互需求进行语义理解(语言语义理解、动作语义理解、视觉识别、情感计算、认知计算)的处理能力的终端,实现与用户的交互,以决策所述虚拟人的输出多模态交互数据。下面结合附图对本专利技术的各个实施例进行详细描述。图1显示了根据本专利技术的一个实施例的基于虚拟人的视觉交互系统的结构框图。如图1所示,进行多模态交互需要用户101、智能设备102、虚拟人103以及云端大脑104。其中,与虚拟人交互的用户101可以为真实人、另一个虚拟人以及实体的虚拟人,另一虚拟人以及实体虚拟人与虚拟人的交互过程与单个的人与虚拟人的交互过程类似。因此,在图1中仅展示的是本文档来自技高网...

【技术保护点】
1.一种基于虚拟人的视觉交互方法,其特征在于,所述虚拟人通过智能设备展示,在处于交互状态时启动语音、情感、视觉以及感知能力,所述方法包含以下步骤:通过所述虚拟人输出多模态数据;接收用户针对所述多模态数据提供的多模态交互数据;解析所述多模态交互数据,其中:通过视觉能力检测并提取所述多模态交互数据中的手部点赞动作作为交互意图;通过所述虚拟人按照所述交互意图进行多模态交互输出。

【技术特征摘要】
1.一种基于虚拟人的视觉交互方法,其特征在于,所述虚拟人通过智能设备展示,在处于交互状态时启动语音、情感、视觉以及感知能力,所述方法包含以下步骤:通过所述虚拟人输出多模态数据;接收用户针对所述多模态数据提供的多模态交互数据;解析所述多模态交互数据,其中:通过视觉能力检测并提取所述多模态交互数据中的手部点赞动作作为交互意图;通过所述虚拟人按照所述交互意图进行多模态交互输出。2.如权利要求1所述的基于虚拟人的视觉交互方法,其特征在于,在通过视觉能力检测到所述手部点赞动作时,在判断周期内,如果用户的手部动作包含:大拇指竖立,与所述大拇指在同一只手的其余手指向掌心弯曲,则识别所述手部动作为手部点赞动作。3.如权利要求1-2中任一项所述的基于虚拟人的视觉交互方法,其特征在于,在通过视觉能力检测并提取所述多模态交互数据中的手部点赞动作作为交互意图的步骤中,还包括:基于所述虚拟人已经输出的多模态数据将所述交互意图识别为赞扬意图,其中,所述赞扬意图指示用户对所述虚拟人输出的多模态数据的响应;或,基于所述虚拟人已经输出的多模态数据将所述交互意图识别为许可意图,其中,所述许可意图表示用户对所述虚拟人输出的多模态数据的赞同。4.如权利要求1所述的基于虚拟人的视觉交互方法,其特征在于,在通过视觉能力检测并提取所述多模态交互数据中的手部点赞动作作为交互意图的步骤中,还包括:基于所述赞扬意图或许可意图将当前交互话题或交互事件存储为该用户的偏好数据。5.如权利要求1-4中任一项所述的基于虚拟人的视觉交互方法,其特征在于,所述虚拟人接收来自多个用户的针对所述多模态数据提供的多模态交互数据,识别出所述多个...

【专利技术属性】
技术研发人员:尚小维李晓丹俞志晨
申请(专利权)人:北京光年无限科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1