一种多模态人机交互系统及其控制方法技术方案

技术编号:15197240 阅读:374 留言:0更新日期:2017-04-21 04:52
本发明专利技术公开了一种多模态人机交互系统及其控制方法,主要交互过程为交互信息采集,交互动作识别,交互指令映射,逻辑处理单元,交互动作响应。突破语音、触摸手势、体感手势交互的识别算法,包括触点动态跟踪和运动轨迹匹配算法、物理参数模型匹配算法、多用户交互队列机制。设定触控/体感手势交互映射指令、逻辑处理、协同/互斥访问机制,将用户操控指令转化为应用系统调度执行的服务指令,支持多人交互,系统有较强的抗干扰能力与识别效率。

Multimodal human computer interaction system and control method thereof

The invention discloses a multi-mode human-computer interaction system and a control method thereof. The main interactive process is interactive information collection, interactive action recognition, interactive instruction mapping, logic processing unit, interactive action response. Break through the recognition algorithm of voice, touch gestures and somatosensory gesture interaction, including the contact dynamic tracking and trajectory matching algorithm, physical parameter model matching algorithm, multi-user interactive queue mechanism. Set / somatosensory touch gesture interaction mapping instruction, logic processing, collaborative / exclusive access mechanism, the user control commands into the application system implementation of the scheduling service instruction, support multi-user interactive system, anti-interference ability and high recognition efficiency.

【技术实现步骤摘要】

本专利技术属于人工智能
,特别涉及一种多模态人机交互系统及其控制方法。
技术介绍
随着传感器技术、智能计算技术、云计算、大数据等新兴技术的发展,人机交互朝着以人为本、增强感知、方便用户的方向不断发展。传统的鼠标、键盘等交互方式已经不能满足人机交互的需求,新型、高效、便捷的人机交互环境亟需建立,以实现人与系统的自然高效互动、用户意图的准确理解。目前较为成熟的交互方式有如下几种:(1)语音交互。用户通过语音向目标程序发出指令,系统理解用户意图,做出相应动作。见文献1:G.Potamianos,C.Neti,J.Luetlin,J.Matthews.Audio-Visualautomaticspeechrecognition:anoverview.In:E.Vatikiotis-Bateson.P.Perrier.IssuesinVisualandAudio-VisualSpeechProcessingMITPress,2004.(2)手势控制。用户直接使用肢体、手势、动作与周边的装备或环境互动,身临其境与目标程序交互。见文献2:KunQian,JieNiu,HongYang.DevelopingaGestureBasedRemoteHuman-RobotInteractionSystemUsingKinect[J].InternationalJournalofSmartHome,July,2013,7(4).(3)触觉交互。用户通过手指触点、手势与外在物理物体接触而达到直接人机交互的目的。见文献3:M.Benali-Khoudja,M.Hafez,J.M.Alexandre,A.Kheddar.Tactileinterfaces:astate-of-the-artsurvey,InternationalSymposiumonRobotics.2004.(4)眨眼检测及眼跟踪技术。该技术利用眼动跟踪结果,了解用户的浏览习惯,合理安排系统界面的结构布局。见文献4:K.Grauman,M.Betke,J.Lombardi,J.Gips,G.Bradski.Communicationviaeyeblinksandeyebrowraises:Video-basedhuman-computerinterfaces,UniversalAccessintheInformationSociety.2(4),2003,359-373.(5)人脸检测及跟踪。单一模态的人机交互方式不再满足以人为中心的自然、和谐、高效的人机交互需求,越来越多的研究学者选用多种模态融合的方式。如文献5:南貌.多模态人机交互技术及其应用[J].科技信息,2012,27.文中选用语音、唇读、人脸、人体动作四个方面进行多模态人机交互的融合。在文献6中:Z.Li,R.Jarvis.Amulti-modalgesturerecognitionsysteminahuman-robotinteractionscenario[A].ProceedingsofIEEEInternationalWorkshoponRoboticandSensorsEnvironments[C].Lecco,Italy:IEEEInstrumentationandMeasurementSociety,2009.41-46.Li和Jarvis选用手势和身体姿态,获取用户三维信息并估计人眼注视方向。但用户的三维信息并不可靠,且计算复杂。Karpov等人基于语音识别和光流头部跟踪实现双模态人机交互,但光流计算量大,受场景光照变化影响明显。见文献7:A.Karpov,A.Ronzhin,I.Kipyatkova.Anassistivebi-modaluserinterfaceintegratingmulti-channelspeechrecognitionandcomputervision[A].ProceedingsofHCI[C].0rlando,UnitedStates:SpringerVerlag,2011.454-463.Carrino等人基于穿戴视觉的指示和图标以及语音命令实现多模态人机交互,但很大程度制约了人机交互的自由性和灵活性。见文献8:S.Carrino,A.Péclat,E.Mugellini.Humansandsmartenvironments:anovelmultimodalinteractionapproach[A].ProceedingsofInternationalConferenceonMultimodalInteraction[C].Alicante,Spain:AssociationforComputingMachinery,2011,105-112.目前多模态的人机交互整合方法还不能兼顾所有的交互方式,且用户的自由度与自然度受到一定程度的制约,并不能根据用户的习惯或偏好自主选择与调节。
技术实现思路
专利技术目的:为了克服现有技术中存在的问题,本专利技术提供了一种能够满足人机交互自然、高效、便捷、和谐的交互需求的多模态人机交互系统。技术方案:本专利技术提供了一种多模态人机交互系统,包括物理设备层、交互词法层、交互语法层、交互语义层和应用接口层,所述物理设备层用于交互信息的采集,通过各交互通道的信息采集器获取原始信号;所述交互词法层中分别采用不同的识别算法对各通道的交互动作进行识别,得到语音、体感/触控手势的识别结果;所述交互语法层中通过定义体感/触控手势的交互映射指令,将体感手势、触控手势映射为用户可以理解的交互指令,得到具体的动作含义;所述交互语义层中,将识别到的语音单词与映射的体感/触控手势指令,按照逻辑划分、优先级设定组合成为有意义的短语或句子;所述应用接口层中将具有逻辑的交互指令转换成为目标程序响应的服务指令,在目标程序中做出相关行为响应。本专利技术还提供了一种基于上述多模态人机交互系统的控制方法,包括以下步骤:步骤1:通过物理设备层对用户的各种信息进行采集;所述用户的各种信息包括用户身份、语音指令、体感动作、触摸手势;步骤2:物理设备层将采集到的信息传输到交互词法层中进行处理和识别,得到每个用户身份、语音指令、体感动作和触摸手势的识别结果;步骤3:在交互语法层定义语音指令、体感动作和触摸手势的交互映射指令,将步骤2中得到每个语音指令、体感动作和触摸手势的识别结果输入到交互语法层根据定义的交互映射指令转为控制指令;步骤4:在语音识别、自定义体感/触控手势的交互映射指令的基础上,按照逻辑划分及优先级,将语音、动作含义按照一定顺序排列,组合成为逻辑短语或逻辑句子的交互指令;其中,优先级的高低是按照交互语法层识别到指令的先后顺序排列的,其中先识别到的指令的优先级高,随着识别到的时间优先级逐渐降低;步骤5:将步骤4中得到的逻辑短语或逻辑句子的交互指令转化为应用系统调度执行的服务指令,使得系统根据用户动作做出相关的响应,完成人机交互。具备整合语音、触控/体感手势的多模态人机交互的能力。进一步,所述步骤2中的触摸手势的识别方法:首先采集触点信息,然后根据触点的坐标判断手势动作。进一步,所述步骤2中的体感动作识别方法:定义人体关节点的三维信息,设定每个本文档来自技高网
...
一种多模态人机交互系统及其控制方法

【技术保护点】
一种多模态人机交互系统,其特征在于:包括物理设备层、交互词法层、交互语法层、交互语义层和应用接口层,所述物理设备层用于交互信息的采集,通过各交互通道的信息采集器获取原始信号;所述交互词法层中分别采用不同的识别算法对各通道的交互动作进行识别,得到语音、体感/触控手势的识别结果;所述交互语法层中通过定义体感/触控手势的交互映射指令,将体感手势、触控手势映射为用户可以理解的交互指令,得到具体的动作含义;所述交互语义层中,将识别到的语音单词与映射的体感/触控手势指令,按照逻辑划分、优先级设定组合成为有意义的短语或句子;所述应用接口层中将具有逻辑的交互指令转换成为目标程序响应的服务指令,在目标程序中做出相关行为响应。

【技术特征摘要】
1.一种多模态人机交互系统,其特征在于:包括物理设备层、交互词法层、交互语法层、交互语义层和应用接口层,所述物理设备层用于交互信息的采集,通过各交互通道的信息采集器获取原始信号;所述交互词法层中分别采用不同的识别算法对各通道的交互动作进行识别,得到语音、体感/触控手势的识别结果;所述交互语法层中通过定义体感/触控手势的交互映射指令,将体感手势、触控手势映射为用户可以理解的交互指令,得到具体的动作含义;所述交互语义层中,将识别到的语音单词与映射的体感/触控手势指令,按照逻辑划分、优先级设定组合成为有意义的短语或句子;所述应用接口层中将具有逻辑的交互指令转换成为目标程序响应的服务指令,在目标程序中做出相关行为响应。2.一种基于权利要求1所述的多模态人机交互系统的控制方法,其特征在于:包括以下步骤:步骤1:通过物理设备层对用户的各种信息进行采集;所述用户的各种信息包括用户身份、语音指令、体感动作、触摸手势;步骤2:物理设备层将采集到的信息传输到交互词法层中进行处理和识别,得到每个用户身份、语音指令、体感动作和触摸手势的识别结果;步骤3:在交互语法层定义语音指令、体感动作和触摸手势的交互映射指令,将步骤2中得到的每个语音指令、体感动作和触摸手势的识别结果输入到交互语法层,根据定义的交互映射指令转为控制指令;步骤4:在语音识别、自定义体感/触控手势的交互映射指令的基础上,按照逻辑划分及优先级,将语音、动作含义按照一定顺序排列,组合成为逻辑短语或逻辑句子的交互指令;其中,优先级的高低是按照交互语法层识别到指令的先后顺序排列的,其中先识别到的指令的优先级高,随着识别到的时间优先级逐渐降低;步骤5:将步骤4中得到的逻辑短语或逻辑句子的交互指令转化为应用系统调度执行的服务指令,使得系统根据用户动作做出相关的响应,完成人机交互。具备整合语音、触控/体感手势的多模态人机交互的能力。3.根据权利要求2所述的多模态人机交互系统的控制方法,其特征在于:所述步骤2中的触摸手势的识别方法:首先采集触点信息,然后根据触点的坐标判断手势动作。4.根据权利...

【专利技术属性】
技术研发人员:陈玥同陈杰朱双华赵海峰王峻科
申请(专利权)人:中国电子科技集团公司第二十八研究所
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1