一种多模态信息处理及交互系统技术方案

技术编号:27977270 阅读:30 留言:0更新日期:2021-04-06 14:11
本发明专利技术涉及一种多模态信息处理及交互系统,用于解决多模态交互系统中存在的模态融合方式简单,对话机制呆板的问题。包括多模态信息认知模块,多模态信息融合模块,以及多模态对话管理模块,其中,多模态信息认知模块用于对用户各模态交互信息进行识别,多模态信息融合模块利用D‑S证据理论将用户所有模态的交互信息进行意图融合,确定用户的最终交互意图,并得到对应于用户最终交互意图的可供机器识别的形式化指令;多模态对话管理模块针对多模态人机交互场景,采用有限状态机与信息槽填充方法相融合的对话管理模型,用于控制对话流程以及生成应答;本发明专利技术有效提高了用户交互意图识别准确率,实现了自然灵活的人机交互。

【技术实现步骤摘要】
一种多模态信息处理及交互系统
本专利技术涉及多模态信息融合技术,具体涉及一种有效利用多模态信息并构建可实现人机友好交互的多模态交互系统。
技术介绍
20世纪后期以来,多模态人机交互的相关研究受到越来越多学者的关注与重视。国内外诸多高校实验室及科研机构都设立了相关的科研团队,比如卡内基-梅隆大学的人机交互学院、斯坦福大学的人工智能研究中心、麻省理工学院的媒体实验室等,而诸如谷歌、微软等大型公司也注入大量的人力、物力到多模态人机交互领域的研究中。由于多模态人机交互受到广泛的重视,多模态人机交互技术在近几十年来得到了迅速的发展,并取得了重大突破。中国科学院自动化研究所的陶建华等人通过融合语音、手势以及面部表情等信息,建立了一套基于多模态对话系统的城市交通信息查询系统,数字虚拟人可根据操作者的语音查询信息做出解答。后又在机械臂上通过融合语音和图像信息实现了一套具有智能交互学习能力的机械臂写字系统,机械臂可以通过图像处理技术学习写字,并根据操作者的语音要求完成特定字的书写。目前的多模态交互系统尚存在一些问题:(1)多模态交互系统缺乏有效的信息融合方法。多模态交互系统需要充分利各模态信息来感知用户意图、识别用户指令信息,从而最大程度体现多模态交互的价值、提高多模态交互效率。而目前各多模态交互系统在对各模态信息进行融合时仅对各模态信息进行简单组合,无法有效利用各模态蕴含信息。(2)多模态交互过程缺少自然、灵活的对话机制。多模态交互需要有自然、灵活的对话机制作为保障,目前多模态人机交互中的对话机制均较为单一,容错能力较差,提升了操作复杂度,难以实现人机友好交互。
技术实现思路
为有效解决多模态交互系统中存在的模态融合方式简单,对话机制呆板的问题,本专利技术首先建立了一种多模态信息融合模型,基于D-S证据理论,充分利用多模态信息进行意图融合,并基于槽填充方法组合该意图下各模态交互信息。其次,本专利技术提出有限状态机与槽填充方法相融合的对话管理模型,控制交互状态的转移并制定对应的交互策略。最后对系统中各模块进行整合,完成多模态人机交互系统,实现人机自然、友好交互。具体实施方案如下:本系统包括三个功能模块:多模态信息认知模块,多模态信息融合模块,多模态对话管理模块,其中,多模态信息认知模块:用于对用户各模态交互信息进行识别,得到用户在每种模态下的意图类型、每种意图类型对应的概率,以及每种意图类型对应的形式化指令,其中,形式化指令的功能是供机器执行相应任务,具体由完成相应任务所需要的必要参数构成,所述意图类型包括有明确意图和无明确意图两种,包括多种交互信息识别模块;多模态信息融合模块:利用D-S证据理论将用户所有模态的交互信息进行意图融合,确定用户的最终交互意图,并得到对应于用户最终交互意图的可供机器识别的形式化指令;多模态对话管理模块:针对多模态人机交互场景,采用有限状态机与信息槽填充方法相融合的对话管理模型,用于控制对话流程以及生成应答;还设置了人机交互界面。有益效果本专利技术通过多模态的方式有效提高用户交互意图识别准确率;所采用的有限状态机与槽填充方法相融合的对话管理模块,适合环境不断变化的交互场景下的人机交互行为,可实现自然灵活的人机交互;本专利技术所设计的多模态人机交互系统能够实现人与机器高效、自然的多模态交互。附图说明图1为本专利技术多模态人机交互系统框架图2为传统方法各模态信息关系判别方法流程图图3为本专利技术多模态信息融合过程图4为本专利技术多模态信息组合实例图5为本专利技术有限状态机与槽填充方法结合的对话管理模型图6为本专利技术多模态人机交互系统组成图7为本专利技术多模态人机交互信息传输流程图8为本专利技术形式化指令类型示意图具体实施方式本专利技术提出的多模态人机交互系统框架如图1所示,多模态人机交互系统主要分为四个功能模块:(1)多模态信息认知模块:对各模态交互信息进行识别,包括多种交互信息识别模块。本专利技术中主要包括语音指令识别模块以及手势识别模块。本专利技术拓展性强,后期可添加触控、摇杆等传统模块。(2)多模态信息融合模块:首先采用基于D-S证据方法,充分利用多模态信息进行意图融合,之后对信息进行整合,将多模态信息组合为形式化指令;(3)多模态对话管理模块:采用有限状态机与槽填充方法相融合的对话管理模型,控制人机交互过程中交互状态的转移,并根据用户提供信息制定对应的交互策略,与操作者进行自然友好交互;(4)多模态人机交互界面:显示各模态识别结果、多模态信息融合结果以及机器所反馈的交互内容。其中,关于多模态信息融合:根据各模态交互信息的不同,各模态信息之间关系分为信息冗余、信息互斥以及信息互补三种情况。其中信息冗余状态表示各模态表示信息相同,比如语音说“前进”同时用手势做出“前进”的动作。信息互斥状态下各模态交互意图不同,如语音识别结果为“前进”,而手势动作识别为“后退”,此时两个模态的信息相互排斥,机器无法根据已识别指令判别用户实际意图。信息互补指各模态信息相互补充,共同为机器执行任务提供有效信息,比如手势做出“前进”的动作,同时用语音表述“5米”。在各模态意图中均包含None类别,用于表示该通道交互信息无明确意图,仅提供一些用于完成任务的参数。例如通过语音通道表示“5米”、“5分钟”等不代表具体交互意图的参数信息。传统的各模态关系的判别方式如图2所示,在判别各模态所提供信息之间的关系时,首先对除意图为None的模态外其余模态的意图进行判断,如果其余模态意图不同,则表示各模态意图之间存在分歧,为信息互斥模式。如果其余各模态意图相同,则进一步判断整体是否存在意图为None的模态,如果存在,表示该模态可以为其余模态提供参数从而对交互指令进行补充,属于信息互补模式。如果整体系统中不包含意图为None类别,则说明各模态意图相同,此时属于信息冗余模式。以上在进行判别时,选用置信度值最大类别所对应意图作为该模态用户交互意图。在交互过程中,如若处于信息互斥模式,通常利用先验知识为各模态判别结果设定固定权重值,最终通过加权平均的方式判断用户交互意图,或者通过投票机制决定交互意图,或在信息冲突时直接舍弃本次交互信息重新进行交互。本专利技术改变了上述传统模式,将多模态意图识别转化为多模态信息融合问题,提出了一种基于D-S证据理论的多模态交互信息融合方法。在筛除意图为None类别模态后,传统的多模态交互系统通常分别选取各模态中的一个意图作为判别依据,因此会导致意图判别时丢失部分有效信息。本专利技术通过有效利用各模态识别结果中蕴含信息,对其余各模态意图采用D-S证据理论进行融合,提升模型意图识别准确率。本专利技术所述的多模态信息融合过程如图3所示。在信息融合时不再按照置信度值对信息冗余与信息互斥模式进行明确区分,而是充分利用各模态提供信息进行有效融合,从而得到用户真实交互意图。在基于D-S证据理论的信息融合过程中,将划分后的各模态信息视为一组有效信息,需要对组中本文档来自技高网
...

【技术保护点】
1.一种多模态信息处理及交互系统,其特征在于包括三个功能模块:多模态信息认知模块,多模态信息融合模块,多模态对话管理模块,其中,/n多模态信息认知模块:包括多种交互信息识别模块,用于对用户各模态交互信息进行识别,得到用户在每种模态下的意图类型、每种意图类型对应的概率,以及每种意图类型对应的形式化指令,其中,形式化指令的功能是供机器执行相应任务,具体由完成相应任务所需要的必要参数构成,所述意图类型包括有明确意图和无明确意图两种;/n多模态信息融合模块:利用D-S证据理论将用户所有模态的交互信息进行意图融合,确定用户的最终交互意图,并得到对应于用户最终交互意图的可供机器识别的形式化指令;/n多模态对话管理模块:针对多模态人机交互场景,采用有限状态机与信息槽填充方法相融合的对话管理模型,用于控制对话流程以及生成应答。/n

【技术特征摘要】
1.一种多模态信息处理及交互系统,其特征在于包括三个功能模块:多模态信息认知模块,多模态信息融合模块,多模态对话管理模块,其中,
多模态信息认知模块:包括多种交互信息识别模块,用于对用户各模态交互信息进行识别,得到用户在每种模态下的意图类型、每种意图类型对应的概率,以及每种意图类型对应的形式化指令,其中,形式化指令的功能是供机器执行相应任务,具体由完成相应任务所需要的必要参数构成,所述意图类型包括有明确意图和无明确意图两种;
多模态信息融合模块:利用D-S证据理论将用户所有模态的交互信息进行意图融合,确定用户的最终交互意图,并得到对应于用户最终交互意图的可供机器识别的形式化指令;
多模态对话管理模块:针对多模态人机交互场景,采用有限状态机与信息槽填充方法相融合的对话管理模型,用于控制对话流程以及生成应答。


2.根据权利要求1所述的一种多模态信息处理及交互系统,其特征在于,所述的多种交互信息识别模块包括但不限于语音指令识别模块、手势识别模块。


3.根据权利要求2所述的一种多模态信息处理及交互系统,其特征在于,所述的D-S证据理论用于将多模态信息认知模块得到的各模态信息视为一组有效信息,对组中包含的各个模态的识别结果进行决策级融合,进而确定用户的最终交互意图,具体方法如下:
将用户实际交互意图识别为某一意图视为一个事件,则一次交互过程中所有可能事件共同构成集合Θ={θ1,θ2,…,θc},该集合也被称为识别框架;
集合Θ的幂集是集合Θ及其所有子集所构成的集合,记为2θ,而基本概率分配(BasicProbabilityAssignment,BPA)或称mass函数,为2θ的任意子集A分配属于[0,1]]的值,识别框架Θ所有子集的基本概率分配总和为1,Φ表示交互过程中不可能的事件,如下所示:
m(Φ)=0(1)



将来自每个模态的识别意图对应的概率作为独立的mass函数,对于由语音指...

【专利技术属性】
技术研发人员:甘明刚徐磊田宗凯陈杰陈文颉陈晨窦丽华
申请(专利权)人:北京理工大学
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1