基于多模态信息融合的自然交互方法技术

技术编号:18668687 阅读:346 留言:0更新日期:2018-08-14 20:45
本发明专利技术提供了基于多模态信息融合的自然交互方法,它允许操作者多通道输入信息,并能对各行为通过统一化转换模型得到统一的文本描述,从而得到完整的、无歧义的交互任务。本发明专利技术的方法包括步骤:(1)行为统一化;(2)多模态信息融合。本发明专利技术采用非接触式人机交互接口,获取操作者的多通道输入信息,通过统一转换为文本后采用自然语言理解技术得到机器人指令,实时控制机器人。本发明专利技术充分体现多模态感知在人类和机器人交互中理解过程的自相似结构,使得人类多模态行为信息被映射到同一层面上,可以达到更高层次的融合度。

Natural interaction method based on multimodal information fusion

The invention provides a natural interaction method based on multi-modal information fusion, which allows an operator to input information in multi-channels, and can obtain a unified text description of each behavior through a unified transformation model, thereby obtaining a complete and unambiguous interactive task. The method includes steps: (1) behavior unification; (2) multimodal information fusion. The invention adopts a non-contact human-computer interaction interface, obtains the multi-channel input information of the operator, obtains the robot instruction through unified translation into text, and controls the robot in real time by adopting natural language understanding technology. The invention fully embodies the self-similar structure of multi-modal perception in the process of understanding human and robot interaction, so that human multi-modal behavior information can be mapped to the same level, and a higher level of fusion can be achieved.

【技术实现步骤摘要】
基于多模态信息融合的自然交互方法
本专利技术属于机器人交互领域,特别涉及一种基于多模态信息融合的自然交互方法。
技术介绍
目前大多数模态行为在用于交互过程中基本遵循提取单一模态行为特征并对机器人的指令进行简单映射,而由于各模态行为特征表现形式不一导致相互之间难以进行互补性融合。多模态交互需要考虑多个通道之间的互补性,解决如何在交互通道获取的交互参数中提取任务所需的参数并组成可识别的完整交换任务。多模态信息融合的目的是为了解决如何用不同的交换通道提供该任务的交换参数。本专利技术针对各行为通过统一化转换模型得到了统一的文本描述,设计扩展的自然语言理解方法对多模态行为的文本进行理解处理,从而得到完整的、无歧义的交互任务。该方法在理解语音文本的基础上理解非语音文本(肢体语言)。
技术实现思路
本专利技术目的在于提供了一种基于多模态信息融合的自然交互方法,它允许操作者通过非接触式人机交互接口多通道输入信息,并能对各行为通过统一化转换模型得到统一的文本描述,从而得到完整的、无歧义的交互任务。采用自然语言理解技术理解任务,从而得到机器人指令实时控制机器人。本专利技术的基于多模态信息融合的自然交互方法,包括如下步骤:S1、行为统一化:多通道信息数据识别翻译成统一的文本类型数据;S2、多模态信息融合:采用用自然语言理解技术对多模态行为文本进行理解处理,提取出所需要的任务信息。进一步地,所述步骤S1具体包括:采用非接触式人机交互接口,获取操作者的多通道输入信息,将多通道信息数据识别翻译成统一的文本类型数据;多通道信息数据包括不同行为的信息数据,不同行为的信息数据包括语音、手势图片、眼神图片、表情图片,将多通道信息数据统一翻译成一段自然语言文本,这一段文本通过自然语言理解技术就得到相应的任务。进一步地,所述步骤S1中,本步骤构建一种行为翻译器,结合已有成熟的行为识别算法,把人类的多种行为特征统一转换成文本描述。本专利技术通过一些模式识别算法(如深度学习、贝叶斯等)对人类各种行为进行识别并转换成相应的描述文本。目前,语音、手势、眼神、表情等都已有较为成熟的识别算法,本专利技术在目前成熟的识别算法的基础上建立二次识别算法,采用深度学习算法并建立大量的样本库,该算法可以使得每一个具体的行为动作都可以对应一种行为描述,从而转换成相应的描述文本。进一步地,所述步骤S2包括以下步骤:上述统一化转换模型已经可以将多模态行为信息转换为行为描述文本。本专利技术采用自然语言理解技术(深度学习、贝叶斯分类等)对多模态行为文本进行理解处理,提取出所需要的任务信息。互补性主要是考虑如何在交互通道获取交互参数中提取出任务所需参数并组成可识别的完整交互任务。本专利技术用任务槽算法对自然语言理解技术理解后各信息块进行填充,当任务槽被多个信息块数据填满后,即形成完整交互语义,系统就可以执行完整的交互任务。所述任务槽包括与任务对应的n个参数,n为设定的正整数。然而,人类的多模态行为既可以存在互补性(或增强性)的信息,也可能存在歧义性的信息。当人类的多种行为存在歧义的意思时,则需要判断哪种行为更为可信,或者更为真实。一方面,可以通过定义不同权重衡量不同行为的可信度,在不同行为存在意思冲突时应该选择可信度高的信息作为任务指令;另一方面,可以根据上下文相关判断(上下文无关文法)判断哪个行为更可信。本专利技术相对于现有技术具有如下的优点及效果:本专利技术提出了一种基于多模态信息融合的自然交互方法,把人类的多种行为特征统一转换成文本描述,从而得到完整的、无歧义的交互任务。该方法充分体现多模态感知在人类和机器人交互中理解过程的自相似结构,使得人类多模态行为信息被映射到同一层面上,可以达到更高层次的融合度。提出适用于人机高效交互的多模态感知融合模型,从而获得一个更适合智能交互的方法。充分利用人类伙伴的经验和知识降低机器人在感知复杂动态环境过程中的计算复杂性,采取优势互补的人机结合方式,在感知的适应性和全面性的研究方向取得突破。附图说明图1是实例中基于多模态信息融合的自然方法流程图;图2是多模态融合示意图;图3是统一化转换模型;图4是标准任务槽结构。具体实施方式以下结合实施例对本专利技术作进一步详细的描述,但本专利技术的实施方式不限于此,以下若有未特别详细说明之处,均是本领域技术人员可参照现有技术实现或理解的。如图1,为基于多模态信息融合的自然方法流程图。其总体上包括以下步骤:S1、行为统一化;S2、多模态信息融合。所述步骤S1具体包括:采用非接触式人机交互接口,获取操作者的多通道输入信息,将多通道信息数据识别翻译成统一的文本类型数据。如图3,语音信息提出得到语音文本“去这边”;手势行为翻译为“指着2点方向”;眼神行为翻译为“看着2点方向”。那么综合成一段自然语言文本是“我指着2点方向,看着2点方向,去这边”,这一段文本通过自然语言理解技术就得到任务“去2点方向那边”。多模态融合模型如图3所示。本实例构建一种行为翻译器,结合已有成熟的行为识别算法,把人类的多种行为特征统一转换成文本描述。本专利技术通过一些模式识别算法(如深度学习、贝叶斯等)对人类各种行为进行识别并转换成相应的描述文本。目前,语音、手势、眼神、表情等都已有较为成熟的识别算法,本专利技术在目前成熟的识别算法的基础上建立二次识别算法,采用深度学习算法并建立大量的样本库,该算法可以使得每一个具体的行为动作都可以对应一种行为描述,从而转换成相应的描述文本。所述步骤S2包括以下步骤:上述统一化转换模型已经可以将多模态行为信息转换为行为描述文本。本专利技术采用自然语言理解技术(深度学习、贝叶斯分类等)对多模态行为文本进行理解处理,提取出所需要的任务信息。互补性主要是考虑如何在交互通道获取交互参数中提取出任务所需参数并组成可识别的完整交互任务。本专利技术用任务槽算法(如图4)对自然语言理解技术理解后各信息块进行填充,当任务槽被多个信息块数据填满后,即形成完整交互语义,系统就可以执行完整的交互任务。然而,人类的多模态行为既可以存在互补性(或增强性)的信息,也可能存在歧义性的信息。当人类的多种行为存在歧义的意思时,则需要判断哪种行为更为可信,或者更为真实。一方面,可以通过定义不同权重衡量不同行为的可信度,在不同行为存在意思冲突时应该选择可信度高的信息作为任务指令;另一方面,可以根据上下文相关算法判断哪个行为更可信。上述实施例为本专利技术较佳的实施方式,但本专利技术的实施方式并不受上述实施例的限制,其他的任何未背离本专利技术的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本专利技术的保护范围之内。本文档来自技高网...

【技术保护点】
1.基于多模态信息融合的自然交互方法,其特征在于,包括如下步骤:S1、行为统一化:多通道信息数据识别翻译成统一的文本类型数据;S2、多模态信息融合:采用用自然语言理解技术对多模态行为文本进行理解处理,提取出所需要的任务信息。

【技术特征摘要】
1.基于多模态信息融合的自然交互方法,其特征在于,包括如下步骤:S1、行为统一化:多通道信息数据识别翻译成统一的文本类型数据;S2、多模态信息融合:采用用自然语言理解技术对多模态行为文本进行理解处理,提取出所需要的任务信息。2.根据权利要求1所述的基于多模态信息融合的自然交互方法,其特征在于,所述步骤S1具体包括:采用非接触式人机交互接口,获取操作者的多通道输入信息,将多通道信息数据识别翻译成统一的文本类型数据;多通道信息数据包括不同行为的信息数据,不同行为的信息数据包括语音、手势图片、眼神图片、表情图片,将多通道信息数据统一翻译成一段自然语言文本,这一段文本通过自然语言理解技术就得到相应的任务。3.根据权利要求2所述的基于多模态信息融合的自然交互方法,其特征在于,所述步骤S1中,构建一种行为翻译器,结合已有成熟的行为识别算法,把人类的多种行为特征统一转换成文本描述;通过多种模式识别算法对人...

【专利技术属性】
技术研发人员:杜广龙张博刘彩冰张爱玲张平
申请(专利权)人:华南理工大学
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1