The invention provides a natural interaction method based on multi-modal information fusion, which allows an operator to input information in multi-channels, and can obtain a unified text description of each behavior through a unified transformation model, thereby obtaining a complete and unambiguous interactive task. The method includes steps: (1) behavior unification; (2) multimodal information fusion. The invention adopts a non-contact human-computer interaction interface, obtains the multi-channel input information of the operator, obtains the robot instruction through unified translation into text, and controls the robot in real time by adopting natural language understanding technology. The invention fully embodies the self-similar structure of multi-modal perception in the process of understanding human and robot interaction, so that human multi-modal behavior information can be mapped to the same level, and a higher level of fusion can be achieved.
【技术实现步骤摘要】
基于多模态信息融合的自然交互方法
本专利技术属于机器人交互领域,特别涉及一种基于多模态信息融合的自然交互方法。
技术介绍
目前大多数模态行为在用于交互过程中基本遵循提取单一模态行为特征并对机器人的指令进行简单映射,而由于各模态行为特征表现形式不一导致相互之间难以进行互补性融合。多模态交互需要考虑多个通道之间的互补性,解决如何在交互通道获取的交互参数中提取任务所需的参数并组成可识别的完整交换任务。多模态信息融合的目的是为了解决如何用不同的交换通道提供该任务的交换参数。本专利技术针对各行为通过统一化转换模型得到了统一的文本描述,设计扩展的自然语言理解方法对多模态行为的文本进行理解处理,从而得到完整的、无歧义的交互任务。该方法在理解语音文本的基础上理解非语音文本(肢体语言)。
技术实现思路
本专利技术目的在于提供了一种基于多模态信息融合的自然交互方法,它允许操作者通过非接触式人机交互接口多通道输入信息,并能对各行为通过统一化转换模型得到统一的文本描述,从而得到完整的、无歧义的交互任务。采用自然语言理解技术理解任务,从而得到机器人指令实时控制机器人。本专利技术的基于多模态信息融合的自然交互方法,包括如下步骤:S1、行为统一化:多通道信息数据识别翻译成统一的文本类型数据;S2、多模态信息融合:采用用自然语言理解技术对多模态行为文本进行理解处理,提取出所需要的任务信息。进一步地,所述步骤S1具体包括:采用非接触式人机交互接口,获取操作者的多通道输入信息,将多通道信息数据识别翻译成统一的文本类型数据;多通道信息数据包括不同行为的信息数据,不同行为的信息数据包括语音、手势图片 ...
【技术保护点】
1.基于多模态信息融合的自然交互方法,其特征在于,包括如下步骤:S1、行为统一化:多通道信息数据识别翻译成统一的文本类型数据;S2、多模态信息融合:采用用自然语言理解技术对多模态行为文本进行理解处理,提取出所需要的任务信息。
【技术特征摘要】
1.基于多模态信息融合的自然交互方法,其特征在于,包括如下步骤:S1、行为统一化:多通道信息数据识别翻译成统一的文本类型数据;S2、多模态信息融合:采用用自然语言理解技术对多模态行为文本进行理解处理,提取出所需要的任务信息。2.根据权利要求1所述的基于多模态信息融合的自然交互方法,其特征在于,所述步骤S1具体包括:采用非接触式人机交互接口,获取操作者的多通道输入信息,将多通道信息数据识别翻译成统一的文本类型数据;多通道信息数据包括不同行为的信息数据,不同行为的信息数据包括语音、手势图片、眼神图片、表情图片,将多通道信息数据统一翻译成一段自然语言文本,这一段文本通过自然语言理解技术就得到相应的任务。3.根据权利要求2所述的基于多模态信息融合的自然交互方法,其特征在于,所述步骤S1中,构建一种行为翻译器,结合已有成熟的行为识别算法,把人类的多种行为特征统一转换成文本描述;通过多种模式识别算法对人...
【专利技术属性】
技术研发人员:杜广龙,张博,刘彩冰,张爱玲,张平,
申请(专利权)人:华南理工大学,
类型:发明
国别省市:广东,44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。