一种基于视觉语言多模态融合的人机交互意图理解方法技术

技术编号：40707314 阅读：3 留言：0更新日期：2024-03-22 11:07

本发明专利技术公开了一种基于视觉语言多模态融合的人机交互意图理解方法，该方法首先在语义层上实现将人的指令语言转换为机器人可理解的文本形式的任务向量。采用融语音识别与自然语言处理NLP一体的实时交互语义解析模型提取意图理解关键信息。在语义层，机器人从人的指令语言中提取的交互意图理解关键信息。操作层接收文本形式的关键信息，并将关键信息中名词文本与视觉检测模型的物品类别名称相匹配，获取关键信息中物品的位置信息。本发明专利技术所提出的基于视觉语言多模态融合的模型可将人的语言指令转化为机器人可理解的、操作层的操作向量，模型简洁、高效，具有较强的实用性；尤其是对小物体或复杂交互场景中物品的检测。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及自然语言处理、图像识别技术与机器人研究领域，具体涉及一种基于语言视觉多模态信息融合的人机交互方案，包括改进的yolov5算法、基于视觉语言多模态信息融合的人机交互意图理解等。

技术介绍

1、近年，人工智能技术的进步带动了自然语言处理、视觉检测等领域的快速发展，大量与语音处理、视觉检测相关的智能设备应用于工业与日常生活中。若能将语言与视觉处理能力赋予机器人，将极大地提高机器人与人交互协作的能力。实际上，在人与人之间交互协作完成任务的过程中，常常是将语言与视觉信息相融合来共同理解交互要求。如何处理两种模态信息并进行有效融合来理解人的协作任务要求是一个研究热点与难点问题。

2、在现有的处理方法中，语言、视觉大模型的发展确实有一定的优势。但是语义分析多数限于语义文本层的理解，需要进一步转换为机器人可以理解的运动规划信息，才能实现机器人按要求完成协作任务。本专利技术提供一种基于视觉语言多模态融合、层次化的人机交互意图理解方法，具体包含语义层、操作层两层次，其中语义层实现从语言指令中抽取文本形式的任务关键信息；操作层将视觉检测模块输出与上层文本形式的任务关键信息相匹配，获取与运动规划直接相关的信息输出，最终实现输入语言指令，输出机器人可理解的操作任务向量。该方法的特点是简洁、有效、实用性强。

3、另一方面，在人机交互场景中，目标检测对象包括手持物品与场景中物品等。由于人手部或身体的遮挡，会影响到视觉检测网络对目标对象关键特征的学习，尤其是小物品等，检测精度会下降。针对该问题，本专利技术对操作层视觉检测模

技术实现思路

1、针对人机协作中物品移交场景下人的递接意图准确理解问题，本专利技术提供一种基于视觉语言多模态融合、层次化的交互意图理解方法。该方法首先在语义层上实现将人的指令语言转换为机器人可理解的文本形式的任务向量。在该层本专利技术采用一种在运行效率上优化的融语音识别与自然语言处理(nlp)一体的实时交互语义解析模型来提取意图理解关键信息。

2、为实现物品移交任务，在语义层，机器人需要从人的指令语言中提取的交互意图理解关键信息，包括交接的物品、接过物品后的动作以及放置交接物品的物品信息等。输入人的指令语言，本专利技术使用实时交互语义解析模型对文本语言进行依存句法分析，可以得到每个单词的词性(verb、det、noun、adp)以及依赖关系图，通过分析该图，从中获取必要的关键信息。该方法的优点在于其应用了一种高度模块化的流水线架构接收用户的语音输入并进行语音识别，然后执行依存语法分析和实体识别等文本处理，根据单词词性及依赖关系，可实现意图理解关键信息的提取。

3、操作层接收文本形式的关键信息(用任务向量描述)，并将关键信息中名词文本与视觉检测模型的物品类别名称相匹配，获取关键信息中物品的位置信息，如递送物品的位置、接收递送物品的物品位置等。其中递送物品的位置是机器人交互操作中第一个目标位置，而接收递送物品的物品位置是机器人的第二个目标位置。最终实现输入语言指令，输出机器人可理解的操作任务向量，可直接用于机器人执行交互任务。

4、在操作层的视觉检测模块，本专利技术对基于深度神经网络的视觉检测算法yolov5进行了改进，以适用于人与机器人交互协作中对物体识别准确率与高效率的要求。具体的改进点包括：(1)制作数据集的过程中，对数据进行图像增强，提高数据的多样性，并将pascal数据格式文件转为yolo格式文件，完成数据集的制作；(2)对yolov5模型进行改进，搭建空间shuffle-attention注意力机制，从而提高对目标物体的定位准确性；同时通过通道混合的特征来减少模型的计算量，提高检测速度；(3)本专利技术为了防止对小物体漏检，在yolov5的head部分添加了新的检测头，由于检测器的增加，模型检测物体的尺寸更加多样化，特别是检测小物体的尺寸更多；(4)yolov5模型中采用自适应锚定框，通过kmeans聚类算法对数据集的目标框进行自动计算，以便获取合适的锚定框，但还是会存在锚定框尺寸不合适的问题，尤其是在交接物品时，物品局部有遮挡的情况下，所以在本专利技术中使用了k-means++，调整yolov5检测网络的先验框。

5、以上对yolov5网络模型的改进可总结为：主干网络的优化、添加shuffle-attention和添加多检测头等，利用该改进后的yolov5网络模型可以实现场景物体类别与位置的高效、准确识别。

6、本专利技术的优势在于(1)面向人与机器人交互协作任务，所提出的基于视觉语言多模态融合的模型可将人的语言指令转化为机器人可理解的、操作层的操作向量，模型简洁、高效，具有较强的实用性；(2)操作层对视觉模型yolov5的改进，可提高检测的效率与准确性，尤其是对小物体或复杂交互场景中物品的检测。

本文档来自技高网...

【技术保护点】

1.一种基于视觉语言多模态融合的人机交互意图理解方法，其特征在于，该方法首先在语义层上实现将人的指令语言转换为机器人可理解的文本形式的任务向量；在语义层采用一种在运行效率上优化的融语音识别与自然语言处理NLP一体的实时交互语义解析模型来提取意图理解关键信息；

2.根据权利要求1所述的一种基于视觉语言多模态融合的人机交互意图理解方法，其特征在于，该方法具体分为语义层与操作层两个层次的交互意图理解；首先在语义层，输入人的指令语音，可输出文本形式的交互意图理解关键信息；采用任务向量的形式进行描述：

3.根据权利要求1所述的一种基于视觉语言多模态融合的人机交互意图理解方法，其特征在于，实时交互语义解析模型融语音识别与自然语言处理为一体，语音识别模块采用PocketSphinx系统实时将语音转化为文本语句，其输出将直接采用自然语言处理SpaCy库进行句法分析，并提取意图理解关键信息。

4.根据权利要求1所述的一种基于视觉语言多模态融合的人机交互意图理解方法，其特征在于，输入任务向量至操作层，任务向量中名词与视觉检测模型输出中的物品类别相匹配，找到感兴趣物

5.根据权利要求1所述的一种基于视觉语言多模态融合的人机交互意图理解方法，其特征在于，改进YOLOv5的网络过程如下，

...

【技术特征摘要】

1.一种基于视觉语言多模态融合的人机交互意图理解方法，其特征在于，该方法首先在语义层上实现将人的指令语言转换为机器人可理解的文本形式的任务向量；在语义层采用一种在运行效率上优化的融语音识别与自然语言处理nlp一体的实时交互语义解析模型来提取意图理解关键信息；

3.根据权利要求1所述的一种基于视觉语言多模态融合的人机交互意图理解方法，其特征在于，实时交互语义解析模型融语音识别与自然语言处理为一体，语音识别模块采用pocketsph...

【专利技术属性】
技术研发人员：刘春芳，庞瑞田，李晨昕，尚研，王奕彬，马腾龙，
申请(专利权)人：北京工业大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人