一种用于意图理解的人机交互方法技术

技术编号:35974582 阅读:12 留言:0更新日期:2022-12-17 22:42
本发明专利技术涉及一种用于意图理解的人机交互方法,方法包括利用图像识别模型识别出所述图像中的目标区域信息;将所述自然语言指令进行语句分割形成若干个句子成分,并将各个句子成本标注为语义信息后,对各个语义信息进行序列标注,以提取出所述自然语言指令中的关键词信息;将所述图像中的目标区域信息和关键词信息进行转换,并放置在同一特征空间下后,找出转换后的目标区域信息以及关键词信息中相似度最高的结果,根据所述相似最高的结果生成结构化的机器人控制语言;根据所述机器人控制语言生成控制指令,以使机器人动作。本发明专利技术解决了目前机器人无法理解人类语言指令的真实意图的问题。的问题。的问题。

【技术实现步骤摘要】
一种用于意图理解的人机交互方法


[0001]本专利技术涉及机器人控制
,特别涉及一种用于意图理解的人机交互方法。

技术介绍

[0002]现有技术提供的机器人的智能化程度也越来越高,目前,用户可直接发出语音指令来实现与机器人的人机交互。但是目前,更多的是让机器人根据人类的自然语言进行路径的规划与移动,但对于更为复杂的交互(人类自然语言所要表达的潜在含义),机器人不能正确的理解从而做出相应的回应。故导致用户无法准确说出想要表达的意思时,及在用户发出模糊自然语言指令时,机器人可能无法做出正确的回应,不方便用户的使用。

技术实现思路

[0003]本专利技术提供一种用于意图理解的人机交互方法,解决目前机器人无法准确识别模糊自然语言指令的问题。
[0004]为了实现上述目的,本专利技术提供以下技术方案:
[0005]一种用于意图理解的人机交互方法,包括机器人,具体步骤如下:
[0006]S1、机器人接收到用户请求,所述用户请求包括自然语言指令以及图像指令;
[0007]S2、机器人利用预存好的图像识别模型对图像指令进行识别,并识别出图像指令中的目标区域信息;
[0008]S3、将自然语言指令进行语句分割形成若干个句子成分,并将各个句子成分标注为语义信息;
[0009]S4、对各个语义信息进行序列标注,以提取出自然语言指令中的关键词信息;
[0010]S5、将图像指令中的目标区域信息和自然语言指令中的关键词信息进行转换,然后将其放置在同一特征空间下,找出转换后的目标区域信息以及关键词信息中相似度最高的结果;
[0011]S6、根据得出的相似度最高的结果生成结构化的机器人控制语言;
[0012]S7、根据机器人控制语言生成控制指令,并使机械臂按照用户发出的自然语言指令及图像指令进行动作。
[0013]优选的,所述图像识别模型为Mask R

CNN检测模型,所述Mask R

CNN检测模型的骨干架构采用Resnet101

FPN。
[0014]优选的,所述目标区域信息包括目标物体名称信息以及送达处名称信息,所述关键词信息包括目标物体关键词信息以及送达处关键词信息。
[0015]优选的,采用条件随机场及规则匹配法将所述自然语言指令分割形成若干个句子成分,并将各个句子成本标注为语义信息。
[0016]优选的,采用基于概率无向图的条件随机场对各个语义信息进行序列标注,以提取出所述自然语言指令中的关键词信息。
[0017]优选的,采用sense2vec模型将所述图像中的目标区域信息和关键词信息进行转
换,并放置在同一特征空间下后,找出转换后的目标区域信息以及关键词信息中相似度最高的结果。
[0018]优选的,根据机器人控制语言生成控制指令,并使机械臂按照用户发出的自然语言指令及图像指令进行动作的步骤包括:
[0019]获取RCL语言指令并对其进行分析,生成控制指令;
[0020]候选抓取部位生成;
[0021]抓取位置评分;
[0022]发出控制指令至所述机器人,以使所述机器人抓取评分最高的候选抓取部位。
[0023]优选的,所述候选抓取部位生成及抓取位置评分,将约束问题转化为能量函数极点位置,最后采用GQ

CNN算法对若干个候选抓取部位进行评分。
[0024]通过实施以上技术方案,具有以下技术效果:本专利技术提供的用于意图理解的人机交互方法,通过将自然语言指令进行分析提取出关键词,将图像分析提取出目标区域后,将关键词和目标区域转换至同一特征空间下进行匹配得到符合用户需求的控制指令,可以使机器人能够同时理解需求型自然语言指令、模糊型自然语言指令以及明确型的自然语言指令,形成下指令

意图理解

执行动作

用户反馈机器人的动作是否做到位的人机交互的闭环。增加了机器人的智能化程度,给用户提供了更大的便利。
附图说明
[0025]图1为本专利技术提供的用于意图理解的人机交互方法的流程结构示意图;
[0026]图2为本专利技术提供的用于意图理解的人机交互方法的运行结构示意图。
具体实施方式
[0027]为了更好的理解本专利技术的技术方案,下面结合附图详细描述本专利技术提供的实施例。
[0028]实施例一
[0029]如图1所示,本实施例提供的一种用于意图理解的人机交互方法,包括机器人,具体步骤如下:
[0030]S1、机器人接收到用户请求,所述用户请求包括自然语言指令以及图像指令;
[0031]S2、机器人利用预存好的图像识别模型对图像指令进行识别,并识别出图像指令中的目标区域信息;
[0032]S3、将自然语言指令进行语句分割形成若干个句子成分,并将各个句子成分标注为语义信息;
[0033]S4、对各个语义信息进行序列标注,以提取出自然语言指令中的关键词信息;
[0034]S5、将图像指令中的目标区域信息和自然语言指令中的关键词信息进行转换,然后将其放置在同一特征空间下,找出转换后的目标区域信息以及关键词信息中相似度最高的结果;
[0035]S6、根据得出的相似度最高的结果生成结构化的机器人控制语言;
[0036]S7、根据机器人控制语言生成控制指令,并使机械臂按照用户发出的自然语言指令及图像指令进行动作。
[0037]具体的,用户请求发出自然语言指令以及图像指令,所述自然语言指令为用户发出的语音,可以为任意语言,无需特定的词句,所述摄像机位于安装机器人的机器人本体上,用于拍摄环境画面,本实施例通过将自然语言指令与拍摄的图像结合,进而来实现模糊自然语言的识别,使得机器人可根据用户输入的模糊自然语言指令来对应动作,增加了机器人的智能化程度,机器人接收到用户请求后开始分析。
[0038]利用预存好的图像识别模型对图像指令进行识别,并识别出图像指令中的目标区域信息。具体的,本实施例中,所述目标区域信息至少包括目标物体名称信息以及送达处名称信息,为了提取出拍摄的图像中的目标区域信息,需要抽取出图像特征,然后选取出候选目标区域后,完成目标检测和实例分割,最后将实例分割的结果作为待匹配的图像区域,即所需的目标区域信息。具体的,本专利技术实施例中,所述图像识别模型为Mask R

CNN检测模型,所述Mask R

CNN检测模型的骨干架构采用Resnet101

FPN。Mask R

CNN算法可以抽取特征,选取候选目标区域,将边框回归和分类整合到一个网络,同时输出边框和二进制掩码,完成目标检测和实例分割。而Resnet101

FPN作为架构,并将实例分割的结果作为待匹配的图像区域(目标区域信息)。
[0039]进一步来说,Mask R

CNN检测模型是本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种用于意图理解的人机交互方法,其特征在于,包括机器人,具体步骤如下:S1、机器人接收到用户请求,所述用户请求包括自然语言指令以及图像指令;S2、机器人利用预存好的图像识别模型对图像指令进行识别,并识别出图像指令中的目标区域信息;S3、将自然语言指令进行语句分割形成若干个句子成分,并将各个句子成分标注为语义信息;S4、对各个语义信息进行序列标注,以提取出自然语言指令中的关键词信息;S5、将图像指令中的目标区域信息和自然语言指令中的关键词信息进行转换,然后将其放置在同一特征空间下,找出转换后的目标区域信息以及关键词信息中相似度最高的结果;S6、根据得出的相似度最高的结果生成结构化的机器人控制语言;S7、根据机器人控制语言生成控制指令,并使机械臂按照用户发出的自然语言指令及图像指令进行动作。2.根据权利要求1所述的用于意图理解的人机交互方法,其特征在于,所述图像识别模型为Mask R

CNN检测模型,所述Mask R

CNN检测模型的骨干架构采用Resnet101

FPN。3.根据权利要求1所述的用于意图理解的人机交互方法,其特征在于,所述目标区域信息包括目标物体名称信息以及送达处名称信息,所述关键词信息包括目标物体关...

【专利技术属性】
技术研发人员:林胜钊陈功蒙顺政
申请(专利权)人:深圳无芯科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1