【技术实现步骤摘要】
一种基于物体偏见修正与有向注意力图的物体导航方法
[0001]本专利技术涉及机器人视觉语义导航领域,尤其是涉及一种基于物体偏见修正与有向注意力图的物体导航方法。
技术介绍
[0002]在物体导航任务中,智能代理(机器人)根据第一人称视觉观察(通常是由其机载摄像机捕捉的RGB图像)在室内环境中导航到用户指定的目标,这是实现人工智能目标的一个基本而完整的任务,它要求智能机器人能够理解其视觉输入,推断其当前位置,推理目标位置,规划轨迹,并在每一步执行一个动作。物体导航领域的发展也促生了如视觉问答(要求机器人导航到指定物体前并回答问题)、视觉语言导航(要求机器人根据指导者的指令在室内环境进行导航)等领域的蓬勃发展,因此物体导航引起了越来越多的研究者们的关注,并促生出大量试图解决这一问题的工作。
[0003]经典的基于地图的视觉导航方法已经被研究了很多年,这些方法明确地将导航任务分解为一组子任务,即建图、定位、规划和运动控制,尽管这些方法在近年来取得了相当大的成功,但模块化的设计存在着其根本的局限性,阻碍了他们广泛的应用。一个重要的限制是它们容易受到传感器噪声的影响,这些噪声从建图到运动控制的整个过程中不断累计和传播,这使得这些方法在复杂环境中不那么鲁棒,更重要的是它们需要大量的场景探索和手工操作,这使得它们很难与其他下游人工智能任务集成,如视觉识别,问题回答和场景字幕等。
[0004]观察到基于学习的方法最近在相关任务中的成功,已经有大量的工作将学习方法应用到了物体导航任务中,基于学习的方法通常将视觉输入和用 ...
【技术保护点】
【技术特征摘要】
1.一种基于物体偏见修正与有向注意力图的物体导航方法,其特征在于,包括以下步骤:S1、在物体导航过程中,机器人实时获取当前时刻的原始图像作为视觉输入;S2、通过ResNet18提取视觉输入的全局图像特征I
t
,并且通过Faster RCNN提取视觉输入的局部物体特征S
t
;S3、以全局图像特征I
t
作为查询,局部物体特征S
t
作为键值,通过多头注意力分数生成模块得到自适应物体注意力图G
v
;S4、将自适应物体注意力图G
v
与固定的物体注意力图加权相加得到当前时刻的物体注意力权重G
t
;S5、利用物体注意力权重G
t
对局部物体特征S
t
进行加权得到物体支路最终编码S6、利用经过物体注意力权重加权后的物体语义表示D作为查询,全局的图像信息作为键值,通过多头注意力得到图像支路最终编码S7、对图像、物体和过去动作三个支路进行能量重新分配再聚合得到特征表示H
t
;S8、利用LSTM循环神经网络和A3C强化学习方法预测动作执行概率;S9、加强检测到目标物体时输出停止动作的概率;S10、机器人选择概率最大的动作对场景进行探索。2.根据权利要求1所述的一种基于物体偏见修正与有向注意力图的物体导航方法,其特征在于,所述的步骤S2中,局部物体特征S
t
由物体视觉特征物体位置特征物体置信度和目标物体指示位拼接而成。3.根据权利要求1所述的一种基于物体偏见修正与有向注意力图的物体导航方法,其特征在于,所述的步骤S3具体包括以下步骤:S31、设定置信度阈值,并通过置信度滤波将低于置信度阈值的物体特征置为0得到滤波后的物体特征S32、通过独热编码和两层全连接层得到物体索引编码特征OI,对全局图像特征I
t
进行全局平均池化后与目标索引编码OI
p
拼接得到包含目标物体信息的全局图像特征则有:其中,M为特征图中的像素数量,p表示目标物体,OI
p
为物体索引编码特征OI中目标物体p的索引编码,Concat表示将两个向量拼接成一个;S33、以包含目标物体信息的全局图像特征作为查询,滤波后的物体特征作为键,利用多头注意力分数生成器得到自适应物体注意力图G
v
,则有:,则有:,则有:其中,NH和HD分别为多头注意力分数生成器的头数和隐藏维度,其中,NH和HD分别为多头注意力分数生成器的头数和隐藏维度,均为可学
习的维度映射参数,和分别将包含目标物体信息的全局图像特征和滤波后的局部物体特征映射到的同一维度HD,将各个头计算出来的子图聚合为一个自适应的物体注意力图G
v
。4.根据权利要求1所述的一种基于物体偏见修正与有向注意力图的物体导航方法,其特征在于,所述的步骤S4具体为:定义一个可学习且固定大小的矩阵表示固定的物体注意力图,根据寻找的物体p,从固定的物体注意力图中提取边权重通过加权固定物体注意力图与自适...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。