【技术实现步骤摘要】
基于Transformer的目标物体导航方法
[0001]本专利技术涉及视觉目标物体导航的
,尤其是指一种基于
Transformer
的目标物体导航方法
。
技术介绍
[0002]在移动机器人与智能家居概念不断发展的背景下,日常家居生活中开始频繁出现移动机器人的身影
。
而室内导航功能是移动机器人重要的功能之一,随着移动机器人应用场景的丰富,移动机器人需要适应各种各样的未知的家居环境,但是传统的建图导航方法无法满足多种场景下的导航问题
。
因此,随着深度学习技术的不断发展基于深度强化学习的目标导航方法逐渐兴起,但是现有的方法在效果上和泛化能力上有待提升,如何让移动机器人理解第一视角图像中的语义
、
位置和物体关系,并通过目标物体名称找到图像中和目标物体关联的物体并执行合适的动作向目标物体方向导航成为亟需解决的问题
。
[0003]目标物体导航方法是一个未知环境下基于深度强化学习的移动机器人视觉导航系统,将目标物体和图像中的物体关联起来,使得移动机器人能够适应未知的家居环境并完成视觉导航任务
。
例如,给定目标物体台灯
Lamp
,移动机器人需要在视觉输入中找到台灯
Lamp
或者和台灯
Lamp
关联的物体,并最终导航到台灯前方一米内并执行完成指令
。
[0004]以往的目标物体导航技术主要存在:在导航过程中,无法找到图像中物体和目标物体的关系 ...
【技术保护点】
【技术特征摘要】
1.
基于
Transformer
的目标物体导航方法,其特征在于,包括以下步骤:
1)
对输入数据的预处理,包括:使用
DETR
模型对输入的当前时刻环境图片进行提取,得到局部环境特征向量;使用
ResNet
‑
18
模型对输入的当前时刻环境图片进行提取,得到全局环境特征向量;使用词嵌入模型对目标物体名称嵌入得到目标物体特征向量;
2)
将局部环境特征向量
、
全局环境特征向量和目标物体特征向量输入目标向量
Transformer
模型得到当前时刻的最终目标向量;
3)
将当前时刻的最终目标向量输入导航方向向量
Transformer
模型得到导航方向向量;
4)
将导航方向向量输入到
A3C
强化学习模型得到当前时刻的动作概率分布向量
、
动作评分向量和
reward
值,然后选取动作概率分布向量概率最高的动作执行;
5)
重复步骤
1)
至步骤
4)
,直到机器人执行完成动作,此时一个目标物体导航事件完成,根据不同时刻动作评分向量和
reward
值更新模型权重
。2.
根据权利要求1所述的基于
Transformer
的目标物体导航方法,其特征在于:在步骤
1)
中,将当前时刻环境图片输入
DETR
模型得到局部环境特征向量
L
i,j
∈R
100
×
256
,其中,
100
×
256
表示大小为
100
×
256
的特征层,
i
方向上大小为
100
,
j
方向上大小为
256
,
R
100
×
256
表示
100
×
256
的集合实数集;将当前时刻环境图片输入
ResNet
‑
18
模型得到全局环境特征向量
G
i,j
∈R
49
×
256
,其中,
49
×
256
表示大小为
49
×
256
的特征层,
i
方向上大小为
49
,
j
方向上大小为
256
,
R
49
×
256
表示
49
×
256
的集合实数集;使用词嵌入模型将目标物体名称嵌入得到目标物体特征向量
T
i,j
∈R1×
256
,其中,1×
256
表示大小为1×
256
的特征层,
i
方向上大小为1,
j
方向上大小为
256
,
R1×
256
表示1×
256
的集合实数集
。3.
根据权利要求2所述的基于
Transformer
的目标物体导航方法,其特征在于:在步骤
2)
中,所述目标向量
Transformer
模型包括视觉编码器
、
视觉解码器和目标物体解码器,其执行以下操作:通过视觉编码器编码局部环境特征向量得到增强局部环境特征向量,将全局环境特征向量加上位置编码得到增强全局环境特征,将增强局部环境特征向量和增强全局环境特征向量输入视觉解码器得到环境特征向量,将环境特征向量和目标物体特征向量输入目标物体解码器得到当前时刻的初步目标向量,并将当前时刻的初步目标向量通过全连接层降维,将上一时刻的动作概率分布向量通过全连接层升维,将升维后的动作概率分布向量和降维后当前时刻的初步目标向量连结再展平得到当前时刻的最终目标向量
。4.
根据权利要求3所述的基于
Transformer
的目标物体导航方法,其特征在于:所述目标向量
Transformer
模型使用模仿学习的预训练,使模型能够得到一个好的初始化权重,有利于加快模型正式训练时的收敛速度;模型采用预先机器人在环境中导航的多条示教轨迹作为预训练数据集
P
=
{(s1,a1),(s2,a2),...,(s
n
,a
n
)}
,其中
(s
n
,a
n
)
表示第
n
条示教轨迹的参数,
s
n
为第
n
条示教轨迹的机器人状态,包括局部环境特征向量
、
全局环境特征向量和目标物体特征向量,
a
n
为第
n
条示教轨迹的动作概率分布向量,即向前走
、
向左转
、
向右转
、
向上看
、
向下看和完成动作的概率分布;在模仿学习的预训练过程中,第
n
条示教轨迹,输入
s
n
,目标向量
Transformer
模型输出当前时刻的最终目标向量,将最终目标向量输入全连接层生成一个动作概率分布向量,然后和第
n
条示教轨迹的动作概率分布向量计算交叉熵,使用的目标函数
τ
表示为:
式中,
n
表示第
n
条示教轨迹,
P(a
n
)
表示第
n
条示教轨迹的动作概率分布,即真实分布;
Q(a
n
)
表示模型预训练的动作概率分布,即预测分布;
λ
是模仿学习的超参数;当真实分布和预测分布的交叉熵越小,那表明它们的分布越接近,通过最小化目标函数
τ
来学习每条示教轨迹达到预训练模型初始化权重的目的
。5.
根据权利要求4所述的基于
Transformer
的目标物体导航方法,其特征在于:所述步骤
2)
包括以下步骤:
2.1)
使用局部环境特征向量
L
i,j
∈R
100
×
256
作为多头自注意力机制
MHA()
的查询向量
、
键向量和值向量,输入视觉编码器
VisionEncoder(L
i,j
,L
i,j
,L
i,j
)
得到增强局部环境特征向量
L'
i,j
∈R
100
×
256
;其中,视觉编码器的定义如下:
L'
i,j
=
VisionEncoder(L
i,j
,L
i,j
,L
i,j
)
=
Add&Norm(Linear(Add&Norm(MHA(L
i,j,
L
i,j
,L
i,j
))))
式中,
Add&Norm( )
是残差连接和层归一化,
Linear()
是全连接层,
MHA()
是多头自注意力机制;
2.2)
使用全局环境特征向量
G
i,j
加上位置编码得到增强全局环境特征向量
G
′
i,j
,将增强全局环境特征向量
G
′
i,j
和增强局部环境特征向量
L'
i,j
输入视觉解码器
VisionDecoder(G
′
i,j
,L
′
i,j
,L
′
i,j
)
得到当前时刻的环境特征向量
E
i,j
∈R
49
×
256
;其中,视觉编码器定义如下:
E
i,j
=
VisionDecoder(Pos(G
i,j
),L
′<...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。