一种基于安全训练模仿学习的机器人移动避障方法技术

技术编号:34689848 阅读:16 留言:0更新日期:2022-08-27 16:23
本发明专利技术涉及机器人移动避障领域,公开了一种基于安全训练模仿学习的机器人移动避障方法;本发明专利技术在使机器人在探索中学习移动避障能力的同时,避免了训练期间机器人和障碍物的碰撞;提出了一种安全强化的神经网络损失函数,可以使网络训练更加注重危险状态下的专家示范信息,从而提高避障算法的避障效果;另外通过对称翻转的数据集增强技术,生成左右翻转的训练数据拷贝,从而使训练数据集的大小翻倍,提升了训练数据的使用效率。提升了训练数据的使用效率。提升了训练数据的使用效率。

【技术实现步骤摘要】
一种基于安全训练模仿学习的机器人移动避障方法


[0001]本专利技术涉及机器人移动避障领域,具体涉及一种基于安全训练模仿学习的机器人移动避障方法。

技术介绍

[0002]机器人移动避障技术是指机器人在障碍物环境中,通过处理自身传感器采集到的数据感知障碍物信息,从而安全避开障碍物最终到达给定目标点的技术。近年来,机器学习技术高速发展,神经网络和机器学习方法在机器人导航中的应用也在增加。训练机器人获得导航能力的机器学习方法分为强化学习和模仿学习,前者通过在环境中不断探索试错以获得导航能力,后者则直接通过对专家(人工或传统导航方法)的模仿来获得能力。
[0003]现有的机器人移动避障技术通常使用超声波、激光雷达和摄像头等传感器采集环境传感信息,并通过SLAM建图技术对周围环境进行构建获得环境地图。在此地图上,运行如人工势场法,栅格法等路径规划算法获得导航路径,并沿该路径移动到目标点。
[0004]传统移动避障技术需要对地形环境进行实时建图,这一操作需要较多的计算资源。而基于机器学习的避障技术,在完成神经网络的训练后,实际的运行开销较小,且不需要对环境进行建图,因此降低了硬件算力成本。
[0005]现有的强化学习和在线模仿学习算法需要机器人在学习训练过程中反复试错,这种方法缺少安全保障以至于无法在真实机器人上实现。

技术实现思路

[0006]为解决上述技术问题,本专利技术提出了一种混合探索的安全训练模仿学习方法,用于保障机器人避障训练过程中的安全性,该方法在使机器人在探索中学习移动避障能力的同时,避免了训练期间机器人和障碍物的碰撞。本专利技术同时提出了一种安全强化的神经网络损失函数和一种数据集对称增强技术,这两者可显著提高机器人训练效率与表现性能。
[0007]为解决上述技术问题,本专利技术采用如下技术方案:
[0008]一种基于安全训练模仿学习的机器人移动避障方法,包括以下步骤:
[0009]步骤A:通过安全训练模仿学习方法训练神经网络π
θ
,能够避免训练期间机器人与障碍物发生碰撞;其中神经网络π
θ
的输入为状态信息s,输出为机器人的操纵指令u和状态信息s的危险系数λ(s);状态信息s包括导航目标的相对坐标s
g
、机器人的当前速度s
v
以及激光雷达扫描信息s
l

[0010]步骤B:将训练后的神经网络π
θ
部署到机器人上,通过神经网络输出的操纵指令u使机器人具备移动避障的能力;
[0011]通过安全训练模仿学习方法训练神经网络过程包括:
[0012]步骤A1:将机器人当前的状态信息s输入到专家策略π
*
和神经网络π
θ
中,专家策略π
*
输出专家操纵指令u
*
,神经网络π
θ
输出神经网络操纵指令u


[0013]步骤A2:将状态

动作对(s,u
*
)作为训练数据存储到训练示范数据集D中;
[0014]步骤A3:从训练示范数据集D中随机抽取一组训练数据,通过如下安全增强损失函数对神经网络π
θ
进行训练:
[0015][0016]其中损失权重系数α(s)=(1+k
·
λ(s)),用于表示训练数据中状态信息s的重要程度;k为激光雷达扫描信息s
l
的元素数量;
[0017]步骤A4:计算当前的状态信息s的危险系数λ(s),以λ(s)为混合比,将专家操纵指令u
*
与神经网络操纵指令u

混合,得到最终的操纵指令u=λ(s)u
*
+(1

λ(s))u


[0018]循环进行步骤A1

A4,得到训练后的神经网络π
θ

[0019]具体地,专家策略π
*
选用机器人操作系统ROS导航库中的A*算法和TEB算法。
[0020]具体地,所述神经网络的网络结构如下:
[0021]神经网络由四层全连接层组成,各全连接层的神经元数量依次为1024、512、256、2,每层全连接层后都接有一批标准化层,除最后一层以外,各全连接层后均接有一RELU激活函数;神经网络输出的危险系数λ(s)由机器人与障碍物的最近距离d(s)决定:
[0022][0023]其中,d
max
和d
min
为预先设置的参数。
[0024]具体地,所述神经网络的数据预处理过程如下:
[0025]激光雷达扫描信息s
l
输入网络前,进行min

pooling池化操作,降低s
l
的维度,得到简化激光雷达数据s
l

,第i个简化激光雷达数据
[0026]对导航目标的相对坐标s
g
进行限幅操作,最大目标距离为r
max
,限幅后导航目标的相对坐标
[0027]限幅后导航目标的相对坐标和机器人的当前速度被归一化映射到[

1,1],激光雷达数据映射到[0,1]。
[0028]具体地,步骤A2中将状态

动作对(s,u
*
)输入至训练示范数据集D时,将通过对称增强操作得到的(s,u
*
)对称数据也作为训练数据输入至训练示范数据集D中;
[0029]通过对称增强操作得到对称数据的方法具体包括:
[0030]对相对坐标s
g
进行左右对称翻转:
[0031]对机器人的当前速度s
v
进行左右对称翻转:
[0032]对激光雷达扫描信息s
l
进行左右对称翻转:
[0033]对操纵指令u
*
进行左右对称翻转:
[0034]其中x
g
、y
g
分别为相对坐标s
g
的横坐标、纵坐标,s
v
=(v0,ω0),v0、ω0分别为机器人当前的线速度与角速度;u
*
=(v,ω),v、ω分别为操纵指令u
*
设定的线速度与角速度。
[0035]与现有技术相比,本专利技术的有益技术效果是:
[0036]1.本专利技术提出了一种混合探索的安全训练模仿学习方法,用于保障机器人避障训练过程中的安全性。该方法在使机器人在探索中学习移动避障能力的同时,避免了训练期
间机器人和障碍物的碰撞。
[0037]2.本专利技术提出了一种安全强化的神经网络损失函数,此损失函数可以使网络训练更加注重危险状态下的专家示范信息,从而提高避障算法的避障效果。
[0038]3.本专利技术提本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于安全训练模仿学习的机器人移动避障方法,包括以下步骤:步骤A:通过安全训练模仿学习方法训练神经网络π
θ
,能够避免训练期间机器人与障碍物发生碰撞;其中神经网络π
θ
的输入为状态信息s,输出为机器人的操纵指令u和状态信息s的危险系数λ(s);状态信息s包括导航目标的相对坐标s
g
、机器人的当前速度s
v
以及激光雷达扫描信息s
l
;步骤B:将训练后的神经网络π
θ
部署到机器人上,通过神经网络输出的操纵指令u使机器人具备移动避障的能力;通过安全训练模仿学习方法训练神经网络过程包括:步骤A1:将机器人当前的状态信息s输入到专家策略π
*
和神经网络π
θ
中,专家策略π
*
输出专家操纵指令u
*
,神经网络π
θ
输出神经网络操纵指令u

;步骤A2:将状态

动作对(s,u
*
)作为训练数据存储到训练示范数据集中;步骤A3:从训练示范数据集中随机抽取一组训练数据,通过如下安全增强损失函数对神经网络π
θ
进行训练:其中损失权重系数α(s)=(1+k
·
λ(s)),用于表示训练数据中状态信息s的重要程度;k为激光雷达扫描信息s
l
的元素数量;步骤A4:计算当前的状态信息s的危险系数λ(s),以λ(s)为混合比,将专家操纵指令u
*
与神经网络操纵指令u

混合,得到最终的操纵指令u=λ(s)u
*
+(1

λ(s))u

;循环进行步骤A1

A4,得到训练后的神经网络π
θ
。2.根据权利要求1所述基于安全训练模仿学习的机器人移动避障方法,其特征在于:专家策略π
*
选用机器人操作系统ROS导航库中的A*算法和TEB算法。3.根据权利要求1所述基于安全训练模仿学...

【专利技术属性】
技术研发人员:秦家虎闫成真马麒超李恒付维明
申请(专利权)人:中国科学技术大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1