一种考虑地形结构的深度强化学习导航方法技术

技术编号：39518959 阅读：13 留言：0更新日期：2023-11-25 18:57

本发明专利技术涉及移动机器人技术领域，公开了一种考虑地形结构的深度强化学习导航方法，首先利用

全部详细技术资料下载

【技术实现步骤摘要】
一种考虑地形结构的深度强化学习导航方法

[0001]本专利技术涉及移动机器人
，具体涉及一种考虑地形结构的深度强化学习导航方法
。

技术介绍

[0002]随着移动机器人技术的快速发展，机器人在人们的日常生活中扮演着越来越重要的角色
。
导航作为移动机器人基本功能的关键技术之一，也需要应对新的挑战
。
例如，机器人在真实的
3D
场景中导航时，可能会遇到坡道
、
台阶
、
形状和大小各异的岩石等不同类型的地形特征
。
为了成功地在上述地形中导航，机器人必须依赖
3D
传感数据来计算导航动作
。
而现有的移动机器人导航算法大多基于
2D
激光雷达来实现，这会导致
3D
地形的关键信息丢失，从而直接影响机器人在崎岖地形中的导航性能
。
[0003]自主导航的目标是机器人在面对难以预测的现实环境时，机器人能够快速安全的到达目标点
。
为实现安全自主导航，机器人需要利用自身传感器感知周围环境中的障碍物信息，其中常见的传感器包括激光传感器
、
视觉传感器和超声传感器等
。
在获取障碍物信息后，可进一步依据避障方法得到控制指令，从而控制机器人在环境中移动并避开周围的障碍物
。
[0004]现有技术中，常见的自主导航技术包括：
[0005]基于动态窗口的的自主导航：基于动态窗...

【技术保护点】

【技术特征摘要】
1.
一种考虑地形结构的深度强化学习导航方法，通过深度强化学习导航框架输出机器人的运动命令，深度强化学习导航框架的训练过程包括以下步骤：步骤一
、
构建深度强化学习网络的输入：深度强化学习网络的输入为机器人的状态，机器人的状态包括机器人位置
、
目标位置
、IMU
信息
、3D
雷达数据以及
3D
高程地图；其中，
IMU
信息能够反映机器人运动状态；
3D
雷达数据是激光雷达传感器采集的三维点云数据；步骤二
、
奖赏函数设计：奖赏函数为：
r
t
＝
α
r
g
+
β
r
c
+
φ
r
s
；其中，
r
t
为机器人在仿真环境中执行动作
a
t
以后环境给予的奖励值，由目标奖励
r
g
、
碰撞奖励
r
c
和势场奖励
r
s
构成，
α
，
β
，
φ
为权重系数；目标奖励
r
g
在机器人靠近目标位置的过程中给予正奖励，碰撞奖励
r
c
用于评估机器人在靠近障碍物时的行为，势场奖励用于对机器人在崎岖的地形中的动作进行评估；步骤三
、
学习策略设计：使用针对连续动作空间的演员评论家方法对深度强化学习网络进行训练；其中，演员评论家方法中演员网络以机器人的状态为输入，输出机器人的线速度和角速度；演员评论家方法中评论家网络以机器人的状态和演员网络的输出为输入，输出对于机器人的状态动作对的评估值；演员网络和评论家网络的更新依赖奖励函数，深度强化学习导航框架的训练目标是令机器人与环境交互产生的奖励值逐渐增大直至收敛；通过完成训练的深度强化学习网络输出机器人的线速度和角速度，并发送到机器人的闭环控制器，作为机器人执行器的运动命令执行
。2.
根据权利要求1所述的考虑地形结构的深度强化学习导航方法，其特征在于：步骤一中，使用表面重建方法将
3D
雷达数据的点云数据作为输入，使用泊松重建算法来生成一个三维的网格表面，得到
3D
高程地图
。3.
根据权利要求1所述的考虑地形结构的深度强化学习导航方法，其特征在于：步骤一中，机器人的状态
s
t
表示为：
s
t
＝
[p
t
，
p
g
，
p
imu
，
M
d
，
M
h
，
M
q
]
；其中，
p
t
表示机器...

【专利技术属性】
技术研发人员：秦家虎，李恒，闫成真，刘轻尘，马麒超，阚震，
申请(专利权)人：中国科学技术大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人