一种考虑地形结构的深度强化学习导航方法技术

技术编号:39518959 阅读:13 留言:0更新日期:2023-11-25 18:57
本发明专利技术涉及移动机器人技术领域,公开了一种考虑地形结构的深度强化学习导航方法,首先利用

【技术实现步骤摘要】
一种考虑地形结构的深度强化学习导航方法


[0001]本专利技术涉及移动机器人
,具体涉及一种考虑地形结构的深度强化学习导航方法


技术介绍

[0002]随着移动机器人技术的快速发展,机器人在人们的日常生活中扮演着越来越重要的角色

导航作为移动机器人基本功能的关键技术之一,也需要应对新的挑战

例如,机器人在真实的
3D
场景中导航时,可能会遇到坡道

台阶

形状和大小各异的岩石等不同类型的地形特征

为了成功地在上述地形中导航,机器人必须依赖
3D
传感数据来计算导航动作

而现有的移动机器人导航算法大多基于
2D
激光雷达来实现,这会导致
3D
地形的关键信息丢失,从而直接影响机器人在崎岖地形中的导航性能

[0003]自主导航的目标是机器人在面对难以预测的现实环境时,机器人能够快速安全的到达目标点

为实现安全自主导航,机器人需要利用自身传感器感知周围环境中的障碍物信息,其中常见的传感器包括激光传感器

视觉传感器和超声传感器等

在获取障碍物信息后,可进一步依据避障方法得到控制指令,从而控制机器人在环境中移动并避开周围的障碍物

[0004]现有技术中,常见的自主导航技术包括:
[0005]基于动态窗口的的自主导航:基于动态窗口的自主导航是一种常用的避障规划方法,它可以在速度空间中搜索机器人最优控制速度,使机器人能够快速到达目标点,同时避免与障碍物发生碰撞

它可以结合全局路径规划算法,如
Dijkstra
算法或
A*
算法,来生成机器人的导航轨迹

动态窗口算法通常应用于携带有
2d
激光雷达的移动机器人,很难适用于地面崎岖的场景

[0006]基于深度学习的自主导航:基于深度学习的自主导航是一种利用深度神经网络来实现机器人感知

决策和控制的方法

它可以直接将传感器数据
(
如图像

雷达

激光等
)
映射到控制信号
(
如速度

转向角等
)
,不需要进行中间层的处理

深度学习依赖于手工设计的特征,可能存在信息丢失或不一致的问题

但基于深度学习的自主导航需要高性能的传感器和计算设备,以提供高质量和高速率的数据输入和输出

这可能会增加成本和功耗,限制了机器人在实际环境中的部署和运行

[0007]基于深度强化学习的自主导航:传统机器人避障方法计算量较大,且过度依赖于模型参数与实验场景,难以适应当下日益复杂多变的应用场景,因此需要研究更为强大新颖的避障方法以满足实际应用需求

基于上述原因,深度强化学习算法
(Deep Reinforcement Learning

DRL)
由于其独有的反馈学习特性,已经受到了越来越多的关注,并且已经在机器人相关工作中有了卓越的表现

深度强化学习算法应用于机器人领域,主要是通过在仿真模拟环境中进行大量重复的实验,进而不断的从过去的错误经验中提升算法性能

基于深度强化学习的自主导航是一种利用深度神经网络和强化学习算法来实现机器人在未知环境中的感知

决策和控制的方法

它可以克服传统的基于规则或最优视角的
方法在复杂环境中的局限性,也可以提高端到端的深度学习方法的学习效率和迁移性能

但传统的深度强化学习中奖励函数只在任务完成时给予正反馈,而在任务过程中给予零或负反馈,这使得机器人很难探索有效的行为,也很难从经验中学习

[0008]另外,现有的经典导航方法大多只能处理平面目标,不能处理立体目标

这可能会导致机器人在遇到高低起伏或者有遮挡物的地形结构时无法正确地识别和避开障碍物


技术实现思路

[0009]为解决上述技术问题,本专利技术提供一种考虑地形结构的深度强化学习导航方法,通过神经网络来提取原始
3D
雷达数据特征,并明确考虑机器人在环境中的姿势使得机器人能够更好的感知周边地形的结构信息

此外,设计密集的奖励函数来对机器人的导航动作进行评估,从而使得训练模型具有高效灵活的导航性能

[0010]为解决上述技术问题,本专利技术采用如下技术方案:
[0011]一种考虑地形结构的深度强化学习导航方法,通过深度强化学习导航框架输出机器人的运动命令,深度强化学习导航框架的训练过程包括以下步骤:
[0012]步骤一

构建深度强化学习网络的输入:
[0013]深度强化学习网络的输入为机器人的状态,机器人的状态包括机器人位置

目标位置
、IMU
信息
、3D
雷达数据以及
3D
高程地图;其中,
IMU
信息能够反映机器人运动状态;
3D
雷达数据是激光雷达传感器采集的三维点云数据;
[0014]步骤二

奖赏函数设计:
[0015]奖赏函数为:
r
t

α
r
g
+
β
r
c
+
φ
r
s
;其中,
r
t
为机器人在仿真环境中执行动作
a
t
以后环境给予的奖励值,由目标奖励
r
g

碰撞奖励
r
c
和势场奖励
r
s
构成,
α
,
β
,
φ
为权重系数;目标奖励
r
g
在机器人靠近目标位置的过程中给予正奖励,碰撞奖励
r
c
用于评估机器人在靠近障碍物时的行为,势场奖励用于对机器人在崎岖的地形中的动作进行评估;
[0016]步骤三

学习策略设计:
[0017]使用针对连续动作空间的演员

评论家方法对深度强化学习网络进行训练;其中,演员

评论家方法中演员网络以机器人的状态为输入,输出机器人的线速度和角速度;演员

评论家方法中评论家网络以机器人的状态和演员网络的输出为输入,输出对于机器人的状态动作对的评估值;演员网本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种考虑地形结构的深度强化学习导航方法,通过深度强化学习导航框架输出机器人的运动命令,深度强化学习导航框架的训练过程包括以下步骤:步骤一

构建深度强化学习网络的输入:深度强化学习网络的输入为机器人的状态,机器人的状态包括机器人位置

目标位置
、IMU
信息
、3D
雷达数据以及
3D
高程地图;其中,
IMU
信息能够反映机器人运动状态;
3D
雷达数据是激光雷达传感器采集的三维点云数据;步骤二

奖赏函数设计:奖赏函数为:
r
t

α
r
g
+
β
r
c
+
φ
r
s
;其中,
r
t
为机器人在仿真环境中执行动作
a
t
以后环境给予的奖励值,由目标奖励
r
g

碰撞奖励
r
c
和势场奖励
r
s
构成,
α

β

φ
为权重系数;目标奖励
r
g
在机器人靠近目标位置的过程中给予正奖励,碰撞奖励
r
c
用于评估机器人在靠近障碍物时的行为,势场奖励用于对机器人在崎岖的地形中的动作进行评估;步骤三

学习策略设计:使用针对连续动作空间的演员评论家方法对深度强化学习网络进行训练;其中,演员评论家方法中演员网络以机器人的状态为输入,输出机器人的线速度和角速度;演员评论家方法中评论家网络以机器人的状态和演员网络的输出为输入,输出对于机器人的状态动作对的评估值;演员网络和评论家网络的更新依赖奖励函数,深度强化学习导航框架的训练目标是令机器人与环境交互产生的奖励值逐渐增大直至收敛;通过完成训练的深度强化学习网络输出机器人的线速度和角速度,并发送到机器人的闭环控制器,作为机器人执行器的运动命令执行
。2.
根据权利要求1所述的考虑地形结构的深度强化学习导航方法,其特征在于:步骤一中,使用表面重建方法将
3D
雷达数据的点云数据作为输入,使用泊松重建算法来生成一个三维的网格表面,得到
3D
高程地图
。3.
根据权利要求1所述的考虑地形结构的深度强化学习导航方法,其特征在于:步骤一中,机器人的状态
s
t
表示为:
s
t

[p
t

p
g

p
imu

M
d

M
h

M
q
]
;其中,
p
t
表示机器...

【专利技术属性】
技术研发人员:秦家虎李恒闫成真刘轻尘马麒超阚震
申请(专利权)人:中国科学技术大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1