当前位置: 首页 > 专利查询>武汉大学专利>正文

一种机器人深度强化学习运动规划方法及计算机可读介质技术

技术编号:39802209 阅读:8 留言:0更新日期:2023-12-22 02:33
本发明专利技术提出了一种机器人深度强化学习运动规划方法及计算机可读介质

【技术实现步骤摘要】
一种机器人深度强化学习运动规划方法及计算机可读介质


[0001]本专利技术属于移动机器人运动规划领域,尤其涉及一种机器人深度强化学习运动规划方法及计算机可读介质


技术介绍

[0002]近年来,移动机器人产业蓬勃发展,信息感知与导航技术作为机器人核心技术,是移动机器人安全顺利完成各项任务的基础,已经成为产学研联合攻关的主要目标之一

伴随着机器人应用场景的多样化和复杂化,机器人的工作环境也由结构化的特定场景延伸到动态的

时变的

与人共存的日常生活场景

这对移动机器人导航技术的泛化性

自主性和动态避障能力提出了更高的要求

由于传统的针对固定环境的导航技术难以适用于非结构化

非确定性的动态环境,因此,近年来学界的研究工作主要是围绕在此类未知环境或部分可知环境下的自主导航与动态避障技术

[0003]深度强化学习(
Deep Reinforcement Learning

DRL
)相关领域的突破性进展为解决未知的复杂动态场景下的路径规划与避障问题提供了新的方案,其不需要提前针对环境建模,可以直接端到端进行运动规划的特性能够很好的解决传统算法带来的弊端

然而,基于
DRL
的机器人导航方法具有奖励稀疏

缺乏原理可解释性等问题,模型收敛依赖于大量的环境交互训练,难以实现稳定

鲁棒的模型效果

因此,基于深度强化学习技术进行移动机器人的运动规划仍然是一项具有挑战性的工作


技术实现思路

[0004]针对现有技术方法的不足,本专利技术提出了一种机器人深度强化学习运动规划方法及计算机可读介质

[0005]本专利技术方法所采用的技术方案是一种机器人深度强化学习运动规划方法,其特征在于:移动机器人通过
OctoMap
方法构建当前时刻的
3D
体素局部占用地图
、3D
体素局部占用地图中每个体素的占用信息;结合
Tentabot
导航框架进行计算,得到当前时刻每对线速度

角速度组合对应的机器人坐标系下先验轨迹的占用信息和可导航性信息;构建当前时刻的观测数据

当前时刻的动作空间

当前时刻的无效动作屏蔽约束函数;加权计算当前时刻的综合奖励;将当前时刻的观测数据输入至
Maskable PPO
算法,将当前时刻的综合奖励反馈至
Maskable PPO
算法,根据当前时刻的无效动作屏蔽约束条件,
Maskable PPO
算法当前时刻的动作空间中优化求解得到最优的线速度

角速度组合,作为当前时刻的线速度

角速度,并输入至移动机器人进行运行

[0006]本专利技术具体包括以下步骤:步骤1:输入多对线速度

角速度组合,根据每对线速度

角速度组合设定移动机器
人的线速度

角速度,移动机器人根据设定的线速度

角速度前进一定时间,基于运动学模型计算得到机器人坐标系下多个采样点位置,构建每对线速度

角速度组合对应的机器人坐标系下的先验轨迹;步骤2:设置移动机器人在自主导航模式下进行运动,并设置目标点位置,通过移动机器人的深度相机采集当前时刻的深度图像,通过
2D
激光雷达采集当前时刻的环境点云数据,将当前时刻的深度图像

当前时刻的环境点云数据在机器人坐标系下通过
OctoMap
方法构建当前时刻的
3D
体素局部占用地图

并得到当前时刻的
3D
体素局部占用地图中每个体素的占用信息;将每对线速度

角速度组合对应的机器人坐标系下先验轨迹的采样点投影在当前时刻的
3D
体素局部占用地图中,以每个采样点一定距离半径内的体素作为当前时刻的邻近体素,得到当前时刻每对线速度

角速度组合对应的机器人坐标系下先验轨迹中每个采样点的多个邻近体素的位置与占用信息;将当前时刻每对线速度

角速度组合对应的机器人坐标系下先验轨迹中所有采样点的多个邻近体素的占用信息输入给
Tentabot
导航框架进行计算,得到当前时刻每对线速度

角速度组合对应的机器人坐标系下先验轨迹的占用信息和可导航性信息;步骤3:将当前时刻每对线速度

角速度组合对应的机器人坐标系下先验轨迹的占用信息

目标点位置

当前时刻移动机器人距离目标点位置的距离

当前时刻移动机器人的偏航角

上一时刻的线速度

角速度组合作为当前时刻的观测数据,将输入的多对线速度

角速度组合作为当前时刻的动作空间,利用当前时刻每对线速度

角速度组合对应的机器人坐标系下先验轨迹的可导航性信息构建当前时刻的无效动作屏蔽约束函数;步骤4:依次计算当前时刻的目标抵达奖励

当前时刻的任务失败惩罚

当前时刻的步进惩罚

当前时刻的目标接近奖励

当前时刻的安全保持惩罚

当前时刻的速度变化惩罚,进一步加权计算当前时刻的综合奖励;步骤5:将当前时刻的观测数据输入至
Maskable PPO
算法,将当前时刻的综合奖励反馈至
Maskable PPO
算法,根据当前时刻的无效动作屏蔽约束条件,
Maskable PPO
算法当前时刻的动作空间中优化求解得到最优的线速度

角速度组合,作为当前时刻的线速度

角速度,并输入至移动机器人进行运行

[0007]作为优选,步骤3所述当前时刻的无效动作屏蔽约束函数,具体定义如下:无效动作屏蔽函数是指在机器人行进过程中,以当前时刻每对线速度

角速度组合对应的机器人坐标系下先验轨迹的可导航性信息作为条件,约束动作空间选取的函数;若在当前时刻,存在可导航与暂时可导航的先验轨迹,则将不可导航轨迹视为无效动作:
[0008]其中,为当前时刻动作组合;为轨迹可导航性,
false
表示错误,
true
表示真实,将先验轨迹分为可导航

不可导航与暂时可导航三类;对于所有先验轨迹均不可导航时,则将所有动作设置为有效,促使机器人学习自救动作:
[0009]。...

【技术保护点】

【技术特征摘要】
1.
一种机器人深度强化学习运动规划方法,其特征在于:移动机器人通过
OctoMap
方法构建当前时刻的
3D
体素局部占用地图
、3D
体素局部占用地图中每个体素的占用信息;结合
Tentabot
导航框架进行计算,得到当前时刻每对线速度

角速度组合对应的机器人坐标系下先验轨迹的占用信息和可导航性信息;构建当前时刻的观测数据

当前时刻的动作空间

当前时刻的无效动作屏蔽约束函数;加权计算当前时刻的综合奖励;将当前时刻的观测数据输入至
Maskable PPO
算法,将当前时刻的综合奖励反馈至
Maskable PPO
算法,根据当前时刻的无效动作屏蔽约束条件,
Maskable PPO
算法当前时刻的动作空间中优化求解得到最优的线速度

角速度组合,作为当前时刻的线速度

角速度,并输入至移动机器人进行运行
。2.
根据权利要求1所述的机器人深度强化学习运动规划方法,其特征在于,包括以下步骤:步骤1:输入多对线速度

角速度组合,根据每对线速度

角速度组合设定移动机器人的线速度

角速度,移动机器人根据设定的线速度

角速度前进一定时间,基于运动学模型计算得到机器人坐标系下多个采样点位置,构建每对线速度

角速度组合对应的机器人坐标系下的先验轨迹;步骤2:设置移动机器人在自主导航模式下进行运动,并设置目标点位置,通过移动机器人的深度相机采集当前时刻的深度图像,通过
2D
激光雷达采集当前时刻的环境点云数据,将当前时刻的深度图像

当前时刻的环境点云数据在机器人坐标系下通过
OctoMap
方法构建当前时刻的
3D
体素局部占用地图

并得到当前时刻的
3D
体素局部占用地图中每个体素的占用信息;将每对线速度

角速度组合对应的机器人坐标系下先验轨迹的采样点投影在当前时刻的
3D
体素局部占用地图中,以每个采样点一定距离半径内的体素作为当前时刻的邻近体素,得到当前时刻每对线速度

角速度组合对应的机器人坐标系下先验轨迹中每个采样点的多个邻近体素的位置与占用信息;将当前时刻每对线速度

角速度组合对应的机器人坐标系下先验轨迹中所有采样点的多个邻近体素的占用信息输入给
Tentabot
导航框架进行计算,得到当前时刻每对线速度

角速度组合对应的机器人坐标系下先验轨迹的占用信息和可导航性信息;步骤3:将当前时刻每对线速度

角速度组合对应的机器人坐标系下先验轨迹的占用信息

目标点位置

当前时刻移动机器人距离目标点位置的距离

当前时刻移动机器人的偏航角

上一时刻的线速度

角速度组合作为当前时刻的观测数据,将输入的多对线速度

角速度组合作为当前时刻的动作空间,利用当前时刻每对线速度

角速度组合对应的机器人坐标系下先验轨迹的可导航性信息构建当前时刻的无效动作屏蔽约束函数;步骤4:依次计算当前时刻的目标抵达奖励

当前时刻的任务失败惩罚

当前时刻的步进惩罚...

【专利技术属性】
技术研发人员:庄园邵宇鑫槐建柱韩玉龙
申请(专利权)人:武汉大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1