System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 基于障碍检测和DDPG算法的仓储环境路径规划方法技术_技高网

基于障碍检测和DDPG算法的仓储环境路径规划方法技术

技术编号:41385445 阅读:9 留言:0更新日期:2024-05-20 19:06
本发明专利技术涉及物流运输机器人路径规划技术领域,公开了一种基于障碍检测和DDPG算法的仓储环境路径规划方法,包括:通过机载雷达获取物流机器人周围的障碍物的分布信息,规划出合适的路径点,并通过周围障碍物之间的空间大小选择不同的奖励函数,对强化学习的神经网络进行训练;将障碍检测方法和训练收敛的神经网络策略应用到真实的物流机器人上,通过障碍检测方法和神经网络的输出指令来进行物流机器人的路径规划。本发明专利技术根据不同的障碍检测分类,更换规划路径点和分别切换至不同的奖励函数,在提高了强化学习训练的安全性的同时,减少了路径长度和路径平滑性等其他性能指标的牺牲。

【技术实现步骤摘要】

本专利技术涉及物流运输机器人路径规划,具体涉及一种基于障碍检测和ddpg算法的仓储环境路径规划方法。


技术介绍

1、随着互联网物流应用的普及和交通运输能力的提高,仓储物流行业对智能化的需求日益增长。在充满各种障碍物、工人频繁活动的仓储环境中,物流运输机器人如何避开地面上的障碍物以及正在工作和移动的工人已经成为近年来备受关注的问题。

2、目前,通常采用整体地图建模的方法,首先获取全局地图信息,然后使用全局路径规划算法规划整体路径,最后利用局部路径规划算法进行路径跟踪和避障,以确保移动机器人在成功到达目标位置时能够避开障碍物并防止碰撞发生。在算法选择方面,经典传统算法如dijkstra通常用作全局路径规划算法,而传统算法或强化学习算法则常用作局部路径规划的工具。然而,这种方法存在两个问题:一是依赖全局地图信息,因此只有在具备全局地图信息的情况下才能进行合理的路径规划。在实际应用中,并非所有环境都能提供在线完整的地图信息。第二是在存在移动障碍物的仓储环境中,目前的传统算法或强化学习算法都难以提供足够的安全性。

3、本专利技术旨在解决在缺乏实时全局地图信息的仓储环境中,如何使物流机器人成功到达目标点的同时能够有效躲避障碍物的问题。


技术实现思路

1、为解决上述技术问题,本专利技术提供一种基于障碍检测和ddpg算法的仓储环境路径规划方法。

2、为解决上述技术问题,本专利技术采用如下技术方案:

3、一种基于障碍检测和ddpg算法的仓储环境路径规划方法,包括以下步骤:

4、步骤一,使用雷达获取物流机器人周围障碍物的速度和位置,计算出障碍物与物流机器人的相对速度vr和相对位移dr;

5、步骤二,用障碍检测方法对物流机器人前进方向的障碍物分布进行检测分类:

6、如果d<d0,则在雷达探索的局部地图中使用a*算法重新规划出新的路径点r,使物流机器人移动至新的路径点r,并回到步骤一;其中d为物流机器人前进方向上两个障碍物之间的间距,d0为设置的安全距离,d0大于物流机器人的宽度;

7、如果d0≤d<2d0,则将相对速度vr和相对位移dr作为当前状态st输入到深度确定性策略梯度算法的神经网络中,输出动作at供物流机器人执行,并根据奖励函数一得到奖励rt;

8、如果d≥2d0,则将相对速度vr和相对位移dr作为当前状态st输入到深度确定性策略梯度算法的神经网络中,输出动作at供物流机器人执行,并根据奖励函数二得到奖励rt;

9、步骤三,将上一时刻的状态st-1,以及当前时刻的状态st、奖励rt、动作at组成经验参数(st-1,st,rt,at)放入经验回放池d;

10、步骤四,从经验回放池中随机抽取一批样本对深度确定性策略梯度算法的神经网络进行训练,并更新神经网络的参数;

11、步骤五,循环进行步骤一至步骤四,直至神经网络的参数收敛;

12、步骤六,将障碍检测方法和完成训练的神经网络应用到真实的物流机器人上,通过障碍检测方法和神经网络输出的动作来对物流机器人的路径进行规划。

13、进一步地,奖励函数一r1为:

14、

15、其中,k1、k3、λ、|v0|是预先设置好的常数,|v|是指物流机器人的速度大小,k2是随着|v|的增加而呈指数增长的系数,θ是指与物流机器人距离最近的障碍物的速度和物流机器人的速度的夹角;k4是随着|v|的增加呈对数上升的系数,k5是随着|v|的增加呈对数下降的系数,|dg|则表示物流机器人当前位置和目标位置的距离;|dmin|表示各个障碍物中离机器人的最近的障碍物同机器人的距离。

16、进一步地,奖励函数二r2为:

17、

18、其中,k3、|v0|、k6是预先设置好的参数,f1(θ)、f2(θ)均为关于θ的多项式,|dmin|表示各个障碍物中离机器人的最近的障碍物同机器人的距离;|v|是指物流机器人的速度大小;|dg|则表示物流机器人当前位置和目标位置的距离。

19、与现有技术相比,本专利技术的有益技术效果是:

20、1.本专利技术引入了一种基于处理后的雷达数据的空间大小检测方法,用于路径点的规划,从而实现了不再依赖在线全局地图信息的目标。

21、2.本专利技术提出了一种新的强化学习训练方法,根据不同的障碍检测分类,更换规划路径点和分别切换至不同的奖励函数。这一方法在提高了强化学习训练的安全性的同时,大大减少了路径长度和路径平滑性等其他性能指标的牺牲。

本文档来自技高网...

【技术保护点】

1.一种基于障碍检测和DDPG算法的仓储环境路径规划方法,包括以下步骤:

2.根据权利要求1所述的基于障碍检测和DDPG算法的仓储环境路径规划方法,其特征在于,奖励函数一r1为:

3.根据权利要求1所述的基于障碍检测和DDPG算法的仓储环境路径规划方法,其特征在于,奖励函数二r2为:

【技术特征摘要】

1.一种基于障碍检测和ddpg算法的仓储环境路径规划方法,包括以下步骤:

2.根据权利要求1所述的基于障碍检测和ddpg算法的仓储环境路径规划...

【专利技术属性】
技术研发人员:秦家虎童思捷刘轻尘马麒超张聪江子川
申请(专利权)人:中国科学技术大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1