一种基于图搜索引导强化学习的无人夹抱车仓储区路径规划算法制造技术

技术编号:46127541 阅读:5 留言:0更新日期:2025-08-15 20:01
本发明专利技术公开了一种基于图搜索引导强化学习的无人夹抱车仓储区路径规划算法,包括以下步骤:步骤1,采集仓储环境数据,生成环境地图;步骤2,根据步骤1的环境地图以及给定目标点,使用图搜索算法规划出粗略路径的路径点#imgabs0#步骤3,强化学习优化模块中的Actor网络生成路径的路径点#imgabs1#计算即时奖励rt,将步骤2中的粗略路径作为强化学习模块的引导,Critic网络使即时奖励rt输出逼近真实的状态‑动作值函数,计算均方误差损失函数Lcritic,更新Critic网络参数θcritic,Critic网络综合步骤2的粗略路径和Actor网络生成路径计算相似性损失函数Lsimilarity,Actor网络的损失函数Lactor由Lcritic和Lsimilarity加权所得。本发明专利技术提出的无人夹抱车仓储区路径规划算法,生成的路径更平滑且避障性能更强。

【技术实现步骤摘要】

本专利技术涉及自动驾驶与路径规划,特别是涉及一种基于图搜索引导强化学习的无人夹抱车仓储区路径规划算法


技术介绍

1、无人夹抱车在现代棉花轧花厂中的应用日益广泛,其核心任务是灵活应对多样化的可行驶区域(包括宽路、窄路等)进行高效路径规划。然而,在复杂仓储环境下,常规路径规划算法面临多样行驶区域的规划灵活性不足的问题,如在宽窄路距频繁变化的环境中,传统规划方法难以在灵活多变的场景高效规划出路径。且许多路径规划算法对超参数的依赖显著,导致在实际应用中难以快速适配新的场景。

2、相比之下,基于学习的方法在这些方面表现出更强的适应性和灵活性。han li等人提出一种在非结构化场景中基于学习和优化的轨迹规划(lotp),该方法使用深度神经网络替代启发式函数,结合蒙特卡洛树结合的搜索方法生成粗略路径,然后对路径平滑优化后进行速度规划。实验表明在矿区的真实环境中lotp提高了路径规划的计算效率和成功率。shirin等人通过改进新的损失函数、可调安全边距的循环神经网络,实现了任意空间复杂性下相对恒定时间内生成一条安全路径。自注意力机制在长时依赖建模和序列建模上本文档来自技高网...

【技术保护点】

1.一种基于图搜索引导强化学习的无人夹抱车仓储区路径规划算法,其特征在于,包括以下步骤:

2.如权利要求1所述的无人夹抱车仓储区路径规划算法,其特征在于,步骤3中Actor网络的损失函数Lactor的计算公式如下:

3.如权利要求2所述的无人夹抱车仓储区路径规划算法,其特征在于,所述均方误差损失函数Lcritic的计算公式如下:

4.如权利要求2所述的无人夹抱车仓储区路径规划算法,其特征在于,粗略路径和精细路径的相似性损失函数Lsimilarity的计算公式如下:

5.如权利要求3所述的无人夹抱车仓储区路径规划算法,其特征在于,所述目标期望...

【技术特征摘要】

1.一种基于图搜索引导强化学习的无人夹抱车仓储区路径规划算法,其特征在于,包括以下步骤:

2.如权利要求1所述的无人夹抱车仓储区路径规划算法,其特征在于,步骤3中actor网络的损失函数lactor的计算公式如下:

3.如权利要求2所述的无人夹抱车仓储区路径规划算法,其特征在于,所述均方误差损失函数lcritic的计算公式如下:

4.如权利要求2所述的无人夹抱车仓储区路径规划算法,其特征在于,粗略路径和精细路径的相似性损失函数lsimilarity的计算公式如下:

5.如权利要求3所述的无人夹抱车仓储区路径规划算法,其特征...

【专利技术属性】
技术研发人员:宋康刘志强贾岚博陈云张连会谢辉
申请(专利权)人:北洋智能网联技术天津有限公司
类型:发明
国别省市:

相关技术
    暂无相关专利
网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1