基于RRT算法的无人水面艇强化学习路径规划方法及装置制造方法及图纸

技术编号:42838961 阅读:38 留言:0更新日期:2024-09-27 17:11
本发明专利技术涉及基于RRT算法的无人水面艇强化学习路径规划方法及装置,包括以下:基于RRT算法对无人水面艇于目标环境中进行规划得到第一路径;对所述第一路径中的每个节点,通过计算奖励的方式进行训练确定该节点的无人水面艇自动操作策略;重复对所述第一路径中的每个节点进行训练直到达到拟合状态,此时得到优化后的第一路径,优化后的第一路径中的每个节点的无人水面艇自动操作策略均达到最优;以优化后的第一路径对无人水面艇进行自动控制。本发明专利技术可以使无人水面艇更快找到终点,减少训练次数,更快的到达拟合的状态,实现路径规划的作用,同时结合无人水面艇船舶实际特性,更加贴切实际。该方法也提高路径搜索速度,避免了路径生成的随机性。

【技术实现步骤摘要】

本专利技术涉及机器学习相关,尤其涉及基于rrt算法的无人水面艇强化学习路径规划方法及装置。


技术介绍

1、在现有强化学习无人水面艇路径规划算法中,是通过无人水面艇与环境的交互学习来找到最优策略的方法。在路径规划中,强化学习可以通过试错和奖励机制,使无人水面艇逐步优化路径选择,以达到预定的目标,具有几种算法,如q-learning,deep q-networks(dqn),proximal policy optimization(ppo),q-learning是一种经典的强化学习算法,它通过建立一个状态-动作值函数(q函数),并利用贝尔曼方程更新q值来评估和优化路径选择策略,dqn是一种结合了深度神经网络和q-learning的强化学习算法。它使用深度神经网络来估计q值函数,通过经验回放和目标网络更新来提高学习的稳定性和效果,ppo是一种基于策略优化的强化学习算法。它通过优化策略函数来寻找最优路径选择策略, 同时使用重要性采样和剪切项来保持算法的稳定性。通过使用算法,得到船舶从起点到终点的最短的路径。

2、rrt(rapidly-explorin本文档来自技高网...

【技术保护点】

1.基于RRT算法的无人水面艇强化学习路径规划方法,其特征在于,包括以下:

2.根据权利要求1所述的基于RRT算法的无人水面艇强化学习路径规划方法,其特征在于,具体的,基于RRT算法对无人水面艇于目标环境中进行规划得到第一路径,包括,

3.根据权利要求1所述的基于RRT算法的无人水面艇强化学习路径规划方法,其特征在于,具体的,对所述第一路径中的每个节点,通过计算奖励的方式进行训练确定该节点的无人水面艇自动操作策略,包括,

4.根据权利要求3所述的基于RRT算法的无人水面艇强化学习路径规划方法,其特征在于,具体的,在选择舵角后结合速度v更新航向角ψ、x轴...

【技术特征摘要】

1.基于rrt算法的无人水面艇强化学习路径规划方法,其特征在于,包括以下:

2.根据权利要求1所述的基于rrt算法的无人水面艇强化学习路径规划方法,其特征在于,具体的,基于rrt算法对无人水面艇于目标环境中进行规划得到第一路径,包括,

3.根据权利要求1所述的基于rrt算法的无人水面艇强化学习路径规划方法,其特征在于,具体的,对所述第一路径中的每个节点,通过计算奖励的方式进行训练确定该节点的无人水面艇自动操作策略,包括,

4.根据权利要求3所述的基于rrt算法的无人水面艇强化学习路径规划方法,其特征在于,具体的,在选择舵角后结合速度v更新航向角ψ、x...

【专利技术属性】
技术研发人员:张浩李佳文姜鑫吴志伟黄乔裕郑任楷张益锟詹俊权阮俊诚邓文博徐明
申请(专利权)人:广东海洋大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1