【技术实现步骤摘要】
本专利技术涉及机器学习相关,尤其涉及基于rrt算法的无人水面艇强化学习路径规划方法及装置。
技术介绍
1、在现有强化学习无人水面艇路径规划算法中,是通过无人水面艇与环境的交互学习来找到最优策略的方法。在路径规划中,强化学习可以通过试错和奖励机制,使无人水面艇逐步优化路径选择,以达到预定的目标,具有几种算法,如q-learning,deep q-networks(dqn),proximal policy optimization(ppo),q-learning是一种经典的强化学习算法,它通过建立一个状态-动作值函数(q函数),并利用贝尔曼方程更新q值来评估和优化路径选择策略,dqn是一种结合了深度神经网络和q-learning的强化学习算法。它使用深度神经网络来估计q值函数,通过经验回放和目标网络更新来提高学习的稳定性和效果,ppo是一种基于策略优化的强化学习算法。它通过优化策略函数来寻找最优路径选择策略, 同时使用重要性采样和剪切项来保持算法的稳定性。通过使用算法,得到船舶从起点到终点的最短的路径。
2、rrt(rapidl
...【技术保护点】
1.基于RRT算法的无人水面艇强化学习路径规划方法,其特征在于,包括以下:
2.根据权利要求1所述的基于RRT算法的无人水面艇强化学习路径规划方法,其特征在于,具体的,基于RRT算法对无人水面艇于目标环境中进行规划得到第一路径,包括,
3.根据权利要求1所述的基于RRT算法的无人水面艇强化学习路径规划方法,其特征在于,具体的,对所述第一路径中的每个节点,通过计算奖励的方式进行训练确定该节点的无人水面艇自动操作策略,包括,
4.根据权利要求3所述的基于RRT算法的无人水面艇强化学习路径规划方法,其特征在于,具体的,在选择舵角后结合速度
...【技术特征摘要】
1.基于rrt算法的无人水面艇强化学习路径规划方法,其特征在于,包括以下:
2.根据权利要求1所述的基于rrt算法的无人水面艇强化学习路径规划方法,其特征在于,具体的,基于rrt算法对无人水面艇于目标环境中进行规划得到第一路径,包括,
3.根据权利要求1所述的基于rrt算法的无人水面艇强化学习路径规划方法,其特征在于,具体的,对所述第一路径中的每个节点,通过计算奖励的方式进行训练确定该节点的无人水面艇自动操作策略,包括,
4.根据权利要求3所述的基于rrt算法的无人水面艇强化学习路径规划方法,其特征在于,具体的,在选择舵角后结合速度v更新航向角ψ、x...
【专利技术属性】
技术研发人员:张浩,李佳文,姜鑫,吴志伟,黄乔裕,郑任楷,张益锟,詹俊权,阮俊诚,邓文博,徐明,
申请(专利权)人:广东海洋大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。