一种基于深度强化学习的无人船艇编队路径跟踪方法技术

技术编号:25707540 阅读:49 留言:0更新日期:2020-09-23 02:54
本发明专利技术公开了一种基于深度强化学习的无人船艇编队路径跟踪方法,包括无人船艇航行环境探索、奖励函数设计、编队队形保持、随机制动机制以及路径跟踪,无人船艇航行环境探索采用多艇同时探索,提取环境信息,奖励函数设计包括针对编队队形组成情况和路径跟踪误差的设计,随机制动机制可以优化深度强化学习的训练过程,编队队形保持通过编队队形控制策略实现,路径跟踪是通过领导者‑跟随者编队控制策略控制无人船艇沿预设路径运动,通过不断更新无人船艇的位置,从而使编队中所有无人船艇实现路径跟踪,本发明专利技术通过协同探索策略加速训练无人船艇路径点跟踪模型,并与领导者‑跟随者编队控制策略结合,形成无人船艇编队路径跟踪方法。

【技术实现步骤摘要】
一种基于深度强化学习的无人船艇编队路径跟踪方法
本专利技术属于无人船艇编队路径跟踪控制领域,尤其涉及一种基于深度强化学习的无人船艇编队路径跟踪方法。
技术介绍
无人船艇具有灵活、高速的特点,常被用于执行一些无人的任务,如海洋测绘、气象监视、环境监测等方面。近年来,无人船艇的相关研究和技术有了很大的发展。同时,后续的多欠驱动无人船艇编队路径跟踪也逐渐引起广泛关注。多无人船艇编队在搜救、侦察、数据收集、海洋清理等方面可发挥重要作用。路径跟踪是无人船艇控制中的基本问题之一。无人船艇编队路径跟踪的主要目的是使多艘无人船艇保持一定的编队队形沿预设路径航行。与此同时,强化学习技术在人工智能、机器学习和自动控制等领域中得到了广泛的研究和应用,并被认为是设计智能系统的核心技术之一。随着机器学习领域的技术突破,相关人员开展了大量的强化学习与深度学习相结合的研究。因此,如何实现基于深度强化学习的无人船艇编队路径跟踪是目前亟需解决的技术难题。
技术实现思路
针对现有技术的以上缺陷或改进需求,本专利技术提出了一种基于深度强化学习的无人船艇编本文档来自技高网...

【技术保护点】
1.一种基于深度强化学习的无人船艇编队路径跟踪方法,其特征在于,包括:/nS1:构建决策神经网络模型;/nS2:根据多艇同时探索,提取航行水域环境信息,并储存经验数据;/nS3:从储存的经验数据中选取训练数据训练所述决策神经网络模型,并采用随机制动机制优化深度强化学习的训练过程,获取无人船艇编队队形保持能力;/nS4:基于协同探索的决策神经网络模型控制无人船艇沿预设路径运动,并通过不断更新无人船艇的位置,从而使编队中所有无人船艇实现路径跟踪;/nS5:按照路径跟踪控制无人船艇队形移动,使无人船艇保持跟踪队形,实现编队路径跟踪。/n

【技术特征摘要】
1.一种基于深度强化学习的无人船艇编队路径跟踪方法,其特征在于,包括:
S1:构建决策神经网络模型;
S2:根据多艇同时探索,提取航行水域环境信息,并储存经验数据;
S3:从储存的经验数据中选取训练数据训练所述决策神经网络模型,并采用随机制动机制优化深度强化学习的训练过程,获取无人船艇编队队形保持能力;
S4:基于协同探索的决策神经网络模型控制无人船艇沿预设路径运动,并通过不断更新无人船艇的位置,从而使编队中所有无人船艇实现路径跟踪;
S5:按照路径跟踪控制无人船艇队形移动,使无人船艇保持跟踪队形,实现编队路径跟踪。


2.根据权利要求1所述的方法,其特征在于,步骤S2包括:
通过所述决策神经网络模型输出动作,并将相关状态、动作、奖励保存到经验池中,然后从所述经验池中选择经验数据形成训练数据集,在采用所述训练数据集训练所述决策神经网络模型时,每个无人船艇从不同的初始状态开始探测,并将探测的运动状态存入所述经验池中。


3.根据权利要求2所述的方法,其特征在于,奖励函数考虑了无人船艇速度的同时,最大化无人船艇驶向参考坐标点的航向速度,最小化无人船艇横向偏移速度,将无人船艇与参考点之间的距离视为奖励函数的设计因子。


4.根据权利要求3所述的方法,其特征在于,由R=kvRv+kdRd设计奖励函数,其中,Rv表示无人船艇的速度,Rd表示无人船艇与参考点的距离,kv和kd是速度和距离的权重。


5.根据权利要求1至4任意一项所述的方法,其特征在于,步骤S3包括:
基于DDPG算法对所述决策神经网络模型进行训练,在训练过程中将OU过程引入到DDPG中来探索环境,当所述决策神经网络模型做出决策和输出动作at=μ(st)时,由随机过程产生的动作噪声的平均值为0,at表示神经网络输出的动作,μ(st)表示神经网络决策策略,st表示t时刻输入神经网络的状态输入,ano-brake表示神...

【专利技术属性】
技术研发人员:马勇赵玉蛟李昊
申请(专利权)人:武汉理工大学
类型:发明
国别省市:湖北;42

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1