一种无人舰艇协同巡航的路径规划方法技术

技术编号:36743148 阅读:49 留言:0更新日期:2023-03-04 10:22
本公开是关于一种无人舰艇协同巡航的路径规划方法,包括:构建无人舰艇协同巡航的路径规划系统模型;利用深度确定性策略梯度算法对该无人舰艇协同巡航的路径规划系统模型进行训练;在训练过程中引入加权目标函数和双延迟网络,同时将得到的训练结果进行更新,得到多个无人舰艇的协同巡航策略;将得到的多个无人舰艇的协同巡航策略部署于真实任务环境中。该方法能够缓解深度确定性策略梯度算法训练过程中的值函数过估计问题,又避免了低估计问题,提升了算法的最终性能,提高了无人舰艇协同巡航策略的效率和质量。同巡航策略的效率和质量。同巡航策略的效率和质量。

【技术实现步骤摘要】
一种无人舰艇协同巡航的路径规划方法


[0001]本公开涉及军事信息
,尤其涉及一种无人舰艇协同巡航的路径规划方法。

技术介绍

[0002]无人舰艇作为未来智能化无人化作战中一支重要的组成力量,在未来海战中将发挥至关重要的作用。随着越来越多的无人舰艇参与到更为复杂的军事任务中,人们对无人舰艇的自主化要求也逐渐提高。在无人舰艇的自主系统中加入人工智能技术,能够使无人舰艇执行更为复杂的任务,增加了其自主权和自协同能力。
[0003]现有的无人舰艇协同巡航路径规划中采用的深度强化学习方法虽然已经能够有效解决无人舰艇在面临高纬度、高动态战场环境下协同巡航问题,更加契合无人作战平台路径规划任务的特点和规律。但由于存在值函数过估计问题,会直接导致在较为复杂的任务环境中,无人舰艇无法高效、合理的进行路径规划。因此,如何合理利用有限的计算资源,缓解值函数过估计问题,改善算法的最终性能,使其高效的进行路径规划,提高无人舰艇在复杂环境下协同巡航的效率和质量成为了亟待解决的问题。
[0004]因此,有必要改善上述相关技术方案中存在的一个或者多个问题,以提高导航系统全局估计精度和系统容错性能。
[0005]需要说明的是,在上述
技术介绍
部分公开的信息仅用于加强对本公开的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。

技术实现思路

[0006]本公开实施例的目的在于提供一种无人舰艇协同巡航的路径规划方法,该方法能够缓解值函数过估计问题,并提高无人舰艇协同巡航的效率和质量。r/>[0007]本公开实施例提供一种无人舰艇协同巡航的路径规划方法,该方法包括以下步骤:
[0008]构建无人舰艇协同巡航的路径规划系统模型,所述无人舰艇协同巡航的路径规划系统模型包括多个无人舰艇在任意时刻的状态集合,多个所述无人舰艇在任意时刻的动作集合,以及多个所述无人舰艇得到的环境反馈;
[0009]利用深度确定性策略梯度算法对所述无人舰艇协同巡航的路径规划系统模型进行训练;在训练过程中引入加权目标函数和双延迟网络,同时将得到的训练结果进行更新,得到多个所述无人舰艇的协同巡航策略;
[0010]将得到的多个所述无人舰艇的协同巡航策略部署于真实任务环境中。
[0011]本公开的一示例性实施例中,构建无人舰艇协同巡航的路径规划系统模型的步骤包括:多个所述无人舰艇在任意时刻t的环境状态集合s
t
;多个所述无人舰艇根据所述环境状态集合s
t
中各自对应的状态做出的相应动作组成的动作集合a
t
;以及多个所述无人舰艇得到的环境反馈r
t

[0012]本公开的一示例性实施例中,所述环境状态集合s
t
的公式包括:
[0013]s
t
={(x1,y1),(x2,y2),(x3,y3),...,(x
n
,y
n
)}
[0014]其中,x和y分别表示每个无人舰艇的状态的横坐标和纵坐标,x∈[0,10000],y∈[0,10000];n表示无人舰艇的编号。
[0015]本公开的一示例性实施例中,所述动作集合a
t
的公式包括:
[0016]a
t
={move1,move2,move3,move4,move5,move6,move7,move8}
[0017]其中,move1表示无人舰艇的机动动作向正东方向前进;move2表示无人舰艇的机动动作向东南方向前进;move3表示无人舰艇的机动动作向正南方向前进;move4表示无人舰艇的机动动作向西南方向前进;move5表示无人舰艇的机动动作向正西方向前进;move6表示无人舰艇的机动动作向西北方向前进;move7表示无人舰艇的机动动作向正北方向前进;move8无人舰艇的机动动作向东北方向前进;机动动作的取值范围包括move∈[0,50],0表示无动作。
[0018]本公开的一示例性实施例中,所述环境反馈r
t
包括无人舰艇到达任一地点的奖励、无人舰艇碰到障碍的惩罚、无人舰艇触碰边界的惩罚和无人舰艇相碰的惩罚。
[0019]本公开的一示例性实施例中,利用深度确定性策略梯度算法对所述无人舰艇协同巡航的路径规划系统模型进行训练;并引入加权目标函数和双延迟网络,将得到的训练结果进行更新,得到多个所述无人舰艇的协同巡航策略的步骤中,所述无人舰艇协同巡航的路径规划系统模型的训练过程中包括多个参数,多个所述参数包括:
[0020]多个评价网络,多个所述评价网络包括Q(s
t
,a
t
|θ1),Q(s
t
,a
t
|θ2),Q(s
t
,a
t
|θ3);
[0021]一个行动网络u
φ

[0022]多个目标评价网络,多个所述目标评价网络包括
[0023]一个目标行动网络u
φ'

[0024]记忆存储单元R,所述记忆存储单元R的容量为m;折扣系数为γ,批处理容量大小为C,截断系数为η,权重稳定系数为β;参数复制间隔为d,参数复制系数为τ,噪声为ε,循环次数为T。
[0025]本公开的一示例性实施例中,利用深度确定性策略梯度算法对所述无人舰艇协同巡航的路径规划系统模型进行训练;在训练过程中引入加权目标函数和双延迟网络,同时将得到的训练结果进行更新,得到多个所述无人舰艇的协同巡航策略的过程包括:
[0026]将多个所述参数初始化;
[0027]为动作a
t
选择初始化所述噪声ε,所述噪声ε服从分布,其中,~表示服从的意思;clip表示裁剪;表示正态分布;
[0028]初始化时刻t=1,接受无人舰艇的初始状态s1;
[0029]根据所述行动网络u
φ
和所述噪声ε,得到无人舰艇选择的动作a
t
为a
t
=u
φ
(s)+ε;
[0030]执行所述动作a
t
,观察新的环境状态s
t

,得到所述环境反馈r
t

[0031]向所述记忆存储单元R中存储所述环境反馈r
t
的奖励组(s
t
,a
t
,s
t

,r
t
);
[0032]从所述记忆存储单元R中进行随机采样,得到采样组数据(s
i
,a
i
,s
i

,r
i
),i=1,2,...,C;
[0033]选择下一时刻所述动作a
t+1
=u
φ'
(r
t
)+ε;
[0034]令<本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种无人舰艇协同巡航的路径规划方法,其特征在于,包括以下步骤:构建无人舰艇协同巡航的路径规划系统模型,所述无人舰艇协同巡航的路径规划系统模型包括多个无人舰艇在任意时刻的状态集合,多个所述无人舰艇在任意时刻的动作集合,以及多个所述无人舰艇得到的环境反馈;利用深度确定性策略梯度算法对所述无人舰艇协同巡航的路径规划系统模型进行训练;在训练过程中引入加权目标函数和双延迟网络,同时将得到的训练结果进行更新,得到多个所述无人舰艇的协同巡航策略;将得到的多个所述无人舰艇的协同巡航策略部署于真实任务环境中。2.根据权利要求1所述无人舰艇协同巡航的路径规划方法,其特征在于,构建无人舰艇协同巡航的路径规划系统模型的步骤包括:多个所述无人舰艇在任意时刻t的环境状态集合s
t
;多个所述无人舰艇根据所述环境状态集合s
t
中各自对应的状态做出的相应动作组成的动作集合a
t
;以及多个所述无人舰艇得到的环境反馈r
t
。3.根据权利要求2所述无人舰艇协同巡航的路径规划方法,其特征在于,所述环境状态集合s
t
的公式包括:s
t
={(x1,y1),(x2,y2),(x3,y3),...,(x
n
,y
n
)}其中,x和y分别表示每个无人舰艇的状态的横坐标和纵坐标,x∈[0,10000],y∈[0,10000];n表示无人舰艇的编号。4.根据权利要求3所述无人舰艇协同巡航的路径规划方法,其特征在于,所述动作集合a
t
的公式包括:a
t
={move1,move2,move3,move4,move5,move6,move7,move8}其中,move1表示无人舰艇的机动动作向正东方向前进;move2表示无人舰艇的机动动作向东南方向前进;move3表示无人舰艇的机动动作向正南方向前进;move4表示无人舰艇的机动动作向西南方向前进;move5表示无人舰艇的机动动作向正西方向前进;move6表示无人舰艇的机动动作向西北方向前进;move7表示无人舰艇的机动动作向正北方向前进;move8无人舰艇的机动动作向东北方向前进;机动动作的取值范围包括move∈[0,50],0表示无动作。5.根据权利要求4所述无人舰艇协同巡航的路径规划方法,其特征在于,所述环境反馈r
t
包括无人舰艇到达任一地点的奖励、无人舰艇碰到障碍的惩罚、无人舰艇触碰边界的惩罚和无人舰艇相碰的惩罚。6.根据权利要求2所述无人舰艇协同巡航的路径规划方法,其特征在于,利用深度确定性策略梯度算法对所述无人舰艇协同巡航的路径规划系统模型进行训练;并引入加权目标函数和双延迟网络,将得到的训练结果进行更新,得到多个所述无人舰艇的协同巡航策略的步骤中,所述无人舰艇协同巡航的路径规划系统模型的训练过程中包括多个参数,多个所述参数包括:多个评价网络,多个所述评价网络包括Q(s
t
,a
t
|θ1),Q(s
t
,a
t
|θ2),Q(s
t
,a
t
|θ3);一个行动网络u
φ
;多个目标评价网络,多个所述目标评价网络包括一个目标行动网络u
φ'
;记忆存储单元R,所述记忆存储单元R的容量为m;折扣系数为γ,批处理容量大小为C,
截断系数为η,权重稳定系数为β;参数复制间隔为d,参数复制系数为τ,噪声为ε,循环时间为T。7.根据权利要求6所述无人舰艇协同巡航的路径规划方法,其特征在于,利用深度确定性策略梯度算法对所述无人舰艇协同巡航的路径规划系统模型进行训练;在训练过程中引入加权目标函数和双延迟网络,同时将得到的训练结果进行更新,得到多个所述无人舰艇的协同巡航策略的过程包括:将多个所述参数初始化;为动作a
t
选择初始化所述噪声ε,所述噪声ε服从分布,其中,~表示服从的意思;clip表示裁剪;表示正态分布;初始化时刻t=1,接受无人舰艇的初始状态...

【专利技术属性】
技术研发人员:徐志雄李爱玲陈希亮苟小涛李子敬井塬塬王婧李方
申请(专利权)人:中国人民解放军陆军边海防学院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1