当前位置: 首页 > 专利查询>上海大学专利>正文

基于MADDPG的无人艇集群任务调度与协同对抗方法技术

技术编号:37459732 阅读:17 留言:0更新日期:2023-05-06 09:32
本发明专利技术公开一种基于MADDPG的无人艇集群任务调度与协同对抗方法,涉及无人艇集群博弈对抗技术领域,包括:获取我方艇的我方探测数据和当前动作奖励;基于长短期记忆网络和敌方艇的当前状态集预测敌方艇的下一状态集,然后修正当前动作奖励以得到初次修正奖励值;基于隶属度函数

【技术实现步骤摘要】
基于MADDPG的无人艇集群任务调度与协同对抗方法


[0001]本专利技术涉及无人艇集群博弈对抗
,特别是涉及一种基于MADDPG的无人艇集群任务调度与协同对抗方法。

技术介绍

[0002]随着无人艇在军事、民用两方面表现出来的高效性能,无人艇的应用也逐渐从单个个体扩展为群体协同,在复杂海域环境中无人艇集群需要根据分配的任务进行侦察、勘测和巡逻,对于紧急情况还需进行群体作战与反攻。由于海上的恶劣环境严重影响了无人艇传感器的实时检测和目标识别,导致无法精准判断敌方艇的位置和航速,降低我方艇对敌方各艇的威胁度评估的准确性,使我方艇的任务调度无效。因此,如何在复杂海域中实现实时、精准的预测敌方艇的动作和状态,动态评估敌方艇的威胁程度,完成最优任务调度是目前亟待解决的首要难题。
[0003]现有的任务调度算法均存在任务处理时间长,实时性差及难以均衡多方约束导致陷入局部最优等问题。在处理集群对抗过程中的任务调度问题时,不能结合实际作战情况实时的进行任务分配决策,尚未综合考虑多个敌方目标的威胁程度,也会导致任务分配不当、浪费集体资源。故动态评估敌方艇的威胁程度是为了更好的完成我方艇的任务分配,结合我方艇的勘测范围和任务需求等约束条件,才能对我方艇进行最优的任务调度决策。
[0004]在无人系统集群博弈对抗过程中,通过不断优化我方艇的对抗策略提高我方博弈对抗的胜利率。初期,利用差分博弈或专家经验方法获取集群的最优策略,但该类传统方法的模型计算困难、泛化能力差,环境一旦变化,协同对抗任务便会失败。而其他传统机器学习方法如逻辑回归、支持向量机、决策树、主成分分析法、浅层神经网络等,只适用于简单场景,不能满足复杂海域下集群博弈对抗的要求。目前,主要使用的智能决策方法是强化学习,但是对于环境干扰较大的集群对抗场景中,传统的强化学习方法如DQN算法、DDPG算法、MADDPG算法,仍存在稀疏奖励、算法效率差、训练不稳定及收敛速度慢等问题,因此需要对传统强化学习算法进行改进优化,进一步提高算法的性能和收敛速度,满足集群博弈中的协同对抗要求。

技术实现思路

[0005]本专利技术的目的是提供一种基于MADDPG的无人艇集群任务调度与协同对抗方法,实现多艇对战时的最优任务调度,解决集群系统稳定性、可扩展性差的难题。
[0006]为实现上述目的,本专利技术提供了如下方案:
[0007]一种基于MADDPG的无人艇集群任务调度与协同对抗方法,方法包括:
[0008]构建无人艇集群博弈对抗环境,并确定无人艇集群博弈对抗规则;所述无人艇集群博弈对抗环境中包括我方艇和敌方艇;每个所述我方艇均包括策略网络和评价网络;所述策略网络用于根据我方艇的状态选取我方艇的动作;所述评价网络用于根据我方艇的动作计算我方艇的期望收益;
[0009]针对任一我方艇,获取我方艇的我方探测数据和当前动作奖励;所述我方探测数据包括每个敌方艇的当前状态集;所述当前动作奖励是所述策略网络输出的我方艇的动作的奖励值;
[0010]基于长短期记忆网络和每个敌方艇的当前状态集,预测每个敌方艇的下一状态集,然后根据每个敌方艇的下一状态集修正所述当前动作奖励,以得到初次修正奖励值;
[0011]基于隶属度函数

小波神经网络、每个敌方艇的当前状态集,确定对所述我方艇威胁最大的敌方艇,然后基于对所述我方艇威胁最大的敌方艇修正所述初次修正奖励值,以得到最终奖励值;
[0012]以对我方艇威胁最大的敌方艇为所述我方艇的攻击目标,基于所述无人艇集群博弈对抗规则,确定每艘我方艇的任务分配和调度数据;所述我方艇的任务分配和调度数据包括我方艇的状态集、艇动作集、状态转移模型和累计折扣奖励的衰减系数;所述我方艇的任务分配和调度数据、所述我方艇的最终奖励值构成经验五元组;多艘我方艇对应的经验五元组构成经验池;
[0013]采用优先经验回放方法从所述样本池中筛选数据样本,以得到样本集;
[0014]利用所述样本集对所述评价网络进行训练并进行软更新,以得到我方艇集群的最优调度对抗策略。
[0015]可选地,所述无人艇集群博弈对抗环境中还包括我方艇的预设防守区域;
[0016]所述无人艇集群博弈对抗规则,具体包括:
[0017]当所述敌方艇处于所述我方艇的攻击范围内,且维持第一设定时间,或者,所述敌方艇与所述我方艇的攻击范围之间的距离,大于第一设定距离时,所述我方艇胜利;所述我方艇的攻击范围根据所述我方艇的预设攻击距离和预设攻击夹角确定;
[0018]当所述我方艇处于所述敌方艇的攻击范围内,且维持第二设定时间,或者,所述敌方艇到达所述我方艇的预设防守区域内时,所述敌方艇胜利;所述敌方艇的攻击范围根据所述敌方艇的预设攻击距离和预设攻击夹角确定。
[0019]可选地,所述基于长短期记忆网络和每个敌方艇的当前状态集,预测每个敌方艇的下一状态集,然后根据每个敌方艇的下一状态集修正所述当前动作奖励,以得到初次修正奖励值,具体包括:
[0020]从任一敌方艇的当前状态集中随机选取初始艇状态集;
[0021]将所述初始艇状态集输入至所述策略网络,以得到对应的初始动作;
[0022]获取所述我方艇执行所述初始动作后,得到的更新后艇状态集;
[0023]将所述初始艇状态集输入至长短期记忆网络,以得到下一艇状态集;
[0024]将所述更新后艇状态集与所述下一艇状态集分别进行差分处理,然后利用皮尔逊相关系数法计算差分处理后的所述更新后艇状态集与所述下一艇状态集的相似度;
[0025]基于所述相似度,确定第一奖励修正值;
[0026]将所述第一奖励修正值与所述当前动作奖励相加,以得到初次修正奖励值。
[0027]可选地,所述敌方艇的当前状态集包括敌方艇速度、敌方艇距离我方艇的距离、敌方艇航向角;
[0028]所述基于隶属度函数

小波神经网络、每个敌方艇的当前状态集,确定对所述我方艇威胁最大的敌方艇,具体包括:
[0029]基于预设距离隶属度函数模型对所述敌方艇距离我方艇的距离进行归一化处理、基于预设速度隶属度函数模型对所述敌方艇速度进行归一化处理,以分别得到距离隶属度值和速度隶属度值;
[0030]基于预设航向角对等划分规则,对所述敌方艇航向角进行归一化处理,以得到航向角隶属度值;
[0031]将所述距离隶属度值、所述速度隶属度值和所述航向角隶属度值,均输入至预设的小波神经网络,以得到所述敌方艇的威胁度值;
[0032]对比多个敌方艇的威胁度值,以确定威胁度值最大的敌方艇;所述威胁度值最大的敌方艇为对所述我方艇威胁最大的敌方艇。
[0033]根据本专利技术提供的具体实施例,本专利技术公开了以下技术效果:
[0034]本专利技术公开一种基于MADDPG的无人艇集群任务调度与协同对抗方法,首先构建无人艇集群博弈对抗环境,确定无人艇集群博弈对抗规则;针对任一我方艇,获取我方艇的我方探测数据和当前动作奖本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于MADDPG的无人艇集群任务调度与协同对抗方法,其特征在于,方法包括:构建无人艇集群博弈对抗环境,并确定无人艇集群博弈对抗规则;所述无人艇集群博弈对抗环境中包括我方艇和敌方艇;每个所述我方艇均包括策略网络和评价网络;所述策略网络用于根据我方艇的状态选取我方艇的动作;所述评价网络用于根据我方艇的动作计算我方艇的期望收益;针对任一我方艇,获取我方艇的我方探测数据和当前动作奖励;所述我方探测数据包括每个敌方艇的当前状态集;所述当前动作奖励是所述策略网络输出的我方艇的动作的奖励值;基于长短期记忆网络和每个敌方艇的当前状态集,预测每个敌方艇的下一状态集,然后根据每个敌方艇的下一状态集修正所述当前动作奖励,以得到初次修正奖励值;基于隶属度函数

小波神经网络、每个敌方艇的当前状态集,确定对所述我方艇威胁最大的敌方艇,然后基于对所述我方艇威胁最大的敌方艇修正所述初次修正奖励值,以得到最终奖励值;以对我方艇威胁最大的敌方艇为所述我方艇的攻击目标,基于所述无人艇集群博弈对抗规则,确定每艘我方艇的任务分配和调度数据;所述我方艇的任务分配和调度数据包括我方艇的状态集、艇动作集、状态转移模型和累计折扣奖励的衰减系数;所述我方艇的任务分配和调度数据、所述我方艇的最终奖励值构成经验五元组;多艘我方艇对应的经验五元组构成经验池;采用优先经验回放方法从所述样本池中筛选数据样本,以得到样本集;利用所述样本集对所述评价网络进行训练并进行软更新,以得到我方艇集群的最优调度对抗策略。2.根据权利要求1所述的基于MADDPG的无人艇集群任务调度与协同对抗方法,其特征在于,所述无人艇集群博弈对抗环境中还包括我方艇的预设防守区域;所述无人艇集群博弈对抗规则,具体包括:当所述敌方艇处于所述我方艇的攻击范围内,且维持第一设定时间,或者,所述敌方艇与所述我方艇的攻击范围之间的距离,大于第一设定距离时,所述我方艇胜利;所述我方艇的攻击范围根据所述我方艇的预设攻击距离和预设攻击夹角确定;当所述我方艇处于所述敌方艇的攻击范围内,且维持第二设定时间,或者,所述敌方艇到达所述我方艇的预设防守区域内时,所述敌方艇胜利;所述敌方艇的攻击范围根据所述敌方艇的预设攻击距离和预设攻击夹角确定。3.根据权利要求1所述的基于MADDPG的无人艇集群任务调度与协同对抗方法,其特征在于,所述基于长短期记忆网络和每个敌方艇的当前状态集,预测每个敌方艇的下一状态集,然后根据每个敌方艇的下一状态集修正所述当前动作奖励,以得到初次修正奖励值,具体包括:从任一敌方艇的当前状态集中随机选取初始艇状态集;将所述初始艇状态集输入至所述策略网络,以得到对应的初始动作;获取所述我方艇执...

【专利技术属性】
技术研发人员:宋锐黄梦蝶罗均彭艳
申请(专利权)人:上海大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1