一种无人艇集群对抗的策略生成方法技术

技术编号:43086095 阅读:10 留言:0更新日期:2024-10-26 09:35
本发明专利技术公开了一种无人艇集群对抗的策略生成方法,包括以下步骤:建立面向场景的马尔科夫决策过程;每个无人艇i采用增量式方式学习与其协作的无人艇的知识;综合两次学习优化后的奖励,修正每个无人艇的策略;使用参数化的神经网络表示无人艇的策略,然后利用Actor‑Critic的学习方式最大化Q函数,从而学习到最优策略;输出最优策略,各无人艇按照最优策略采取行动。本申请面向无人场景态势不断变化演进,满足多无人艇联合策略的需求;无人艇通过两阶段增量式学习其它无人艇的知识,修正直接由协同决策提供的原始策略,更贴近于实际场景态势。

【技术实现步骤摘要】

本专利技术属于智能控制,尤其涉及一种无人艇集群对抗的策略生成方法


技术介绍

1、智能体(无人机或无人艇等)集群对抗场景迁移能力弱。强化学习具有高样本复杂度的特性,无人艇往往需要经过很长时间的训练和探索才能在某项任务上表现出色,但这只局限于单一的场景。而实际场景存在一定的突发性和不确定性,例如对方可能突然调整行动模式,对抗区域信息未知等,若再根据新的环境状态重新训练,往往会错失重要的机会。尤其是当我方集群数目少于对方,对无人艇应对突发状况和未知环境的能力有更大的要求,一些不可预测的情况很难在前期训练时就得以解决。如何利用已有环境中训练出的策略,有效调动无人艇群集合完成任务,并针对不同的场景和突发的变故做出应对,自适应的调整自身策略以应对实际情况成为一大挑战。

2、无人艇集群对抗面临环境变化快的挑战,而不同的环境对系统间各个无人艇的影响也难以预测,除了会对无人艇自身的决策产生影响,还可能使无人艇之间的信息交互变得不稳定,进而影响无人艇的决策。此外,无人艇集群自身也面临着结构变化的风险,根据场景或任务需求的不同,集群中可能随时会有新的无人艇加入或者本文档来自技高网...

【技术保护点】

1.一种无人艇集群对抗的策略生成方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的无人艇集群对抗的策略生成方法,其特征在于,

3.根据权利要求2所述的无人艇集群对抗的策略生成方法,其特征在于,所述第二集合包含第一集合,对于第二集合与第一集合不同的无人艇,如果从第一集合中无人艇最大化得到的奖励值大于第一阈值,则从第一集合之外的无人艇中,选取与第一集合中无人艇的价值相似度大于第二阈值的无人艇加入第二集合中,否则,随机选取一个无人艇加入第二集合中。

4.根据权利要求3所述的无人艇集群对抗的策略生成方法,其特征在于,所述相似度的计算采用余弦相似度公式计...

【技术特征摘要】

1.一种无人艇集群对抗的策略生成方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的无人艇集群对抗的策略生成方法,其特征在于,

3.根据权利要求2所述的无人艇集群对抗的策略生成方法,其特征在于,所述第二集合包含第一集合,对于第二集合与第一集合不同的无人艇,如果从第一集合中无人艇最大化得到的奖励值大于第一阈值,则从第一集合之外的无人艇中,选取与第一集合中无人艇的价值相似度大于第二阈值的无人...

【专利技术属性】
技术研发人员:黄魁华张勇吴克宇程光权黄金才杜航廖世江
申请(专利权)人:中国人民解放军国防科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1