一种基于博弈论的AUV水下集群攻防优化方法技术

技术编号:35037926 阅读:35 留言:0更新日期:2022-09-24 23:15
本发明专利技术公开了一种基于博弈论的AUV水下集群攻防优化方法,包括如下步骤:(1)、根据情景建立二维围捕或对抗模拟环境框架;(2)、让智能体与模拟环境进行实时交互产生数据,将产生的数据存入经验回放池直至填满;(3)、待经验回放池数据存储达到上限,采用GRU单元的值函数分解算法对智能体进行训练;(4)、将训练好的智能体放入环境中进行交互,得出训练结果。本发明专利技术解决了传统算法不能较好收敛的问题,针对传统协同对抗问题需要根据任务选择不同算法的局限,改进后的算法则具有较强的通用性,可以在不同的任务中使用,并都可以获得不错的效果。并都可以获得不错的效果。并都可以获得不错的效果。

【技术实现步骤摘要】
一种基于博弈论的AUV水下集群攻防优化方法


[0001]本专利技术涉及计算机算法领域,尤其涉及一种基于博弈论的AUV水下集群攻防优化方法。

技术介绍

[0002]自主式水下机器人(Autonomous Underwater Vehicle,AUV)凭借着其成本效益高、机动性强、部署灵活以及能独立完成水下自主任务等特点成为各国研究的热点。目前,单AUV能在水下执行各种任务,如资源勘探,水下通信,侦察与反侦察,但在面对复杂作战任务时,单AUV的作战性能就急剧下降。例如,如果要在海底对不明高速移动物体进行捕获,单AUV就只能凭借自身的基础性能来对目标进行追击。如果在性能上不占优势,捕获任务几乎不可能完成。要解决这类问题,就需要在AUV硬件性能或围捕策略上进行研究。在不增加额外成本的前提下,要克服AUV单体性能不足的缺陷,使用集群攻防优化算法是目前较为理想的选择。
[0003]近年来的研究,考虑到陆地和空中通信条件较为良好和智能体易于控制等相关因素,陆地或空中智能体的相关集群攻防文献较为丰富,而水下AUV集群攻防的研究则相对滞后。所以研究水下集群攻防策略对未来增强国家海洋实力有着极为深远的战略意义。
[0004]为了合理给这些AUV配置任务,在过去人们通常采用传统的协同控制方法。传统的无人机协同控制方法包括精确的优化算法和启发式算法,精确的优化算法如分支定界法(BAB)、动态规划(DP)能够获得较为精确的结果。然而当问题变得复杂起来时,如约束条件增大,求解难度便会迅速增大。传统的启发式算法,如基于鸟类觅食现象提出了粒子群优化算法(PSO),如对蚂蚁在觅食时会在身后留下信息素以供后续觅食蚂蚁导航的现象提出了蚁群算法(ACO)和受到达尔文生物进化论的启发提出的遗传算法(GA)。尽管这些算法能够在一定程度上减少运算量,但在面对复杂环境,这类算法的效果依旧不理想。
[0005]综上所述,以上所用方法是目前解决AUV集群攻防问题中普遍认可的,较优的算法,但是传统算法存在容易进入局部最优解,收敛性较差和搜寻结果稳定性差的问题。基于此提出的基于博弈论的AUV水下集群攻防优化算法,使用的经验回放结构扩充了训练算法所需的数据量,消除训练数据之间的连续性,进而满足监督学习中样本独立同分布的要求,加快了智能体的训练速度。而GRU单元的引入则给智能体带来了记忆,智能体根据上一时刻的内容能够更好的判断自身所处位置和状态,弥补因部分观测而导致的对环境信息的缺失,从而做出更好的决策。

技术实现思路

[0006]本专利技术的目的是解决现有AUV集群攻防中存在的容易陷入局部最优解的缺陷,而提出一种基于博弈论的AUV水下集群攻防优化方法。
[0007]对于AUV的集群攻防优化问题,针对传统算法在优化时需要人工制定约束条件和求解复杂度过大的问题,采用了值函数分解的强化学习算法进行了优化研究。将连续协同
对抗过程离散化并简化为围捕和对抗过程,接着介绍了在二维格子世界中建立的围捕和对抗环境。针对以上环境,提出一种基于经验重放和GRU单元的改进值函数分解算法,并将它与仿真环境结合。仿真结果表明,改进的算法面对简单的围捕和对抗环境都能够学习到较好的策略,具有一定的通用性。
[0008]为了实现上述目的,本专利技术技术方案如下:
[0009]一种基于博弈论的AUV水下集群攻防优化方法,包括如下步骤:
[0010](1)、根据情景建立二维围捕或对抗模拟环境框架;
[0011]二维围捕和对抗环境框架,采用栅格法将智能体工作的空间分割为网格,智能体收集到的信息会反映在网格上,然后根据网格的连同状态来确定所要到达的目标网格的最优路径。
[0012]在常用的空间移动环境模型中,选择出具有简单、容易表达和灵活等优点的栅格法,并对栅格属性进行定义,确定哪些栅格是障碍物以及可移动的空间。
[0013](2)、让智能体与模拟环境进行实时交互产生数据,将产生的数据存入经验回放池直至填满;
[0014]所述步骤(2)中的经验回放池,是在程序中建立一个容量为N的双向数组来存取智能体与环境交互时产生的数据(s
t
,a
t
,r
t
,s
t+1
),被称为经验回放数组。在数组收集完足够的数据后,才会开始网络参数的优化。在优化过程中,算法会在经验回放池中随机抽取一个批次大小的数据来进行参数更新。使用经验回放这个技巧,满足了马尔科夫决策过程对数据独立同分布的需求,也扩充了数据量。
[0015](3)、待经验回放池数据存储达到上限,采用GRU单元的值函数分解算法对智能体进行训练;
[0016](4)、最终将训练好的智能体放入环境中进行交互,再把交互的结果与传统的算法进行对比,进行分析;分析完成后,比较差异性和稳定性;得出基于博弈论的AUV水下集群攻防优化方法获得更优的结果。
[0017]算法采用GRU单元的值函数分解算法对智能体进行训练,给智能体引入记忆,以便更好的获取对于环境的知识。其整体运行框架如图2所示。
[0018]算法允许智能体在训练的时候可以共享观测空间并去共同优化一个全局值函数Q
total
(s,a)。考虑到智能体在运行的时候由于局部观测的局限,并没有办法获得全局的状态,虽然优化了Q
total
(s,a),却无法使用。于是算法假设全局值函数可以被近似分解为每个智能体的单独值函数之和:
[0019][0020]因此,在环境中的每个智能体都拥有其独自的值函数,智能体可以根据自己局部观测来进行决策。这种值函数分解的方法旨在从团队的奖励信号中去学习最优的线性价值分解,通过优化Q
total
(s,a)反向传播梯度给每个分量的值函数。每个智能体学习的值函数只依赖于自身的局部观察,因此可以更容易学习,并且可以单独部署智能体。
[0021]以两个智能体为例给出说明:
[0022][0023]只需要通过神经网络去优化Q
total
(s,a),就可以通过梯度的反向传播就可以更新Q
i
,并通过最大化Q
total
(s,a)来选择联合动作。
[0024]值函数分解算法的网络结构还是基于DQN,包括其目标网络。在传统的强化学习算法中,算法都会给每个状态

动作对分配一个Q表,智能体则在Q表中遍历,选择值最大的状态

动作对来进行更新。但随着状态空间和动作空间的增大,Q表的维护和遍历会有着十分巨大的耗时。于就选择采用值函数近似的方法来近似Q值,这就是DQN算法。
[0025]Q(s,a;θ)≈Q
*
(s,a)
[0026]θ是神经网络的相关参数,Q
*
(s,a)是神经网络需要去近似拟合的最佳动作值函数。
[0027]所以损失函数可以表示为:
[0028][0029]N为batchsize的大小,为目标网络。为了进一本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于博弈论的AUV水下集群攻防优化方法,其特征在于包括如下步骤:(1)、根据情景建立二维围捕或对抗模拟环境框架;(2)、让智能体与模拟环境进行实时交互产生数据,将产生的数据存入经验回放池直至填满;(3)、待经验回放池数据存储达到上限,采用GRU单元的值函数分解算法对智能体进行训练;(4)、最终将训练好的智能体放入环境中进行交互,再把交互的结果与传统的算法进行对比,进行分析;分析完成后,比较差异性和稳定性;得出基于博弈论的AUV水下集群攻防优化方法获得更优的结果。2.根据权利要求1所述的一种基于博弈论的AUV水下集群攻防优化方法,其特征在于:所述步骤(1)中二维围捕和对抗环境框架,采用栅格法将智能体工作的空间分割为网格,智能体收集到的信息会反映在网格上,然后根据网格的连同状态来确定所要到达的目标网格的最优路径。3.根据权利要求1所述的一种基于博弈论的AUV水下集群攻防优化方法,其特征在于:所述步骤(2)中的经验回放池,是在程序中建立一个容量为N的双向数组来存取智能体与环境交互时产生的数据(s
t
,a
t
,r
t
,s
t+1
),被称为经验回放数组。4.根据权利要求3所述的一种基于博弈论的AUV水下集群攻防优化方法,其...

【专利技术属性】
技术研发人员:韩光洁冯子骁王皓
申请(专利权)人:河海大学常州校区
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1