一种面向博弈的雷达对抗策略生成方法技术

技术编号：24499455 阅读：65 留言：0更新日期：2020-06-13 04:25

本发明专利技术提出了一种面向博弈的雷达对抗策略生成方法，步骤包括：设定对抗场景：设置雷达和干扰系统为两个玩家，构建雷达对抗博弈树，每个玩家设置遗憾值和对抗策略两种神经网络和对应的缓存区，初始化神经网络参数；在迭代次数内遍历K次博弈树，交替训练雷达和干扰方，用遗憾值缓存区数据训练遗憾值神经网络，之后用收集到的对抗策略缓存区数据训练雷达和干扰方的对抗策略神经网络，直到对抗策略神经网络收敛。本发明专利技术相比于雷达对抗静态博弈研究，构建了不完全信息的动态博弈模型，并在双方均为智能的情况下，使用神经网络近似求解了雷达和干扰系统博弈的纳什均衡，通过多次动态的迭代更新得到了各自的纳什均衡策略。

A game oriented method of radar countermeasure strategy generation

全部详细技术资料下载

【技术实现步骤摘要】
一种面向博弈的雷达对抗策略生成方法
本专利技术涉及雷达电子对抗、博弈论和人工智能的交叉
，具体涉及一种面向博弈的雷达对抗策略生成方法。
技术介绍
人工智能技术在电子对抗领域的应用越来越深入，雷达对抗也趋于智能化，雷达与干扰系统双方均发展出了具有自适应甚至认知能力的智能算法，从双方动态博弈的角度研究雷达电子对抗问题是重要的发展方向。目前认知电子对抗领域主要关注雷达或干扰方单方面的智能算法研究，如认知雷达的波形优化、目标检测、识别与跟踪技术；以及干扰方的自适应干扰决策、干扰效果评估技术等。当前的干扰对抗策略生成，只关注单方的算法的优化，如使用强化学习的方法，通过多次的对抗交互，生成自身的最优策略，该方法并没有考虑到雷达方本身策略变化的情况，而随着双方系统的不断智能化，仅关注单方的策略是远远不够的，要同时考虑到对手的策略变化，才能得到更加有效的策略。博弈论是研究两人或多人谋略和决策的理论。双人零和博弈指的是两个玩家进行对抗，且这两个玩家的收益总和为零的博弈。双人零和博弈的求解目标是求解纳什均衡，即一种平衡状态...

【技术保护点】
1.一种面向博弈的雷达对抗策略生成方法，其特征在于，具体步骤如下：/n步骤1：将雷达和干扰系统看作博弈的两个玩家，设定对抗场景：设定雷达有N

【技术特征摘要】
1.一种面向博弈的雷达对抗策略生成方法，其特征在于，具体步骤如下：
步骤1：将雷达和干扰系统看作博弈的两个玩家，设定对抗场景：设定雷达有Nradar个工作状态，干扰方有Njam个干扰样式，设定雷达工作状态转换回报表，从根节点root出发构建雷达对抗博弈树，设置Ninfo个节点需要得出对抗策略，每个节点设置其对应的玩家信息集I，每个节点有唯一且固定的玩家做出选择动作，每个可选动作用ai，i＝1，2，…，n表示，n是可选动作数量，用Il，l＝1，…Ninfo表示需要得出对抗策略的节点的信息集，在树的每个终止节点根据状态转换回报表设置雷达和干扰系统的效用值；
设定迭代次数Niter和每次迭代中博弈树从root节点开始的遍历次数K，设定对抗策略神经网络的训练频率Ns，设定神经网络的训练次数Nnn，设置判断对抗策略是否收敛的阈值θ；
每个玩家设置遗憾值和对抗策略两种神经网络，每个神经网络均有相应的训练样本缓存区，记为和设置对抗策略向量缓存区M，缓存区存储的内容为(Il，[d(Il，a1)，…，d(Il，an)]or[s(Il，a1)，…，s(Il，an)]，t)，神经网络的输入是Il，输出为神经网络计算得到的预测遗憾值向量或预测对抗策略向量训练开始前清空缓存区和M，初始化神经网络参数，令t＝1，跳转步骤2；
其中，训练频率Ns表示训练Ns次遗憾值神经网络后，训练1次对抗策略神经网络且满足Niter％Ns＝0；上标r和s分别代表遗憾值(regret)和对抗策略(strategy)，下标0和1分别代表雷达和干扰系统；缓存区内容：Il表示博弈树需要得出对抗策略的节点对应的信息集，d(Il，ai)，i＝1，…，n是遗憾值，表示当前信息集Il下采取动作ai的遗憾值，是神经网络预测的遗憾值，s(Il，ai)，i＝1，…，n是对抗策略，表示在当前信息集下采取动作ai的概率，是神经网络预测的对抗策略，t是当前博弈所处的迭代次数，u(Il，ai)，i＝1，…，n表示信息集Il下动作ai的效用值；
步骤2：选择当前玩家p＝t％2，每次迭代过程从root节点开始遍历K次雷达对抗博弈树，每遍历到一个需要得出对抗策略的节点，若该节点对应的信息集Il所属玩家为本次迭代的当前玩家p，输入信息集Il，根据玩家p的遗憾值神经网络得到预测遗憾值向量根据来计算该信息集的对抗策略向量[s(Il，a1)，…，s(Il，an)]，再通过遍历过程中得到的效用值和对抗策略向量累计得到遗憾值向量[d(Il，a1)，…，d(Il，an)]，将该信息集节点Il、遗憾值向量[d(Il，a1)，…，d(Il，an)]和当前迭代次数t存入当前玩家p的遗憾值缓存区
若该信息集Il所属玩家为1-p，即非本次迭代的当前玩家，则输入该信息集Il，求其在玩家1-p的遗憾值神经网络的输出根据来计算该信息集的对抗策略[s(Il，a1)，…，s(Il，an)]，并将该信息集Il、对抗策略[s(Il，a1)，…，s(Il，an)]和当前迭代次数t存入玩家1-p的对抗策略缓存区
从root节点开始遍历K次博弈树之后，即1次迭代过程之后，根据当前玩家p的遗憾值缓存区中的数据训练Nnn次当前玩家的遗憾值神经网络，使输出的向量与期望向量[d(Il，a1)，…，d(Il，an)]尽可能地接近，即遗憾值神经网络损失函数Lr越来越接近0；
迭代Ns次后，即满足t％Ns＝0时，跳转步骤3；
步骤3：利用两个对抗策略缓存区的数据训练更新Nnn次两个对抗策略神经网络，使输出的向量与期望向量[s(Il，a1)，…，s(Il，an)]尽可能地接近，即对抗策略神经网络损失函数Ls越来越接近0；
将需要得出对抗策略的每个节点对应的信息集Il，l＝1，…，Ninfo输入至其对应玩家的对抗策略网络，并将得到的Ninfo组对抗策略存放至缓存区M；
若步骤2的累计迭代次数未达到Niter，则回到步骤2再...

【专利技术属性】
技术研发人员：杨健，王沙飞，李岩，肖德政，田震，张丁，
申请(专利权)人：中国人民解放军三二八零二部队，北京理工大学，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人