一种面向空中博弈对抗的策略自适应切换方法技术

技术编号：41329207 阅读：2 留言：0更新日期：2024-05-13 15:07

本发明专利技术公开了一种面向空中博弈对抗的策略自适应切换方法，包括首先初始化对抗环境，蓝方智能体按照预设的局次从预先构建的专家策略池中随机选择一种专家策略进行对抗，红方智能体采用预先训练好的通用决策策略进行对抗。本面向空中博弈对抗的策略自适应切换方法采将不同风格的专家策略作为训练对手，通过博弈对抗训练得到专用决策策略以及通用决策策略，提升了决策算法池的丰富度；利用专用决策策略与专家策略进行对抗，并将对抗过程中专家策略的特征‑动作数据对对手策略识别模型进行训练，使得对手策略识别模型能够有效识别对方智能体的策略，并切换对应的策略，避免因对方策略变化导致本机对抗能力下降，进而提高了对抗能力。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于博弈对抗领域，具体涉及一种面向空中博弈对抗的策略自适应切换方法。

技术介绍

1、空中博弈对抗领域作为对抗的焦点，迫切需要快速决策和自主决策。

2、深度强化学习技术作为一类典型的人工智能技术，兼具深度学习对高维态势信息的表征能力和强化学习在决策领域的决策能力，非常适合空中博弈对抗场景。近些年来，基于深度强化学习算法的空中对抗自主决策研究引发了来自学界和业界广泛的关注和研究。然而，现有的面向空中博弈对抗的深度强化学习算法在推理应用时缺乏动态调整能力，即在博弈对抗过程中无法依据对手策略变化情况而自适应切换应对策略，导致其综合对抗能力难以得到保证。

3、目前存在的面向空中博弈对抗的深度强化学习算法在推理应用时的主要缺点是缺乏动态调整能力，即无法在对抗过程中针对不断变化的对手策略进行策略调整，进而导致其对抗能力难以得到保证。

技术实现思路

1、本专利技术的目的在于针对解决
技术介绍
中提出的问题，提出一种面向空中博弈对抗的策略自适应切换方法。

2、为实现上述目的，本专利技术所采取的技术方案为：

3、本专利技术提出的一种面向空中博弈对抗的策略自适应切换方法，包括步骤1、首先初始化对抗环境，蓝方智能体按照预设的局次从预先构建的专家策略池中随机选择一种专家策略进行对抗，红方智能体采用预先训练好的通用决策策略进行对抗；

4、步骤2、根据预设条件判断红蓝双方智能体的对抗是否终止，若终止则结束对抗，若没有终止，则采集对抗过程中蓝方智能

5、步骤3、判断数据缓存池中第一特征-动作数据对集合的个数是否大于预设的第一阈值，若大于第一阈值，则执行步骤4，否则，返回步骤2；

6、步骤4、将各第一特征-动作数据对集合中的特征对应输入至训练好的对手策略识别模型中，得到预测动作，将预测动作与第一特征-动作数据对集合中的动作进行比较，得到各对手策略识别模型的预测准确度，其中各对手策略识别模型基于对应的第二特征-动作数据对集合进行训练，第二特征-动作数据对集合为预先训练好的专用决策策略与专家策略对抗过程中的蓝方智能体的特征-动作数据对集合；

7、步骤5、判断各对手策略识别模型的预测准确度是否存在大于预设的第二阈值，若存在，则执行步骤6，否则清空数据缓存池，返回步骤2；

8、步骤6、筛选出预测准确度最高的对手策略识别模型，然后找到与该对手策略识别模型训练过程中对应的蓝方智能体采用的专家策略，最后将红方智能体的策略替换为预先训练好的能够克制该专家策略的专用决策策略，完成策略的切换。

9、优选地，所述初始化对抗环境，至少包括：

10、初始化红蓝双方智能体对抗的初始位置、高度、速度和角度。

11、优选地，所述专家策略至少包括单边进攻战术、双边进攻战术、交叉进攻战术、夹击进攻战术、防守进攻战术和s型防守战术。

12、优选地，所述通用决策策略训练过程如下：

13、智能体每局随机选择专家策略作为对手进行对抗，直到智能体的通用决策策略达到设定的水平。

14、优选地，所述判断红蓝双方智能体的对抗是否终止的预设条件至少包括：达到对抗的局次。

15、优选地，所述专用决策策略的训练过程如下：

16、智能体依次与每一种专家策略进行对抗，依次得到能够克制对应专家策略的专用决策策略。

17、优选地，各对手策略识别模型的训练过程如下：

18、步骤4.1、将预先训练好的专用决策策略一一对应与相应的专家策略进行n局对抗，并在对抗过程中采集采用专家策略的智能体的第二特征-动作数据对集合，所有的专用决策策略记为专家策略池记为各第二特征-动作数据对集合记作所有第二特征-动作数据对集合记作其中，pi表示第i个专用决策策略，ei表示第i个专家策略，di表示第i个专家策略对抗过程中采集到的第二特征-动作数据对集合，ne表示专家策略池中的专家策略的个数或所有专用决策策略的个数，ni表示第二特征-动作数据对的总数，j表示第j个第二特征-动作数据对，表示第i个专家策略对抗过程中采集到的第j个第二特征-动作数据对中的特征值，且表示d维特征，表示一维特征，表示第i个专家策略对抗过程中采集到的第j个第二特征-动作数据对中的动作值；

19、步骤4.2、对于任意一个第二特征-动作数据对集合di，对其依次进行缺失值和离群点处理，得到训练数据集并且将训练数据集作为一个节点；

20、步骤4.3、首先判断当前节点或划分后的节点是否为待分裂节点，且判断条件包括：该节点中的特征-动作数据对中的动作均属于同一个动作类别、该节点中的特征-动作数据对的数量小于预设的第三阈值和该节点中的特征-动作数据对中的任意一类别的动作大于预设的第四阈值，若满足该三个判断条件中的任意一条，则不是待分裂节点，执行步骤4.7，若都不满足，则是待分裂节点，执行步骤4.4；

21、步骤4.4、将待分裂节点中所有特征-动作数据对中的所有特征分别按照预设的方式设置预设数量的分隔值；

22、步骤4.5、对于待分裂节点中的每一个特征，遍历所有的分隔值，计算每个分隔值的基尼系数值，选择最小的基尼系数值对应的分隔值作为该特征的第一最优分隔值；

23、其中，基尼系数值的计算公式如下：

24、

25、其中，表示以特征fj为划分特征、以为分隔值对待分裂节点进行划分的基尼系数值，v表示基于特征fj和分隔值分隔后得到的子节点的数量，表示待分裂节点中所有特征-动作数据对的数量，表示v中第v个子节点中特征-动作数据对的数量，表示第v个子节点的基尼系数值，|yv|表示第v个子节点中特征-动作数据对中的动作的类别数量，表示在第v个子节点的特征-动作数据对中，属于第k个动作类别的数量在所有动作类别数量中的比例；

26、步骤4.6、然后再遍历待分裂节点中所有特征的第一最优分隔值，从所有的第一最优分隔值对应的基尼系数值中再选择最小的基尼系数值对应的特征和第一最优分隔值作为该待分裂节点的最优特征f*和第二最优分隔值并将最优特征和第二最优分隔值对该待分裂节点进行划分，具体公式如下：

27、

28、其中，f表示训练数据集中所有特征的集合；

29、步骤4.7、重复步骤4.3-4.6，直到无待分裂节点，得到决策树，且将决策树作为训练好的对手策略识别模型。

30、优选地，所述特征-动作数据对中的特征至少包括相对距离、相对角度、相对高度和相对速度，特征-动作数据对中的动作至少包括左切、右切、爬升、俯冲左上飞行、左下飞行、右上飞行、右下飞行和平飞。

31、与现有技术相比，本专利技术的有益效果为：

32、1、本面向空中博弈对抗的策略自适应切换方法采将不同风格的专家策略作为训练对手，通过博弈对抗训练得到专用本文档来自技高网...

【技术保护点】

1.一种面向空中博弈对抗的策略自适应切换方法，其特征在于：所述面向空中博弈对抗的策略自适应切换方法，包括：

2.如权利要求1所述的面向空中博弈对抗的策略自适应切换方法，其特征在于：所述初始化对抗环境，至少包括：

3.如权利要求1所述的面向空中博弈对抗的策略自适应切换方法，其特征在于：所述专家策略至少包括单边进攻战术、双边进攻战术、交叉进攻战术、夹击进攻战术、防守进攻战术和S型防守战术。

4.如权利要求1所述的面向空中博弈对抗的策略自适应切换方法，其特征在于：所述通用决策策略训练过程如下：

5.如权利要求1所述的面向空中博弈对抗的策略自适应切换方法，其特征在于：所述判断红蓝双方智能体的对抗是否终止的预设条件至少包括：达到对抗的局次。

6.如权利要求1所述的面向空中博弈对抗的策略自适应切换方法，其特征在于：所述专用决策策略的训练过程如下：

7.如权利要求1所述的面向空中博弈对抗的策略自适应切换方法，其特征在于：各对手策略识别模型的训练过程如下：

8.如权利要求1所述的面向空中博弈对抗的策略自适应切换方

...

【技术特征摘要】

1.一种面向空中博弈对抗的策略自适应切换方法，其特征在于：所述面向空中博弈对抗的策略自适应切换方法，包括：

2.如权利要求1所述的面向空中博弈对抗的策略自适应切换方法，其特征在于：所述初始化对抗环境，至少包括：

3.如权利要求1所述的面向空中博弈对抗的策略自适应切换方法，其特征在于：所述专家策略至少包括单边进攻战术、双边进攻战术、交叉进攻战术、夹击进攻战术、防守进攻战术和s型防守战术。

4.如权利要求1所述的面向空中博弈对抗的策略自适应切换方法，其特征在于：所述通用决策策略训练过程如下：

5.如权利要求1所述的面向空中博弈对抗的策略自适应切...

【专利技术属性】
技术研发人员：王静波，朱燎原，包骐豪，陈旭辉，夏少杰，瞿崇晓，
申请(专利权)人：中国电子科技集团公司第五十二研究所，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人