当前位置: 首页 > 专利查询>中北大学专利>正文

基于自适应对手集成建模的网络安全对抗自学习仿真方法技术

技术编号:37392612 阅读:16 留言:0更新日期:2023-04-27 07:30
本发明专利技术属于多智能体仿真技术领域,具体涉及一种基于自适应对手集成建模的网络安全对抗自学习仿真方法。首先,针对防御方联合策略采用多智能体强化学习训练一个攻击方联合策略;其次根据攻击方联合策略采用哈密顿蒙特卡洛采样方法生成攻击方联合策略候选集合;然后对攻击方联合策略候选集合进行策略蒸馏获得一个“平均”的蒸馏攻击方联合策略;使用蒸馏攻击方联合策略与防御方联合策略自博弈提升防御方联合策略,并进行回报函数评估,决定是否接受攻击方联合策略候选策略集合。最终,本发明专利技术技术方案通过自适应生成多样的攻击方联合策略集合、使得防御者通过自学习逐步提升自身策略,特别可以对于未见攻击方联合策略提升应对的鲁棒性。对的鲁棒性。对的鲁棒性。

【技术实现步骤摘要】
基于自适应对手集成建模的网络安全对抗自学习仿真方法


[0001]本专利技术属于多智能体仿真
,具体涉及一种基于自适应对手集成建模的网络安全对抗自学习仿真方法。

技术介绍

[0002]在网络对抗场景中,管理员(防御方智能体)可以观察到普通用户(中立智能体)以及恶意攻击者(攻击智能体)发送的信号,但不能确定所观测到智能体的类型;而恶意攻击者对于管理员的身份与意图是已知的,从而导致管理员与恶意攻击者在非确定信息下进行对抗博弈。在此类网络对抗环境下,恶意攻击者不能直接操控管理员观测,但可以使用对抗性策略在对抗环境中进行伪装及欺诈行为。网络管理员在做出是否屏蔽信号的决定之前,需要推断信号发送者的身份,这大大增加了网络管理员决策过程的复杂性。
[0003]对手建模是非确定性网络对抗行为智能决策的重要方法,对手建模方法通过观察对手的状态和动作,进而直接建模对手的策略或估计中间统计量(如自我方智能体对对手的策略的预期值),然而,对手建模对建模误差的高度敏感,可能导致在面对之前未见的对手时性能显著下降。为此传统的对手集成建模方法,需要维护一个足够多样化的对手策略集合,因此计算复杂性较高。

技术实现思路

[0004](一)要解决的技术问题
[0005]本专利技术要解决的技术问题是:如何提供一种基于自适应对手集成建模的网络多智能体对抗自学习方法。
[0006](二)技术方案
[0007]为解决上述技术问题,本专利技术提供一种基于自适应对手集成建模的网络安全对抗自学习仿真方法,所述方法包括如下步骤:
[0008]步骤1:搭建网络攻防仿真环境;使用微软开源人工智能攻防对抗模拟工具即CyberBattleSim工具搭建网络攻防仿真环境;
[0009]步骤2:确定团队奖励函数;
[0010]步骤3:训练攻击方联合策略;以给定防御方联合策略为对手环境,使用合作型多智能体强化学习构建攻击方候选联合策略;
[0011]步骤4:生成攻击方联合策略候选集合;
[0012]步骤5:蒸馏攻击方联合策略候选集合;
[0013]步骤6:自博弈提升防御方联合策略;
[0014]步骤7:自适应维护攻击方联合策略集合;利用哈密顿蒙特卡洛方法自适应接受或拒绝候攻击方联合策略候选集合;
[0015]步骤8:判断终止条件;如果满足终止条件迭代停止。
[0016]其中,所述步骤1中,搭建网络攻防仿真环境,具体包括:
[0017]步骤11:网络攻防仿真环境是由K个网络节点组成的固定网络拓扑网络,每个网络节点都可以挂载三种属性信息,包括不挂载信息、挂载有害信息、挂载无害信息;初始时,网络攻防仿真环境的所有网络节点都不挂载信息;
[0018]步骤12:攻防仿真开始首回合,扮演攻击者的N个攻击智能体在固定的攻击者出发节点出现;每回合开始时,N个攻击智能体根据自身策略在网络上沿着一条边移动或执行两种动作:{发布有害信息、发布正常信息};
[0019]步骤13:攻防开始首回合,扮演防御者的M个防御智能体在固定防御者出发节点出现,每回合时M个防御智能体根据自身策略在网络上沿着一条边移动或执行一种动作:{删除该节点上信息};
[0020]步骤14:攻防开始首回合,扮演中立者的H个中立智能体在网络节点上随机出现,每回合以给定概率p1在网络上沿着边自由移动或以概率1

p1执行一种动作:{发布正常信息};
[0021]步骤15:当防御智能体与攻击智能体位于同一网络节点时,防御智能体以概率p2自动捕获攻击智能体,被捕捉攻击智能体立即消失;
[0022]步骤16:每个智能体仅能观测到相邻网络节点的状态;当该网络节点发布有正常信息时,攻击智能体如发布有害消息则覆盖当前节点正常消息。
[0023]其中,所述步骤2中,确定团队奖励函数;具体包括:
[0024]步骤21:如果攻击智能体的总数量小于给定阈值N1,(其中,N1<N,则防御方胜利,防御方奖励r1=1,攻击方奖励r2=0;
[0025]步骤22:如果网络节点上有害信息总数大于给定阈值K1,K1<K,则攻击方胜利,防御方奖励r1=0,攻击方奖励r2=1。
[0026]其中,所述步骤3中,训练攻击方联合策略;以给定防御方联合策略为对手环境,使用合作型多智能体强化学习构建攻击方候选联合策略;具体包括:
[0027]步骤31:随机初始化1种防御方联合策略其中表示第j个防御智能体的个体策略;
[0028]步骤32:随时初始化s种攻击方联合策略集合其中表示第j种攻击方联合策略,且示第j种攻击方联合策略,且表示第j种攻击方联合策略中第i个攻击智能体的个体策略;
[0029]步骤33:将作为对手环境,利用Pytorch软件包MARL

code采用MAPPO,MADDPG,MATD3,QMIX以及VDN方法中的其中之一学习攻击方候选联合策略
[0030]步骤34:对抗结束时记录对应奖励其中表示使用攻击方联合策略时防御方总奖励,表示对应攻击方总奖励;
[0031]步骤35:计算双方态势评估函数;以如下公式计算双方态势评估函数:
[0032][0033]其中,λ=0.2为给定超参数。
[0034]其中,所述步骤4中,生成攻击方候选联合策略集合;具体包括:
[0035]步骤41:针对步骤33中生成的攻击方候选联合策略,在攻击方联合策略集合上以相同概率随机执行如下三种操作之一:弹出(POP)、追加(Append)以及交换(Exchange),从而生成攻击方候选联合策略集合。
[0036]步骤42:如果选中弹出操作(POP),则从攻击方联合策略集合中随机删除第j条策略
[0037]步骤43:如果追加操作(Append),则将攻击方候选联合策略加入攻击方联合策略集合
[0038]步骤44:如果选中交换操作(Exchange),将攻击方候选联合策略与攻击方联合策略集合中随机选取的第j条策略互换;
[0039]步骤45:依据步骤42或步骤43或步骤44产生更新后的攻击方候选联合策略集合,如图2所示;
[0040][0041]其中,s'为攻击方候选联合策略集合中联合策略总数量。
[0042]其中,所述步骤5中,具体包括:
[0043]步骤51:对于第j个攻击智能体,其候选攻击策略集合为通过极小化蒸馏损失:
[0044]其中,表示参数为θ
j
的深度策略网络,训练策略网络参数θ
j
;其中所述策略网络具体结构如表1,即参数为θ
j
的神经网络,为:网络由2组卷积/池化层与两个全连接层构成,2组卷积层为:第一层16个卷积滤波器,第二层32个卷积滤波器;其中卷积层的卷积核大小固定为3
×
3,填充列数(Padding)为1,步长为1;池化层固定为窗口2
×
2,步本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于自适应对手集成建模的网络安全对抗自学习仿真方法,其特征在于,所述方法包括如下步骤:步骤1:搭建网络攻防仿真环境;使用微软开源人工智能攻防对抗模拟工具即CyberBattleSim工具搭建网络攻防仿真环境;步骤2:确定团队奖励函数;步骤3:训练攻击方联合策略;以给定防御方联合策略为对手环境,使用合作型多智能体强化学习构建攻击方候选联合策略;步骤4:生成攻击方联合策略候选集合;步骤5:蒸馏攻击方联合策略候选集合;步骤6:自博弈提升防御方联合策略;步骤7:自适应维护攻击方联合策略集合;利用哈密顿蒙特卡洛方法自适应接受或拒绝候攻击方联合策略候选集合;步骤8:判断终止条件;如果满足终止条件迭代停止;其中,所述步骤1中,搭建网络攻防仿真环境,具体包括:步骤11:网络攻防仿真环境是由K个网络节点组成的固定网络拓扑网络,每个网络节点都可以挂载三种属性信息,包括不挂载信息、挂载有害信息、挂载无害信息;初始时,网络攻防仿真环境的所有网络节点都不挂载信息;步骤12:攻防仿真开始首回合,扮演攻击者的N个攻击智能体在固定的攻击者出发节点出现;每回合开始时,N个攻击智能体根据自身策略在网络上沿着一条边移动或执行两种动作:{发布有害信息、发布正常信息};步骤13:攻防开始首回合,扮演防御者的M个防御智能体在固定防御者出发节点出现,每回合时M个防御智能体根据自身策略在网络上沿着一条边移动或执行一种动作:{删除该节点上信息};步骤14:攻防开始首回合,扮演中立者的H个中立智能体在网络节点上随机出现,每回合以给定概率p1在网络上沿着边自由移动或以概率1

p1执行一种动作:{发布正常信息};步骤15:当防御智能体与攻击智能体位于同一网络节点时,防御智能体以概率p2自动捕获攻击智能体,被捕捉攻击智能体立即消失;步骤16:每个智能体仅能观测到相邻网络节点的状态;当该网络节点发布有正常信息时,攻击智能体如发布有害消息则覆盖当前节点正常消息。2.如权利要求1所述的基于自适应对手集成建模的网络安全对抗自学习仿真方法,其特征在于,所述步骤2中,确定团队奖励函数;具体包括:步骤21:如果攻击智能体的总数量小于给定阈值N1,(其中,N1<N,则防御方胜利,防御方奖励r1=1,攻击方奖励r2=0;步骤22:如果网络节点上有害信息总数大于给定阈值K1,K1<K,则攻击方胜利,防御方奖励r1=0,攻击方奖励r2=1。3.如权利要求2所述的基于自适应对手集成建模的网络安全对抗自学习仿真方法,其特征在于,所述步骤3中,训练攻击方联合策略;以给定防御方联合策略为对手环境,使用合作型多智能体强化学习构建攻击方候选联合策略;具体包括:
步骤31:随机初始化1种防御方联合策略其中表示第j个防御智能体的个体策略;步骤32:随时初始化s种攻击方联合策略集合其中表示第j种攻击方联合策略,且种攻击方联合策略,且表示第j种攻击方联合策略中第i个攻击智能体的个体策略;步骤33:将作为对手环境,利用Pytorch软件包MARL

code采用MAPPO,MADDPG,MATD3,QMIX以及VDN方法中的其中之一学习攻击方候选联合策略步骤34:对抗结束时记录对应奖励{r
1(s+1)

2(s+1)
},其中r
1(s+1)
表示使用攻击方联合策略时防御方总奖励,表示对应攻击方总奖励;步骤35:计算双方态势评估函数;以如下公式计算双方态势评估函数:其中,λ=0.2为给定超参数。4.如权利要求3所...

【专利技术属性】
技术研发人员:王彦博陈文宇张慧云单石敏
申请(专利权)人:中北大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1