一种网络安全防御策略优化方法、设备及介质技术

技术编号:34405428 阅读:24 留言:0更新日期:2022-08-03 21:50
本发明专利技术公开了一种网络安全防御策略优化方法、设备及介质,属于网络安全领域,包括步骤:S1,初始化安全防御策略集;S2,进行端点侧设备本地状态数据采集分析;S3,初始化全局安全状态数据集;S4,构建管理中心侧全局奖励函数;S5,寻找全局最优策略。本发明专利技术使得网络信息系统的安全防御策略能根据当前网络安全状态进行动态及时调整,主动和动态开展防御,增强了扩展性和适应性。了扩展性和适应性。了扩展性和适应性。

【技术实现步骤摘要】
一种网络安全防御策略优化方法、设备及介质


[0001]本专利技术涉及网络安全领域,更为具体的,涉及一种网络安全防御策略优化方法、设备及介质。

技术介绍

[0002]网络信息系统面临严峻安全威胁,现有的基于静态防御策略的安全防护已不能应对复杂多变、动态变化的各种攻击手段,静态固化的防御策略不能针对不同的攻击手段和攻击来源进行针对性的防御策略调整,造成防御低效或者失效。已有的基于机器学习的防御手段,依赖于中心化决策,实时性和联动性不足,不能满足实时动态防御需求。
[0003]在现有技术研究成果中,策略决策依赖已有静态规则或专家知识,方法过于固化和主观,不能高效、灵活适应动态变化的网络攻击手段。采用集中式决策机制,对于端设备要依赖中心分析决策,不能及时响应调整策略。

技术实现思路

[0004]本专利技术的目的在于克服现有技术的不足,提供一种网络安全防御策略优化方法、设备及介质,使得网络信息系统的安全防御策略能根据当前网络安全状态进行动态及时调整,主动和动态开展防御,增强了扩展性和适应性。
[0005]本专利技术的目的是通过以下方案实现的:
[0006]一种网络安全防御策略优化方法,其特征在于,包括步骤:基于强化学习在安全防御系统的管理中心侧和设备端点侧动态协同优化调整安全防御策略。
[0007]进一步地,包括子步骤:
[0008]S1,初始化安全防御策略集:将防御策略设置为防御策略集S,所述策略集包括针对该网络环境下各类安全威胁的可行防御策略;
[0009]S2,进行端点侧设备本地状态数据采集分析:将端点设备本地采集到的各类数据进行分析,对本地能够判定的攻击和漏洞进行本地防御响应策略决策和策略实施,并反馈相关信息给安全管理中心;
[0010]S3,初始化全局安全状态数据集:在管理中心侧将各个安全端设备安全状态数据汇聚构造成安全状态矩阵τ;使用奖励函数概念,状态变化奖励函数γ
ij
为当前时间t
i
的前一时刻t
i
‑1采取的防御策略与当前策略对网络安全环境产生的反馈值;这个函数显示为一个n
×
m矩阵;
[0011]S4,构建管理中心侧全局奖励函数:在中心侧安全管理系统构建全局奖励函数为防御者在当前时间t
i
的前一时刻t
i
‑1采取的防御策略与当前策略对网络安全环境产生的状态变化奖励函数γ
ij

[0012]S5,寻找全局最优策略:考虑防御策略的所有组合,通过奖励函数计算来进行策略优化,使得最优策略的全局累加奖励反馈值最大,从而确定最佳防御策略。
[0013]进一步地,步骤S3中,全局安全状态矩阵τ表示为:
[0014][0015]其中,m是采取安全防护策略的数量,n是网络信息系统中检测到的攻击和漏洞数量,奖励函数γ
ij
表示为:
[0016]γ
ij
=∫
s
ρ
u
(s)r(s,u
θ
(s))ds
[0017]1≤i≤n
[0018]1≤j≤m
[0019]其中,s={s1,s2,

,s
m
}是防御策略的集合,u
θ
(s)是近似策略最优值,ρ
μ
(s)是采用策略组合s的概率分布,由已有经验值获取,r(s,u
θ
(s))是最优策略与当前采用的策略的损失函数值。
[0020]进一步地,每种防御策略对于一个或多个攻击动作可能是完全有效的或部分有效的,甚至是无效的,并且能够被描述为如下矩阵:
[0021][0022]在这个矩阵中,如果元素e
ij
等于1,则防御策略j对于阻止攻击者的动作i是完全有效的;如果元素e
ij
等于0,则防御策略j阻止攻击者的动作i的有效性为零,不能认为是防御攻击者的动作i的策略;因此,元素e
ij
越大,对防止特定类型攻击的效果就越大。
[0023]进一步地,步骤S3中,若防御者的策略为s={s1,s2,

,s
m
},攻击者的攻击手段集合为π={π1,π2,π3,π4…
π
n
},则全局奖励函数为所有防御端点侧设备采取策略概率之和乘以相应的奖励函数,即:
[0024][0025]进一步地,步骤S4中,先使用极大函数将公式化后攻击者和防御者的行为进行优化求解,从防御者的角度来看,力求最大化防御效果和回报,即:
[0026]R
*
=max
s
R(π
i
,s
j
)e
ij
,0≤e
ij
≤1。
[0027]进一步地,将最优混合策略表示为:
[0028][0029]再将上式转化为线性规划,将模型转化为两组线性规划,寻找最优混合策略,计算公式如下:
[0030][0031]最后考虑防御策略的所有组合,通过比较每个组合的最优混合策略的全局累积奖励值,求取最大奖励值对应的策略集合,从而确定最佳防御策略。
[0032]进一步地,防御策略的组合总数为2
m

1,其中m是可采取安全防护策略的数量。
[0033]一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现如上任一所述网络安全防御策略优化方法的步骤。
[0034]一种计算机可读存储介质,其特征在于,存储有计算机程序,所述计算机程序被处理器执行时实现如上任一所述网络安全防御策略优化方法的步骤。
[0035]本专利技术的有益效果包括:
[0036](1)本专利技术的方案,提出一种两级协同策略优化机制和一种新的奖励函数计算方式,在基于强化学习模型的基础上引入两级协同反馈机制的方法,结合安全属性状态的方式,形成一种防御策略智能动态优化方法,该方法将本地防御和全局防御机制相结合,实时联动,使得网络信息系统的安全防御策略能根据当前网络安全状态进行动态及时调整,主动和动态开展防御。
[0037](2)本专利技术可进行定制化设计,奖励函数的关键组成元素的数量和数值可以根据实际情况进行灵活制定,因此扩展性和适应性强。
附图说明
[0038]为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
[0039]图1为本专利技术实施例方法步骤流程图。
具体实施方式
[0040]下面结合附图和实施例对专利技术进一步说明。本说明书中所有实施例公开的所有特征,或隐含公开的所有方法或过程中的步骤本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种网络安全防御策略优化方法,其特征在于,包括步骤:基于强化学习在安全防御系统的管理中心侧和设备端点侧动态协同优化调整安全防御策略。2.根据权利要求1所述的网络安全防御策略优化方法,其特征在于,包括子步骤:S1,初始化安全防御策略集:将防御策略设置为防御策略集;S2,进行端点侧设备本地状态数据采集分析:将端点设备本地采集到的数据进行分析,对本地能够判定的攻击和漏洞进行本地防御响应策略决策和策略实施,并反馈相关信息给安全管理中心;S3,初始化全局安全状态数据集:在管理中心侧将安全端设备安全状态数据汇聚构造成安全状态矩阵τ;设置状态变化奖励函数γ
ij
为当前时间t
i
的前一时刻t
i
‑1采取的防御策略与当前策略对网络安全环境产生的反馈值;S4,构建管理中心侧全局奖励函数:在中心侧安全管理系统构建全局奖励函数为防御者在当前时间t
i
的前一时刻t
i
‑1采取的防御策略与当前策略对网络安全环境产生的状态变化奖励函数γ
ij
;S5,寻找全局最优策略:考虑防御策略的所有组合,通过奖励函数计算来进行策略优化,使得最优策略的全局累加奖励反馈值最大,从而确定最佳防御策略。3.根据权利要求2所述的网络安全防御策略优化方法,其特征在于,步骤S3中,所述安全状态矩阵τ表示为:其中,m是采取安全防护策略的数量,n是网络信息系统中检测到的攻击和漏洞数量,状态变化奖励函数γ
ij
表示为:γ
ij
=∫
s
ρ
u
(s)r(s,u
θ
(s))ds1≤i≤n1≤j≤m其中,s={s1,s2,...,s
m
}是防御策略的集合,u
θ
(s)是近似策略最优值,ρ
μ
(s)是采用策略组合s的概率分布,r(s,u
θ
(s))是最优策略与当前采用的策略的损失函数值。4.根据权利要求2所述的网络安全防御策略优化方法,其特征在于,每种防御策略被描述为如...

【专利技术属性】
技术研发人员:陈捷张锋军石凯
申请(专利权)人:中国电子科技集团公司第三十研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1