一种面向部分未知安全状态的工控网络自动防御决策方法技术

技术编号:38498095 阅读:13 留言:0更新日期:2023-08-15 17:07
本申请属于工控网络安全技术领域,具体为一种面向部分未知安全状态的工控网络自动防御决策方法,包括生成攻击图步骤、动态攻击图状态估计步骤和动态防御决策步骤。本申请可以实现攻击图与真实环境的联动;解决了攻击者攻击存在隐蔽性导致的监测节点存在部分未知安全状态,可以估计节点状态;使用DQN算法,并且定义了基于工控网络的动作和奖励值,可以进行自动防御决策;实用范围为对工控系统适用场景下,面对部分设备未知安全状态的工控网络进行自动防御决策,为工控系统的安全提供技术保障,应用前景十分广泛。应用前景十分广泛。应用前景十分广泛。

【技术实现步骤摘要】
一种面向部分未知安全状态的工控网络自动防御决策方法


[0001]本申请属于工控网络安全
,更具体地说,是涉及一种面向部分未知安全状态的工控网络自动防御决策方法。

技术介绍

[0002]随着网络技术的发展,工业控制系统(Industrial Control System,ICS)逐渐与互联网相连接,以实现远程监控和管理,这带来了更多的便利和效率,但同时增加了网络安全方面的风险。此外,ICS有较长的生命周期,由于实时性的要求,许多系统软件不容易进行更新,使得系统容易遭受到攻击。鉴于系统安全管理者的资源有限,通常只对关键设备进行监测。然而,某些攻击者的攻击行为较为隐蔽,这使得系统安全管理者无法清楚地获悉所有设备是否遭受了攻击。一旦ICS遭到破坏,将会给生产经营造成极大的损失,因此需要及时处理遭受的攻击。针对上述面向部分未知安全状态的工控网络,迫切需要提出一种可行的防御决策方法。目前,对工控网络安全进行分析的常见技术有以下三种:
[0003]攻击图:攻击图用于建模网络中的脆弱性利用关系,然后从攻击者视角出发,通过分析网络环境和漏洞信息,枚举全部攻击路径,直观地展示不同攻击步骤之间的因果关系,以及漏洞利用造成的潜在威胁。对于工控网络来说,网络环境通常是难以变化的,因此可以利用攻击图分析网络中的脆弱性。
[0004]部分马尔可夫决策过程:(Partially Observable Markov Decision Process,POMDP)是一种有限状态、马尔科夫决策过程的概率模型,能够解决具有不确定性的决策问题,可以用于评估网络攻击和防御行为,并执行防御策略。对于工控网络,由于攻击者的攻击存在隐蔽性,得到工控网络中部分设备的安全状态是未知的,因此可以将监测设备的状态变化过程建模为POMDP。通过分析攻击者在网络中的状态,实现对部分未知安全状态的工控网络的状态估计,更好地制定防御策略。
[0005]强化学习:强化学习(Reinforcement Learning,RL)是机器学习的一种分支,研究如何通过智能体与环境进行交互获得最优策略,实现特定的目标。在RL中,智能体通过观察环境状态,选择行动并根据奖励调整策略,以获得最大累积奖励。对于工控网络的防御决策,可以建模为RL过程。系统安全管理者需要根据攻击者当前在工控网络中的活动状态执行能够获得累积奖励最大的防御动作。
[0006]综上所述,攻击者的攻击可能是随时进行的,攻击图技术无法处理这种动态变化的攻击,这对实时性要求高的工控网络可能造成难以估量的损失。由于攻击者的攻击存在隐蔽性,得到工控网络中部分设备的安全状态是未知的,智能体只能观测到部分信息,无法直接观测到完整的状态信息。RL根据已知的信息和先前的经验进行决策,无法处理这种不完整的状态信息。目前的现有专利中,缺乏对于工控网络中防御动作的定义,没有有效的手段衡量防御动作的可用性。此外,还有一些专利结合RL和POMDP使得RL能够处理部分未知的安全状态,但是没有考虑到可以根据攻击图推测攻击者在工控网络中的真实活动状态。
[0007]申请内容
[0008]为实现上述目的,本申请采用的技术方案是:提供一种面向部分未知安全状态的工控网络自动防御决策方法,包括生成攻击图步骤、动态攻击图状态估计步骤和动态防御决策步骤;
[0009]所述生成攻击图步骤,根据网络拓扑信息、设备服务信息和漏洞信息,生成相应的攻击图;定义攻击图中的节点状态;
[0010]所述动态攻击图状态估计步骤,通过监测网络中设备状态,将静态的攻击图与动态的攻击者相联系,观测工控网络当前的受攻击情况,获取动态攻击图的观测信息;结合POMDP建模与循环神经网络,对动态攻击图的历史观测信息和防御动作进行建模,估计出动态攻击图中各节点的状态;
[0011]所述动态防御决策步骤,基于动态攻击图状态估计得到的状态,采用RL算法学习在不同状态下的防御动作,实现防御目的。
[0012]可选地,所述生成攻击图步骤包括信息收集、攻击路径分析和动态攻击图构建;
[0013]所述信息收集的收集方法如下:
[0014]首先,进行网络拓扑结构信息的收集;
[0015]其次,进行设备信息的收集;
[0016]最后,进行漏洞信息的收集。
[0017]可选地,所述攻击路径分析的分析方法如下:
[0018]步骤S101,确定攻击目标,根据已经收集到的网络拓扑结构信息、设备信息和漏洞信息,确定攻击目标;
[0019]步骤S102,确定攻击路径,根据攻击目标,确定攻击路径;
[0020]步骤S103,绘制攻击图,根据攻击目标和攻击路径绘制攻击图,攻击图用于表示攻击目标、攻击路径的信息。
[0021]可选地,所述动态攻击图构建用于对攻击图的中各节点进行状态定义,每个节点表示对应的设备是否被攻击;
[0022]动态攻击图构建的构建方法如下:
[0023]步骤S201,获取网络拓扑信息、设备服务信息和漏洞信息,建立攻击图;
[0024]步骤S202,按照预设的时间步t收集网络数据;
[0025]步骤S203,根据收集到的网络数据,确定网络中发生的攻击行为;
[0026]步骤S204,根据确定的攻击行为,修改步骤S103中得到攻击图,并且按照时间顺序展示攻击过程。
[0027]可选地,所述动态攻击图状态估计步骤包括POMDP建模和RNN隐藏信息获取;
[0028]POMDP建模的过程如下:
[0029]首先,定义状态空间S表示所有可能的状态;定义动作空间A表示智能体可执行的操作;定义观测空间Z表示智能体能够获得的关于现有状态的信息;定义状态转移函数T表示从状态s到状态s

的概率分布;定义观测函数O表示智能体得到的观测对应的概率分布;定义奖励函数R表示从状态s执行动作a到达状态s

时获取的奖励;定义智能体的初始状态;
[0030]然后,建立POMDP模型,POMDP模型用于描述动态攻击图的变化过程,使智能体能够做出决策π;
[0031]π:S
×
O

A,根据策略π:S
×
O

A,能够得到期望累积奖励:
[0032][0033]其中,γ∈[0,1]是折扣因子,E表示取数学期望值,
[0034]使h
t
:=(O
≤t
,a<
t
)表示观测和动作的历史信息,根据历史信息、采用信念状态b
t
推断节点的状态分布,信念状态b
t
的分布为:
[0035]p(s
t
|o
≤t
,a
<t
)
[0036]b
t
:=φ(h(t))是h(t)的函数,表示通过历史信息来估计节点的状态;
[0037]当学习到函数φ时,根据观测和动作的本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种面向部分未知安全状态的工控网络自动防御决策方法,其特征在于:包括生成攻击图步骤、动态攻击图状态估计步骤和动态防御决策步骤;所述生成攻击图步骤,根据网络拓扑信息、设备服务信息和漏洞信息,生成相应的攻击图;定义攻击图中的节点状态;所述动态攻击图状态估计步骤,通过监测网络中设备状态,将静态的攻击图与动态的攻击者相联系,观测工控网络当前的受攻击情况,获取动态攻击图的观测信息;结合POMDP建模与循环神经网络,对动态攻击图的历史观测信息和防御动作进行建模,估计出动态攻击图中各节点的状态;所述动态防御决策步骤,基于动态攻击图状态估计得到的状态,采用RL算法学习在不同状态下的防御动作,实现防御目的。2.如权利要求1所述的一种面向部分未知安全状态的工控网络自动防御决策方法,其特征在于:所述生成攻击图步骤包括信息收集、攻击路径分析和动态攻击图构建;所述信息收集的收集方法如下:首先,进行网络拓扑结构信息的收集;其次,进行设备信息的收集;最后,进行漏洞信息的收集。3.如权利要求2所述的一种面向部分未知安全状态的工控网络自动防御决策方法,其特征在于:所述攻击路径分析的分析方法如下:步骤S101,确定攻击目标,根据已经收集到的网络拓扑结构信息、设备信息和漏洞信息,确定攻击目标;步骤S102,确定攻击路径,根据攻击目标,确定攻击路径;步骤S103,绘制攻击图,根据攻击目标和攻击路径绘制攻击图,攻击图用于表示攻击目标、攻击路径的信息。4.如权利要求3所述的一种面向部分未知安全状态的工控网络自动防御决策方法,其特征在于:所述动态攻击图构建用于对攻击图的中各节点进行状态定义,每个节点表示对应的设备是否被攻击;动态攻击图构建的构建方法如下:步骤S201,获取网络拓扑信息、设备服务信息和漏洞信息,建立攻击图;步骤S202,按照预设的时间步t收集网络数据;步骤S203,根据收集到的网络数据,确定网络中发生的攻击行为;步骤S204,根据确定的攻击行为,修改步骤S103中得到攻击图,并且按照时间顺序展示攻击过程。5.如权利要求1所述的一种面向部分未知安全状态的工控网络自动防御决策方法,其特征在于:所述动态攻击图状态估计步骤包括POMDP建模和RNN隐藏信息获取;POMDP建模的过程如下:首先,定义状态空间S表示所有可能的状态;定义动作空间A表示智能体可执行的操作;定义观测空间Z表示智能体能够获得的关于现有状态的信息;定义状态转移函数T表示从状态s到状态s

的概率分布;定义观测函数O表示智能体得到的观测对应的概率分布;定义奖励函数R表示从状态s执行动作a到达状态s

时获取的奖励;定义智能体的初始状态;
然后,建立POMDP模型,POMDP模型用于描述动态攻击图的变化过程,使智能体能够做出决策π;π:S
×
O

A,根据策略π:S
×
O

A,能够得到期望累积奖励:其中,γ∈[0,1]是折扣因子,E表示取数学期望值,使h
t
:=(o
≤t
,a
<t
)表示观测和动作的历史信息,根据历史信息、采用信念状态b
t
推断节点的状态分布,信念状态b
t
的分布为:p(s
t
|o
≤t
,a
<t
)b
t
:=φ(h(t))是h(t)的函数,表示通过历史信息来估计节点的状态;当学习到函数φ时,根据观测和动作的历史信息获取当前时刻动态攻击图的状态估计。6.如权利要求5所述的一种面向部分未知安全状态的工控网络自动防御决策方法,其特征在于:RNN隐藏信息获取的方法如下:步骤S301,获取观测和动作的历史信息,包括历史观测值和历史动作值;步骤S302,对于每个时间步t,将历史观测值和历史动作值转换为向量表示,然后通过RNN进行处理;步骤S303,在RNN的最后一个时间步t,输出一个向量表示当前时刻动态攻击图的状态值的估计;步骤S304,将输出向量传递给一个状态估计函数,将其映射到实际状态集合中的一个状态。7.如权利要求6所述的一种面向部分未知安全状态的工控网络自动防御决策方法,其特征在于:步骤S301中,当在时间步t获得动态攻击图的观测O
t
,并且执行防御动作a
t

【专利技术属性】
技术研发人员:刘杨马琦刘红日王佰玲魏玉良
申请(专利权)人:威海天之卫网络空间安全科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1