一种自动化渗透推演系统及方法技术方案

技术编号:38429434 阅读:15 留言:0更新日期:2023-08-07 11:26
本申请公开了一种自动化渗透推演系统及方法,其中系统包括:问题定义模块,用于针对最短隐藏攻击路径发现问题建立一种强化学习模型;要素模块,用于定义强化学习中的动作、状态、奖励和策略;强化学习模块,用于采用引入了多域动作选择的DDPG算法,在网络环境下选择相应的动作,并通过从学习环境中观察到的经验后继续学习,找到最短攻击序列步长,继而发现网络中最薄弱的地方。本申请能够自动分析目标系统所在网络环境,发现并验证目标系统潜在的漏洞点和脆弱性,降低了渗透测试的成本。降低了渗透测试的成本。降低了渗透测试的成本。

【技术实现步骤摘要】
一种自动化渗透推演系统及方法


[0001]本申请涉及一种网络安全评估系统及方法,属于网络安全
,尤其涉及一种自动化渗透推演系统及方法。

技术介绍

[0002]渗透测试是网络安全中重要的评估工具和手段,通过评估现有网络设备的脆弱性、网络安全工具的有效性和完整性,进而实现对现有网络安全实施构成威胁的风险因素的全面、综合而详细的评估。渗透测试以黑客视角对目标系统进行渗透,采用黑客攻击手段模拟攻击,挖掘、检测目标网络系统中存在的漏洞,验证系统安全性,以抢先黑客一步发现目标网络中的弱点,从而制定有效的安全策略进行安全防范,因此,渗透测试也是网络安全主动防御系统攻击面管理的重要一环。
[0003]传统的渗透测试技术主要存在以下不足:一方面,传统测试主要是渗透测试人员的人工操作,测试过程中需要测试人员进行基于渗透测试工具的经验判断,从而利用多种方法获取目标系统信息,探索并确定脆弱点,进行漏洞利用和后渗透测试,最后使用报告文档来描述渗透测试的整个流程、分析系统存在的风险点以及提供修复建议。不难发现,传统测试技术对测试人员的经验水平有很强的依赖性,这也对测试人员的相关知识掌握情况提出了很高的要求;同时,渗透测试复杂繁琐,且存在大量重复的操作,因此需要投入较大的时间和人力成本。另一方面,传统渗透测试只能够视作为某个时刻的系统安全态势快照,而测试之后的环境可能已历经多次更新,期间会引入测试时并不存在的新的潜在漏洞和配置错误,因此,很多渗透测试报告在交付之前就已经过时,时效性低。

技术实现思路

[0004]根据本申请的一个方面,提供了一种自动化渗透推演系统,该系统能够自动分析目标系统所在网络环境,发现并验证目标系统潜在的漏洞点和脆弱性,实现测试报告的即时交付,降低了渗透测试的时间和人力成本。所述自动化渗透推演系统包括问题定义模块、要素模块和强化学习模块;其中,
[0005]所述问题定义模块,用于建立多域网络空间中的最短隐藏攻击路径发现问题的强化学习模型;
[0006]所述要素模块,用于定义智能体agent的状态和动作,并根据动作的结果设置奖励;
[0007]所述强化学习模块,用于基于agent的动作和状态之间的约束关系进行多域动作选择,根据所述强化学习模型进行强化学习,找到最短攻击序列步长,继而发现网络中最薄弱的地方。
[0008]优选地,所述问题定义模块,用于将最短隐藏攻击路径发现问题看作马尔可夫决策过程MDP:
[0009]M=(s,a,p,r,γ)
[0010]其中,s∈S是网络空间的当前状态,a∈A是当前可用的攻击动作,p是状态之间转换的概率,r是agent采取行动到达下一个状态后的奖励值,γ为折扣率;
[0011]在初始状态s0,训练agent作为一个攻击者,配置网络空间环境;将最终的状态s
t
定义为攻击者在有限的步骤中成功或失败的攻击;
[0012]在每个攻击步骤序列中,agent将采取一个动作完成一个攻击步骤;在每一步t,agent从状态s
t
开始,采取一个动作a
t
,到达一个新的状态s
t+1
,并得到从网络环境中奖励的r
t

[0013]其中,s
t
表示t时刻的状态,包括;agent所处的位置、计算机运行状态、服务运行状态、服务访问状态;s
t+
1表示下一时刻状态,包含以下至少一种信息:agent的新的位置信息、agent可能获取的新服务信息、agent访问某个服务后可能获得的权限信息。
[0014]优选地,所述要素模块对智能体agent的状态、动作、奖励定义如下:
[0015]所述状态为多域网络空间中可能的状态的集合;
[0016]所述动作为agent可以采取的动作集合并可以改变网络空间的状态;
[0017]所述奖励为在一种状态下,对agent采取行动的进行奖励。
[0018]优选地,所述强化学习模块采用改进的DDPG算法,用于使agent在不同状态下可以选择不同的动作。
[0019]优选地,所述强化学习模块用于执行以下步骤:
[0020]通过在线策略网络来存储序列(s
t
,a
t
,r
t
,s
t+1
),该动作序列表示:执行状态为s
t
的动作,获得奖励值r
t
,并将下一个状态转换为s
t+1

[0021]当策略网络在状态中选择一个不可操作的动作a
t
时,使用线性变换将其映射到一个可行的动作a
t
',相关的动作序列定义为(s
t
,a
t
,

∞,s
t+1
),表示:该动作a
t
在状态s
t
和随后的状态中执行所获得的仍然是s
t
,奖励则是一个巨大的负值,以保证相关的动作不会在训练过程中被选择。
[0022]优选地,所述强化学习模块包括一个记忆回放单元和四个网络,其中,
[0023]所述记忆回放单元,用于存储状态的转移过程s,a,r
t
,s0;对于小批量采样,提取相应的样本来训练相应的神经网络从而避免样本之间的强相关性;所述四个网络包括在线策略网络、目标策略网络、在线Q网络、目标Q网络;所述策略网络用于模拟攻击者的行为,该神经网络以当前状态为输入,输出为在agent在该状态下采取的行动;所述Q网络用于估计当前动作在某一时刻执行后,如果继续执行该策略,最终得到的奖励的期望状态,其输入是当前状态和当前操作,输出的是Q值。
[0024]根据本申请的又一个方面,提供了一种自动化渗透推演方法,包括:
[0025]根据多域网络空间中的最短隐藏攻击路径发现问题,构建强化学习模型;
[0026]定义智能体agent的状态和动作,并根据动作的结果设置奖励;
[0027]基于agent的动作和状态之间的约束关系进行多域动作选择,根据所述强化学习模型进行强化学习,找到最短攻击序列步长,继而发现网络中最薄弱的地方。
[0028]优选地,所述根据多域网络空间中的最短隐藏攻击路径发现问题,构建强化学习模型包括:
[0029]将最短隐藏攻击路径发现问题看作马尔可夫决策过程MDP:M=(s,a,p,r,γ)。其中,s∈S是网络空间的当前状态,S为状态空间;a∈A是当前可用的攻击动作,A为动作空间,
表示状态s
t
的所有有效动作,也即在该状态下agent能够采取的行动的集合;p是状态之间转换的概率;r是agent采取行动到达下一个状态后的奖励值;γ为折扣率;
[0030]在初始状态s0,通过训练agent作为一个攻击者,和一个配置好的网络空间环境;最终的状态s
t
对应于攻击者在有限的步骤中本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种自动化渗透推演系统,其特征在于,该系统包括问题定义模块、要素模块和强化学习模块;其中,所述问题定义模块,用于根据多域网络空间中的最短隐藏攻击路径发现问题,构建强化学习模型;所述要素模块,用于定义智能体agent的状态和动作,并根据动作的结果设置奖励;所述强化学习模块,用于基于agent的动作和状态之间的约束关系进行多域动作选择,根据所述强化学习模型进行强化学习,找到最短攻击序列步长,继而发现网络中最薄弱的地方。2.根据权利要求1所述的自动化渗透推演系统,其特征在于,所述问题定义模块,用于将最短隐藏攻击路径发现问题看作马尔可夫决策过程MDP:M=(s,a,p,r,γ)其中,s∈S是网络空间的当前状态,a∈A是当前可用的攻击动作,p是状态之间转换的概率,r是agent采取行动到达下一个状态后的奖励值,γ为折扣率;在初始状态s0,训练agent作为一个攻击者,配置网络空间环境;将最终的状态s
t
定义为攻击者在有限的步骤中成功或失败的攻击;在每个攻击步骤序列中,agent将采取一个动作完成一个攻击步骤;在每一步t,agent从状态s
t
开始,采取一个动作a
t
,到达一个新的状态s
t+1
,并得到从网络环境中奖励的r
t
;其中,s
t
表示t时刻的状态,包括;agent所处的位置、计算机运行状态、服务运行状态、服务访问状态;s
t+
1表示下一时刻状态,包含以下至少一种信息:agent的新的位置信息、agent可能获取的新服务信息、agent访问了某个服务后可能获得的权限信息。3.根据权利要求1所述的自动化渗透推演系统,其特征在于,所述要素模块对智能体agent的状态、动作、奖励定义如下:所述状态为多域网络空间中可能的状态的集合;所述动作为agent可以采取的动作集合并可以改变网络空间的状态;所述奖励为在一种状态下,对agent采取行动的进行奖励。4.根据权利要求1所述的自动化渗透推演系统,其特征在于,所述强化学习模块采用改进的DDPG算法,用于使agent在不同状态下可以选择不同的动作。5.根据权利要求4所述的自动化渗透推演系统,其特征在于,所述强化学习模块用于执行以下步骤:通过在线策略网络来存储序列(s
t
,a
t
,r
t
,s
t+1
),该动作序列表示:执行状态为s
t
的动作,获得奖励值r
t
,并将下一个状态转换为s
t+1
;当策略网络在状态中选择一个不可操作的动作a
t
时,使用线性变换将其映射到一个可行的动作a
t
',相关的动作序列定义为(s
t
,a
t
,

∞,s
t+1
),表示:该动作a
t
在状态s
t
和随后的状态中执行所获得的仍然是s
t
,奖励则是一个巨大的负值,以保证相关的动作不会在训练过程中被选择。6.根据权利要求4所述的自动化渗透推演系统,其特征在于,所述强化学习模块包括一个记忆回放单元和四个网络,其中,所述记忆回放单元,用于存储状态的转移过程s,a,r

【专利技术属性】
技术研发人员:傅涛潘志松詹达之张磊谢艺菲王海洋郑轶余鹏
申请(专利权)人:博智安全科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1