一种自动化渗透推演系统及方法技术方案

技术编号：38429434 阅读：15 留言：0更新日期：2023-08-07 11:26

本申请公开了一种自动化渗透推演系统及方法，其中系统包括：问题定义模块，用于针对最短隐藏攻击路径发现问题建立一种强化学习模型；要素模块，用于定义强化学习中的动作、状态、奖励和策略；强化学习模块，用于采用引入了多域动作选择的DDPG算法，在网络环境下选择相应的动作，并通过从学习环境中观察到的经验后继续学习，找到最短攻击序列步长，继而发现网络中最薄弱的地方。本申请能够自动分析目标系统所在网络环境，发现并验证目标系统潜在的漏洞点和脆弱性，降低了渗透测试的成本。降低了渗透测试的成本。降低了渗透测试的成本。

全部详细技术资料下载

【技术实现步骤摘要】
一种自动化渗透推演系统及方法

[0001]本申请涉及一种网络安全评估系统及方法，属于网络安全
，尤其涉及一种自动化渗透推演系统及方法。

技术介绍

[0002]渗透测试是网络安全中重要的评估工具和手段，通过评估现有网络设备的脆弱性、网络安全工具的有效性和完整性，进而实现对现有网络安全实施构成威胁的风险因素的全面、综合而详细的评估。渗透测试以黑客视角对目标系统进行渗透，采用黑客攻击手段模拟攻击，挖掘、检测目标网络系统中存在的漏洞，验证系统安全性，以抢先黑客一步发现目标网络中的弱点，从而制定有效的安全策略进行安全防范，因此，渗透测试也是网络安全主动防御系统攻击面管理的重要一环。
[0003]传统的渗透测试技术主要存在以下不足：一方面，传统测试主要是渗透测试人员的人工操作，测试过程中需要测试人员进行基于渗透测试工具的经验判断，从而利用多种方法获取目标系统信息，探索并确定脆弱点，进行漏洞利用和后渗透测试，最后使用报告文档来描述渗透测试的整个流程、分析系统存在的风险点以及提供修复建议。不难发现，传统测试技术对测试人员的经验水平有很强的依赖性，这也对测试人员的相关知识掌握情况提出了很高的要求；同时，渗透测试复杂繁琐，且存在大量重复的操作，因此需要投入较大的时间和人力成本。另一方面，传统渗透测试只能够视作为某个时刻的系统安全态势快照，而测试之后的环境可能已历经多次更新，期间会引入测试时并不存在的新的潜在漏洞和配置错误，因此，很多渗透测试报告在交付之前就已经过时，时效性低。

技术实现思路

[0004]根据...

【技术保护点】

【技术特征摘要】
1.一种自动化渗透推演系统，其特征在于，该系统包括问题定义模块、要素模块和强化学习模块；其中，所述问题定义模块，用于根据多域网络空间中的最短隐藏攻击路径发现问题，构建强化学习模型；所述要素模块，用于定义智能体agent的状态和动作，并根据动作的结果设置奖励；所述强化学习模块，用于基于agent的动作和状态之间的约束关系进行多域动作选择，根据所述强化学习模型进行强化学习，找到最短攻击序列步长，继而发现网络中最薄弱的地方。2.根据权利要求1所述的自动化渗透推演系统，其特征在于，所述问题定义模块，用于将最短隐藏攻击路径发现问题看作马尔可夫决策过程MDP：M＝(s,a,p,r,γ)其中，s∈S是网络空间的当前状态，a∈A是当前可用的攻击动作，p是状态之间转换的概率，r是agent采取行动到达下一个状态后的奖励值，γ为折扣率；在初始状态s0，训练agent作为一个攻击者，配置网络空间环境；将最终的状态s
t
定义为攻击者在有限的步骤中成功或失败的攻击；在每个攻击步骤序列中，agent将采取一个动作完成一个攻击步骤；在每一步t，agent从状态s
t
开始，采取一个动作a
t
，到达一个新的状态s
t+1
，并得到从网络环境中奖励的r
t
；其中，s
t
表示t时刻的状态，包括；agent所处的位置、计算机运行状态、服务运行状态、服务访问状态；s
t+
1表示下一时刻状态，包含以下至少一种信息：agent的新的位置信息、agent可能获取的新服务信息、agent访问了某个服务后可能获得的权限信息。3.根据权利要求1所述的自动化渗透推演系统，其特征在于，所述要素模块对智能体agent的状态、动作、奖励定义如下：所述状态为多域网络空间中可能的状态的集合；所述动作为agent可以采取的动作集合并可以改变网络空间的状态；所述奖励为在一种状态下，对agent采取行动的进行奖励。4.根据权利要求1所述的自动化渗透推演系统，其特征在于，所述强化学习模块采用改进的DDPG算法，用于使agent在不同状态下可以选择不同的动作。5.根据权利要求4所述的自动化渗透推演系统，其特征在于，所述强化学习模块用于执行以下步骤：通过在线策略网络来存储序列(s
t
,a
t
,r
t
,s
t+1
)，该动作序列表示：执行状态为s
t
的动作，获得奖励值r
t
，并将下一个状态转换为s
t+1
；当策略网络在状态中选择一个不可操作的动作a
t
时，使用线性变换将其映射到一个可行的动作a
t
'，相关的动作序列定义为(s
t
,a
t
,
‑
∞,s
t+1
)，表示：该动作a
t
在状态s
t
和随后的状态中执行所获得的仍然是s
t
，奖励则是一个巨大的负值，以保证相关的动作不会在训练过程中被选择。6.根据权利要求4所述的自动化渗透推演系统，其特征在于，所述强化学习模块包括一个记忆回放单元和四个网络，其中，所述记忆回放单元，用于存储状态的转移过程s,a,r

【专利技术属性】
技术研发人员：傅涛，潘志松，詹达之，张磊，谢艺菲，王海洋，郑轶，余鹏，
申请(专利权)人：博智安全科技股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人