【技术实现步骤摘要】
基于模仿学习的深度强化学习智能渗透测试方法及装置
[0001]本专利技术属于面向网络空间安全及深度强化学习防御
,尤其涉及基于模仿学习的深度强化学习智能渗透测试方法及装置。
技术介绍
[0002]随着人工智能技术和互联网技术的不断发展,网络攻击技术也在日益更新。渗透测试(Penetration Test)作为一种网络安全测试与评估方法,通过模拟黑客真实的攻击行为,来测试目标网络中可能存在的安全隐患,以达到清楚隐患从而提高系统安全性的目的。在红蓝军对抗的军事作战场景下,渗透测试广为受用,作为蓝军的渗透方通过模拟恶意黑客的攻击方式对军事作战网络种存在的部分漏洞进行渗透评估,从而达到防御恶意网络攻击的目的。渗透测试过程包括对网络系统的所有弱点、技术缺陷以及所有漏洞的主动分析,该分析从一个攻击者可能存在的位置来进行,并且从这个位置有条件地主动渗透安全漏洞。一次完整的渗透测试主要包括前期交互、信息收集、威胁建模、漏洞分析、渗透攻击、后渗透攻击、报告生成七个步骤。总之,渗透测试涉及对计算机系统进行受控攻击,以评估其安全性。目前,它 ...
【技术保护点】
【技术特征摘要】
1.一种基于模仿学习的深度强化学习智能渗透测试方法,其特征在于,包括:(1)获取专家样本数据,其中所述专家样本数据为后渗透成功时的状态动作对;(2)利用A3C算法对智能体进行训练,其中所述智能体作为渗透测试中的模拟攻击者;(3)将智能体训练过程中由A3C算法中actor网络生成的第一状态动作对与所述专家样本数据中的第二状态动作对放入GAIL的discriminator网络中,进行所述discriminator网络的训练;(4)根据所述discriminator网络训练后自身输出的折扣奖励与critic网络输出的value,构造优势函数并利用所述优势函数更新A3C算法中的actor网络;(5)重复步骤(2)
‑
(4),直至训练回合结束;(6)将训练后的智能体设置在需要进行渗透测试的网络环境中,以使得所述智能体进行渗透测试。2.根据权利要求1所述的方法,其特征在于,利用A3C算法对智能体进行训练,包括:(1.1)将渗透测试框架化为马尔可夫决策过程;(1.2)对所述智能体的所有子线程分别采用AC算法进行训练,其中每一个子线程的训练过程均包括:(1.2.1)输入当前时刻的状态,得到相应的策略;(1.2.2)利用奖励函数和价值函数的差值构造优势函数,以对所述策略进行评估,其中优势函数为:A(s,t)=r
t
+γr
r+1
+...+γ
n
‑1R
t+n
‑1γ
n
V(s')
‑
V(s)=R(t)
‑
V(s)式中,γ是折扣因子,取值范围为(0,1),R(
·
)是奖励函数,V(
·
)是价值函数;(1.2.3)利用策略梯度更新该子线程中actor网络和critic网络的参数:(1.2.3)利用策略梯度更新该子线程中actor网络和critic网络的参数:其中,θ
i
和μ
i
分别为第i个子线程中actor网络和critic网络的参数,π(a|s;θ
i
)是基于Actor网络参数θ
i
的策略函数,A(s|μ
i
)是基于Critic网络参数μ
i
的优势函数;(1.3)在所有子线程更新一轮后,根据所有子线程更新后的actor网络和critic网络的参数,更新所述智能体的主网络中actor网络和critic网络的参数θ和μ:参数,更新所述智能体的主网络中actor网络和critic网络的参数θ和μ:其中,n为子线程的数量,α
i
和β
i
分别为第i个子线程的参数θ
i
和μ
i
更新的学习率;(1.4)重复步骤(1.2)和(1.3),直至训练回合结束。3.根据权利要求1所述的方法,其特征在于,在智能体的训练过程中,状态包括漏洞名称、端口服务、服务版本号、渗透模块、渗透目标,动作为渗透框架metasploit输出的负载,奖励根据是否渗透成功及输出的负载的类型设置。4.根据权利要求1所述的方法,其特征在于,步骤(3)包括:
(3....
【专利技术属性】
技术研发人员:陈晋音,胡书隆,李晓豪,李玮峰,赵云波,
申请(专利权)人:浙江工业大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。