【技术实现步骤摘要】
本专利技术涉及网络攻防安全领域,特别是指一种基于双深度强化学习的apt网络杀伤链动态防御方法和系统。
技术介绍
1、近年来,随着网络攻击的日益复杂化和隐蔽性,特别是高级持续性威胁攻击的频繁发生,如何有效检测和防御此类攻击已成为网络安全领域的关键难题。高级持续性威胁攻击通过多阶段的网络杀伤链逐步实现攻击目标,攻击链各阶段包括侦察、武器化、交付、利用、安装、指挥与控制以及达成攻击目标等,使得防御方在识别和干预高级持续性威胁攻击行为时面临巨大挑战。公布号为cn117395072a的中国专利公开了一种生成网络杀伤链的方法,通过分析网络流量和终端行为生成多源日志与安全告警日志,并对告警日志进行聚合处理,进而关联多源日志生成用户行为序列。该方法通过预训练的检测模型识别行为序列中的攻击流量,若发现攻击流量,则利用生成模型生成对应的网络杀伤链。此方法显著提高了攻击流量识别的效率和准确度,并准确还原攻击流量的网络杀伤链,帮助网络安全人员全面评估并及时应对潜在威胁。
2、现有技术虽能提升生成杀伤链的准确性和全面性,但如何在高级持续性威胁攻击的多阶段链条上合理、动态地分配有限的防御资源,从而确保每个阶段的最佳防御效果仍是一个关键难题。网络欺骗技术作为一种创新的防御手段被引入apt防御体系。公布号为cn116614296a的中国专利公开了一种蜜罐欺骗防御方法,通过识别攻击者行为并基于att&ck矩阵视图展示,帮助安全人员高效定位攻击方式并优化防御响应。a.h.anwar等人[a.h.anwar,c.a.kamhoua,n.o.les
3、然而,网络欺骗防御技术的实施需要占用大量计算资源和网络带宽,资源分配不当可能导致成本高昂,甚至影响正常的系统性能。因此,合理分配网络欺骗防御资源、优化防御策略成为高级持续性威胁攻击防御的重要课题。zhang,l等人[l.zhang,t.zhu,f.k.hussain,d.ye and w.zhou,"a game-theoretic method for defending againstadvanced persistent threats in cyber systems,"in ieee transactions oninformation forensics and security,vol.18,pp.1349-1364,2023,doi:10.1109/tifs.2022.3229595.]通过优化防御策略调整时机和资源分配,帮助防御者在应对apt攻击时实现最佳防御效果,从而最大限度地提高防御效率并减少资源浪费。b.peng等人[b.peng,j.liu and j.zeng,"dynamic analysis of multiplex networks with hybridmaintenance strategies,"in ieee transactions on information forensics andsecurity,vol.19,pp.555-570,2024,doi:10.1109/tifs.2023.3324386.]提出了一种基于rcmo模型的传播抑制策略,结合静态与动态控制手段,通过混合维护策略有效抑制恶意软件传播,优化资源配置以提高网络安全性并减少安全风险。
4、双深度强化学习作为一种智能优化方法,能够在复杂的未知环境中进行自适应学习,通过不断的反馈逐步优化策略,极为适用于高级持续性威胁攻击这种复杂、动态的防御任务。y.yu等人[y.yu,w.yang,w.ding and j.zhou,"reinforcement learning solutionfor cyber-physical systems security against replay attacks,"in ieeetransactions on information forensics and security,vol.18,pp.2583-2595,2023,doi:10.1109/tifs.2023.3268532.]提出了一种基于强化学习的攻击检测方法,通过模型自由的学习框架,能够自动识别并应对攻击者的动态策略,同时设计了优化学习的防御策略,有效提高了网络安全防护能力。w.he等人[w.he,j.tan,y.guo,k.shang and h.zhang,"adeep reinforcement learning-based deception asset selection algorithmindifferential games,"in ieee transactions on information forensics andsecurity,vol.19,pp.8353-8368,2024,doi:10.1109/tifs.2024.3451189.]提出了一种基于多智能体深度强化学习的差分博弈欺骗资产选择算法,通过构建网络安全状态演化分析和差分博弈模型,优化高级持续性威胁攻击防御中的欺骗资产部署,实现了更高效的攻击防御策略选择。
5、在apt攻击中,危险apt攻击者通过工具(如burp suite和openvas)仅能获取受损节点及其邻近节点的信息,并基于节点重要性和漏洞特性,在最小攻击成本与最大攻击收益的权衡下选择最优路径。随后,攻击者对目标节点发起包括扫描攻击、钓鱼攻击、僵尸网络攻击、ddos攻击、零日攻击、密钥损害攻击、虚假密钥攻击和数据泄露攻击等多种威胁行为。如果攻击成功,攻击者将推进至网络杀伤链的下一阶段,与采用捆绑策略的防御者持续交互。
技术实现思路
1、本专利技术的主要目的在于克服现有技术中环境下的网络欺骗防御问题,提出一种基于双深度强化学习的apt网络杀伤链动态防御方法和系统,综合考虑了网络拓扑变化、节点重要性和漏洞信息,旨在通过实时获取网络状态和危险攻击者行为信息,动态优化资源分配和防御策略选择。
2、本专利技术采用如下技术方案:
3、一种基于双深度强化学习的apt网络杀伤链动态防御方法,预先配置网络系统,网络系统包括主机节点、安全防御者、危险攻击者以及安全防御装置;
4、所述危险攻击者按照网络杀伤链对所述主机节点执行攻击行为,所述安全防御者监测所述攻击行为并获取网络状态,所述安全防御装置基于双深度强化学习算法,结合所述网络本文档来自技高网...
【技术保护点】
1.一种基于双深度强化学习的APT网络杀伤链动态防御方法,其特征在于,预先配置网络系统,网络系统包括主机节点、安全防御者、危险攻击者以及安全防御装置;
2.如权利要求1所述的一种基于双深度强化学习的APT网络杀伤链动态防御方法,其特征在于,所述危险攻击者按照网络杀伤链对所述主机节点执行攻击行为具体是指:
3.如权利要求1所述的一种基于双深度强化学习的APT网络杀伤链动态防御方法,其特征在于,所述安全防御者将所述主机节点受到僵尸节点攻击的动态风险水平建模为一个指数函数;引入响应指示向量来描述所述安全防御者利用有限的防御预算分配给受损的所述主机节点的资源。
4.如权利要求1所述的一种基于双深度强化学习的APT网络杀伤链动态防御方法,其特征在于,在时隙t,所述安全防御者通过观察得到上一时隙t-1的网络状态,构建t时隙的观测状态函数S[t],S[t]={I[t-1],V[t-1],cA[t-1],rA[t-1],dD[t-1],cD[t-1],rD[t-1],TD[t-1],p[t-1]},I[t-1]为时隙t-1时所述网络系统主机节点的重要性集合,V
5.如权利要求4所述的一种基于双深度强化学习的APT网络杀伤链动态防御方法,其特征在于,所述安全防御装置基于时隙t的网络状态的观测状态函数S[t],利用双深度强化学习算法来获得时隙t采用的网络欺骗防御部署策略空间集A[t]={dD[t],π[t]},dD[t]表示时隙t时安全防御者的资源分配情况,π[t]表示时隙t时安全防御者选择的网络欺骗防御策略,并计算得到安全捆绑防御策略的效用为其中DRi[t]表示响应指示向量。
6.如权利要求1所述的一种基于双深度强化学习的APT网络杀伤链动态防御方法,其特征在于,所述双深度强化学习算法包括有主网络和目标网络,所述主网络根据当前状态选择最优的执行动作,所述目标网络则用于评估主网络所选择动作的价值,并据此计算目标Q值矩阵;所述主网络在每个时间步进行更新和训练,所述目标网络在固定的时间间隔内同步更新其权重以跟踪所述主网络的变化。
7.如权利要求6所述的一种基于双深度强化学习的APT网络杀伤链动态防御方法,其特征在于,Q值矩阵为Qa(S[t],A[t]),其表示所述安全防御者在网络状态的观测状态函数S[t]下选择网络欺骗防御部署策略空间集A[t]时的Q值,更新所述Q值矩阵的表达式如下所示:
8.如权利要求1所述的一种基于双深度强化学习的APT网络杀伤链动态防御方法,其特征在于,所述安全防御装置还接收来自所述安全防御者的反馈的防御结果以调整所述最优的防御策略形成闭环反馈机制。
9.如权利要求1所述的一种基于双深度强化学习的APT网络杀伤链动态防御方法,其特征在于,还包括根据失败条件阈值判断网络系统是否失败,所述网络系统失败是指网络系统运行逻辑中止,无法再继续进行攻防交互;所述失败阈值条件如下:
10.一种基于双深度强化学习的APT网络杀伤链动态防御系统,其特征在于,包括:
...【技术特征摘要】
1.一种基于双深度强化学习的apt网络杀伤链动态防御方法,其特征在于,预先配置网络系统,网络系统包括主机节点、安全防御者、危险攻击者以及安全防御装置;
2.如权利要求1所述的一种基于双深度强化学习的apt网络杀伤链动态防御方法,其特征在于,所述危险攻击者按照网络杀伤链对所述主机节点执行攻击行为具体是指:
3.如权利要求1所述的一种基于双深度强化学习的apt网络杀伤链动态防御方法,其特征在于,所述安全防御者将所述主机节点受到僵尸节点攻击的动态风险水平建模为一个指数函数;引入响应指示向量来描述所述安全防御者利用有限的防御预算分配给受损的所述主机节点的资源。
4.如权利要求1所述的一种基于双深度强化学习的apt网络杀伤链动态防御方法,其特征在于,在时隙t,所述安全防御者通过观察得到上一时隙t-1的网络状态,构建t时隙的观测状态函数s[t],s[t]={i[t-1],v[t-1],ca[t-1],ra[t-1],dd[t-1],cd[t-1],rd[t-1],td[t-1],p[t-1]},i[t-1]为时隙t-1时所述网络系统主机节点的重要性集合,v[t-1]为时隙t-1时所述网络系统主机节点的漏洞性集合,ca[t-1]为时隙t-1时所述危险攻击者采用危险攻击策略的成本集合,ra[t-1]为时隙t-1时所述危险攻击者获得的奖励集合,dd[t-1]为时隙t-1时所述安全防御者分配给受损的主机节点的资源量集合,cd[t-1]为时隙t-1时所述安全防御者采用安全防御策略的成本集合,rd[t-1]为时隙t-1时所述安全防御者获得的奖励,td[t-1]为时隙t-1时受损的所述主机节点集合,p[t-1]为时隙t-1时受损的所述主机节点受到危险攻击的风险水平集合。
5.如权利要求4所述的一种基于双深度...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。