基于最大熵soft强化学习的最优渗透路径生成方法技术

技术编号:37209975 阅读:20 留言:0更新日期:2023-04-20 23:00
本发明专利技术公开了一种基于最大熵soft强化学习的最优渗透路径生成方法,包括以下步骤:S1,将最优渗透路径抽象为马尔可夫决策过程,在此基础上,将强化学习应用于最优渗透路径生成时,智能体根据当前网络部署的状态信息和节点漏洞给出的环境反馈进行策略学习,用于完成最优渗透路径规划;S2,在连续动作空间中用近似推理进行最大熵策略学习;S3,智能体在探索策略学习的过程中,在环境因素变化的干扰下选取未来收益高的动作;本方法可以有效的评判每一条渗透路径的优劣程度,并基于最大熵模型的Soft Q

【技术实现步骤摘要】
基于最大熵soft强化学习的最优渗透路径生成方法


[0001]本专利技术涉及网络安全领域,特别涉及一种基于最大熵soft强化学习的渗透路径生成方法。

技术介绍

[0002]随着互联网应用的共享开放以及新技术的爆发式发展,网络体系架构日益复杂,各种网络安全问题也层出不穷,给用户和企业带来了严重的安全威胁和经济损失。结合威胁情报分析、安全态势评估、入侵检测等技术构建网络安全体系可以应对诸多安全风险。近年来,攻击者利用网络安全漏洞实施恶意攻击的手段和形式日益复杂。为了分析攻击者的行为,网络渗透一直以来是广受关注的网络安全问题。渗透过程可以分为直接渗透和间接渗透,其中直接渗透是从一个主机直接发起攻击并成功渗透到另一个主机的过程;间接渗透是通过渗透成功两个主机之间的跳板主机,才能从一个主机渗透到另一个主机的过程。
[0003]在了解渗透原理的基础上,网络管理者可以模拟真实的网络攻防场景,分析可能被攻击者利用的渗透路径,从而设计有效的网络安全防御手段。然而,由于攻击者选择渗透行为的不确定性,加之网络态势的不断改变以及主机漏洞利用难度的客观评价等,这些因素加大了渗透路径的构建难度。与此同时,网络安全防御系统的建立和完善也直接影响评判渗透行为是否客观高效。因此,合理科学地设计渗透路径生成系统面临严峻挑战。
[0004]渗透路径生成主要依赖攻击图与Markov链结合的模型来分析可能被攻击者渗透的路径。攻击图的生成是一个收集网络拓扑和应用信息、确定网络主机之间可达条件和设计核心图构建算法的过程。一种基于攻击图和Markov链的网络安全风险评估模型,通过分析计算原子节点的攻击转移概率来获取最大可能被攻击的渗透路径。考虑到内部攻击和未知攻击,一种基于知识图谱的双层威胁渗透图模型,基于知识图谱构建主机资源知识图谱,在此基础上生成主机威胁渗透图和网络渗透威胁图。实验表明该方法能够描述未知攻击和内部攻击。但上述常见渗透路径生成方法未能考虑渗透成功所导致的后续攻击路径的变化;为此,通过将告警集映射到因果知识网络来检测当前的攻击行为,根据能力等级动态调整知识分布,利用改进的Dijkstra算法计算出真实网络对抗环境下的最优攻击路径。为了解决攻击图的伸缩性限制,使用A*Prune算法去除无用边来降低攻击图的复杂度,并采用随机森林算法预测网络拓扑中的攻击位置,从而生成概率最大的渗透路径。
[0005]传统的渗透路径生成仍然存在如下问题:(1)人工建模渗透测试环境的成本高,无法应对大规模复杂体系网络场景。(2)人工渗透测试结果往往取决于测试人员个人经验与能力,无法真实的反映出攻击者对目标网络和攻击路径选择的可能性。机器学习的方法成为解决路径规划问题的重要手段。
[0006]一种全局引导强化学习方法在移动机器人遇到障碍时,利用环境的时空信息引导机器人做出局部路径调整,而无需重新调用规划算法寻找替代路径,提高了模型的泛化性。将AI路径规划引入渗透路径生成中会显著提升生成效率。在漏洞数据库创建的攻击图上,利用机器学习和深度学习生成渗透路径。一种发现渗透路径的RL方法,其利用智能体通过
与环境交互学习而在攻击图中发现最优的多条攻击路径。这为子网间路由器防火墙、认证日志跟踪和基于主机的防病毒等防御措施提供了参考依据。引入智能体多域动作选择模块的方法来发现更多隐藏的多域渗透路径,提出改进的DDPG算法,使得智能体能在不同的状态下选择不同的动作,提高了网络多域安全防御能力。目前渗透测试的智能化方法侧重点为如何高效的提高渗透路径的生成效率,没有考虑面对网络态势环境动态改变的情况下,智能体如何选择最优的动作行为设计。
[0007]因此,急需提供一种基于最大熵强化学习模型的渗透路径生成方法已解决上述问题。

技术实现思路

[0008]为实现上述目的,专利技术人提供了一种基于最大熵soft强化学习的最优渗透路径生成方法,包括以下步骤: S1,将最优渗透路径抽象为马尔可夫决策过程,在此基础上,将强化学习应用于最优渗透路径生成时,智能体根据当前网络部署的状态信息和节点漏洞给出的环境反馈进行策略学习,用于完成最优渗透路径规划; S2,在连续动作空间中用近似推理进行最大熵策略学习; S3,智能体在探索策略学习的过程中,在环境因素变化的干扰下选取未来收益高的动作。
[0009]作为本专利技术的一种优选方式,所述步骤S1中,马尔可夫决策过程包括四元组,分别为:状态空间,表示当前网络状态的集合,其中是智能体所感知的主机状态信息;动作空间,表示智能体动作的集合,其中表示智能体是否可利用目标主机的漏洞进行渗透攻击,若,则不能渗透,反之,若,则能够渗透;状态转移概率,假设状态空间和动作空间都是连续的,状态转移概率表示从状态转移到下一步状态的概率;回报值,表示回报值的集合,其中表示给定状态和动作时,从状态转移到下一步状态反馈所得的奖励价值。
[0010]作为本专利技术的一种优选方式,所述步骤S1中,智能体根据当前网络部署的状态信息和节点漏洞给出的环境反馈进行策略学习包括以下步骤:智能体在时刻观测到环境反馈的状态,依据策略选取动作,完成动作后获得实时奖励值,动作同时会改变环境,使得状态从转移到,智能体根据时刻的状态选择下一个动作,进入下一时间节点的迭代。
[0011]作为本专利技术的一种优选方式,所述步骤S2中,在连续动作空间中用近似推理进行
最大熵策略学习还包括以下步骤:标准的强化学习目标是学习到一个最大化期望收益的最优策略,表达式为:
[0012] 其中,表示动作结束后累积的期望值收益,表示状态和动作在轨迹上的分布;在表达式基础上,最大熵强化学习在已有奖励项上增加一个熵值选项,使得最优策略同时最大化累积奖励和熵值的期望,表达式为:
[0013]其中,表示状态下策略分布的熵,且策略越随机,熵值越大,温度因子用于平衡奖励和熵,若较大,表明策略随机性越强,若,则策略趋近于确定性; 定义Soft Q

learning的学习算法为:
[0014][0015]通过以上公式,和最终会收敛到和;基于上述公式,得到更新后的最大熵策略:
[0016]最大熵策略分布在连续的动作空间中,在最大熵的框架下更具有随机性,用于增加智能体的探索率。
[0017]作为本专利技术的一种优选方式,所述步骤S3中,智能体在探索策略学习的过程中,在环境因素变化的干扰下选取未来收益高的动作,所述环境因素变化包括漏洞评分改变和状态节点有向边改变;所述漏洞评分改变包括:一些节点的前驱节点已被渗透,自身组件脆弱性增加,导致CVSS分值升高和一些节点部署了入侵检测系统,预警网络攻击,及时修复自身的脆弱性组件,导致CVSS分值降低;所述状态节点有向边改变为:实际网络场景下主机之间设置了信息交互机制,即它们按照约定时间进行基于密钥协议的信息交互,当其中一个主机被渗透成功时,导致无法与相邻主机进行信息交互,相邻主机立刻预警且暂时关闭与被渗透主机之间的通信服务。
[0018]区别于现有技术,上述技术方案所达到的有益效果有:

(1)本本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于最大熵soft强化学习的最优渗透路径生成方法,其特征在于,包括以下步骤:S1,将最优渗透路径抽象为马尔可夫决策过程,在此基础上,将强化学习应用于最优渗透路径生成时,智能体根据当前网络部署的状态信息和节点漏洞给出的环境反馈进行策略学习,用于完成最优渗透路径规划;S2,在连续动作空间中用近似推理进行最大熵策略学习;S3,智能体在探索策略学习的过程中,在环境因素变化的干扰下选取未来收益高的动作。2.根据权利要求1所述的基于最大熵soft强化学习的最优渗透路径生成方法,其特征在于,所述步骤S1中,马尔可夫决策过程包括四元组,分别为:状态空间,表示当前网络状态的集合,其中是智能体所感知的主机状态信息;动作空间,表示智能体动作的集合,其中表示智能体是否可利用目标主机的漏洞进行渗透攻击,若,则不能渗透,反之,若,则能够渗透;状态转移概率,假设状态空间和动作空间都是连续的,状态转移概率表示从状态转移到下一步状态的概率;回报值,表示回报值的集合,其中表示给定状态和动作时,从状态转移到下一步状态反馈所得的奖励价值。3.根据权利要求2所述的基于最大熵soft强化学习的最优渗透路径生成方法,其特征在于,所述步骤S1中,智能体根据当前网络部署的状态信息和节点漏洞给出的环境反馈进行策略学习包括以下步骤:智能体在时刻观测到环境反馈的状态,依据策略选取动作,完成动作后获得实时奖励值,动作同时会改变环境,使得状态从转移到,智能体根据时刻的状态选择下一个动作,进入下一时间节点的迭代。4.根据权利要求3所述的基于最大熵soft强化学习的最优渗透路径生成方法,其特征在于,所述步骤S2...

【专利技术属性】
技术研发人员:孙捷车洵胡牧金奎王焱
申请(专利权)人:南京众智维信息科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1