一种基于改进的Q学习的最佳攻击路径规划方法技术

技术编号：17784056 阅读：35 留言：0更新日期：2018-04-22 15:23

本发明专利技术涉及一种基于改进的Q学习的最佳攻击路径规划方法，属于信息安全技术领域。具体操作步骤为：步骤一、获取网络结构。步骤二、获取网络系统中各主机中存在的漏洞，建立主机漏洞状态表。步骤三、建立改进的Q学习模型。步骤四、通过改进的Q学习算法，获取最佳攻击路径路径。本发明专利技术提出的基于改进Q学习的最佳攻击路径规划方法与已有技术相比较，具有以下优点：①取消了动作集合并将所有动作与状态融合,使得算法的空间复杂度下降；②最优攻击路径生成速度快；③生成的最优攻击路径更简洁有效。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于改进的Q学习的最佳攻击路径规划方法
本专利技术涉及一种基于改进的Q学习的最佳攻击路径规划方法，属于信息安全

技术介绍
在对信息系统网络进行渗透时，攻击者都希望选择代价小而回报大的攻击路径，其中，攻击回报与攻击代价只比最大的攻击路径为最佳攻击路径，目前的获取最佳攻击路径的方法主要是基于攻击图来获取所有的源节点与目标节点间的攻击路径后，再选取这些路径中的一条作为最佳攻击路径。目前，比较常用的网络攻击图有：基于脆弱性的网络攻击图以及基于网络状态的攻击图。基于上述两种攻击图的攻击路径或保护路径的生成方法存在的问题是：①生成速度慢；②为了解决状态爆炸的问题，采用限定攻击路径的方式，导致攻击路径包含不全等问题。为了解决上述问题对产生最佳攻击路径的影响，中国和日本科学家提出了基于隐马尔科夫模型的攻击图生成算法，并使用蚁群算法来对攻击路径进行优化以选取最佳攻击路径的方法。但是此方法由于算法开销太大，当面对大规模计算机机群时，即时使用最小攻击图，也无法快速拟合出最佳攻击路径。国家专利技术专利(专利申请号：201710556319.6)中提出的基于Q学习的最佳攻击路径规划方法主要解决了以下问题：①提出的网络模型不需要进行训练，因此不需要收集训练数据；②可在线学习，实时确定不同时刻不同网络状态对应的最佳攻击路径；③学习率使用了退火模型，所以收敛的更加精确；④由于不需要生成攻击图，所以可以适用于大规模计算机集群。但其缺点是：①算法空间复杂度较高，因此占用内存空间较多。②生成的最佳攻击路径必须通过人工剪枝，否则存在冗余。
技术实现思路
本专利技术的目的是在基于Q学习的...
一种基于改进的Q学习的最佳攻击路径规划方法

【技术保护点】
一种基于改进的Q学习的最佳攻击路径规划方法，其特征在于：具体操作步骤为：步骤一、获取网络结构；步骤1.1：获取网络系统中各主机的软件应用，建立软件应用与主机对应表；所述软件应用与主机对应表包含：软件应用名称和主机名称；步骤1.2：获取网络系统中各主机之间的会话链接，建立主机间会话链接表；所述主机间会话链接表包括：源主机名和目标主机名；步骤二、获取网络系统中各主机中存在的漏洞，建立主机漏洞状态表；所述主机漏洞状态表包括：主机名称、漏洞ID和攻击成功率；步骤三、建立改进的Q学习模型，如公式(1)所示；Qn+1(s)＝(1‑δn(s))Qn(s)+δn(s)[R(s,s')+γJn(s')]) (1)其中，s表示当前状态，s'表示当前状态s的后继状态；n为迭代步数，n≥0；Qn+1(s)是第(n+1)步迭代时对当前状态s下得到的总体回报的一个估计值；Qn(s)是第n步迭代时对当前状态s下得到的总体回报的一个估计值；δn(s)为第n步的学习率，通过公式(2)得到；R(s,s')为立即回报函数，通过公式(3)得到；γ为贴现因子，为人为预先设定值，γ∈[0,1)；Jn(s')为延时回报函数，通过公式(4)得到；...

【技术特征摘要】
1.一种基于改进的Q学习的最佳攻击路径规划方法，其特征在于：具体操作步骤为：步骤一、获取网络结构；步骤1.1：获取网络系统中各主机的软件应用，建立软件应用与主机对应表；所述软件应用与主机对应表包含：软件应用名称和主机名称；步骤1.2：获取网络系统中各主机之间的会话链接，建立主机间会话链接表；所述主机间会话链接表包括：源主机名和目标主机名；步骤二、获取网络系统中各主机中存在的漏洞，建立主机漏洞状态表；所述主机漏洞状态表包括：主机名称、漏洞ID和攻击成功率；步骤三、建立改进的Q学习模型，如公式(1)所示；Qn+1(s)＝(1-δn(s))Qn(s)+δn(s)[R(s,s')+γJn(s')])(1)其中，s表示当前状态，s'表示当前状态s的后继状态；n为迭代步数，n≥0；Qn+1(s)是第(n+1)步迭代时对当前状态s下得到的总体回报的一个估计值；Qn(s)是第n步迭代时对当前状态s下得到的总体回报的一个估计值；δn(s)为第n步的学习率，通过公式(2)得到；R(s,s')为立即回报函数，通过公式(3)得到；γ为贴现因子，为人为预先设定值，γ∈[0,1)；Jn(s')为延时回报函数，通过公式(4)得到；其中，α、β为人为设定值，并且

【专利技术属性】
技术研发人员：胡昌振，吕坤，陈韵，
申请(专利权)人：北京理工大学，
类型：发明
国别省市：北京,11

全部详细技术资料下载我是这个专利的主人