基于LSTM和攻击者信息的攻击阶段预测方法技术

技术编号:30641658 阅读:14 留言:0更新日期:2021-11-04 00:39
基于LSTM和攻击者信息的攻击阶段预测方法属于攻击预测领域。本发明专利技术通过LSTM系统收集较长一段时间内的网络攻击的警告信息;并对大量警告信息中攻击者的历史信息进行收集;对这些历史数据进行预处理来构造LSTM模型训练所需的训练集、验证集、测试集;然后利用训练集训练LSTM模型,利用验证集的损失来决定是否提前停止LSTM在训练集上的学习;最终所得的模型可以对预处理后的,输入数据进行预测,预测得到未来的下一次攻击在多阶段网络攻击中所处的步骤。步骤。步骤。

【技术实现步骤摘要】
基于LSTM和攻击者信息的攻击阶段预测方法


[0001]本专利技术涉及一种基于LSTM模型和攻击者历史信息的攻击预测方法,属于攻击预测领域。

技术介绍

[0002]为了预测后续的攻击,通常需要记录攻击者的行为,并建立攻击的描述以供以后使用。Bou

Harb等人将网络攻击解剖为以下步骤:
[0003]1.网络扫描
[0004]2.枚举
[0005]3.入侵企图
[0006]4.提升权限
[0007]5.执行恶意任务
[0008]6.部署恶意软件/后门
[0009]7.执行恶意任务
[0010]8.删除证据并退出
[0011]许多类型的网络攻击遵循这个简单的事件序列,这可以在网络流量或目标系统上观察到。对正在进行的攻击的预测本质上非常简单。如果我们看到一系列符合攻击模型的事件,我们可以假设攻击将根据模型继续进行。因此,我们可以预测对手的下一步行动。然而,对攻击的模糊描述不能用于算法预测,因此,需要对攻击进行更正式的描述,例如,以攻击图的形式。此外,存在许多不同类型的攻击,因此需要为所有将要被预测的攻击创建一个模型。历史上,最初的方法依赖于攻击库,必须手动填充,这需要大量的努力和持续更新。因此,现代方法更多地依赖数据挖掘来自动生成攻击模式,用于攻击预测。攻击预测的方法和模型非常多,从离散模型(如攻击图)到连续模型(如时间序列),其中主要依赖于网络攻击的离散模型,以马尔可夫模型和隐马尔可夫模型为代表。使用离散模型进行攻击预测可以从已经观察到的恶意事件开始,也可以从网络中某个特定漏洞将被利用的概率开始。基于连续模型的攻击预测方法的例子是时间序列预测,它表示在某一时间内对某一系统或网络的一系列攻击的数量或概率。时间序列预测可以用来预测攻击是否会发生。较为先进的方法可以根据攻击的类型、攻击者和受害者的特征进行计算,从而估计出将会发生哪种类型的攻击,谁将成为攻击者。最近的预测方法通常包括非技术数据来源,例如基于社交网络信息、用户行为变化,从而克服了网络攻击的不可预测性。

技术实现思路

[0012]本专利技术技术解决问题:克服现有技术的不足,提出一种基于LSTM模型和攻击者历史信息的攻击预测方法,弥补现有技术的不足,具有较高的预测精度,所需数据维度较易获取。
[0013]基于LSTM和攻击者信息的攻击阶段预测方法,其特征在于包括以下步骤:
[0014]步骤一:首先收集所需预测的资产的历史警告数据;并对历史警告数据中出现的攻击者的历史攻击信息进行收集;
[0015]步骤二:然后通过对收集到的历史数据进行归一化的预处理,构造待训练的LSTM模型的训练样本数据和测试样本数据;
[0016]步骤三:通过训练样本数据得到预先训练的LSTM模型,然后通过构造的验证样本数据和测试样本数据微调训练得到的LSTM模型参数,F1指标达到0.75时,停止参数的微调,将微调后的LSTM模型作为攻击预测模型;
[0017]步骤四:将预处理后的目标资产的一段时间的历史数据作为LSTM模型的输入数据,通过LSTM模型对输入数据进行学习,最终LSTM模型输出得到未来可能收到的攻击的阶段。
[0018]本专利技术技术解决方案:一种基于LSTM模型和攻击者历史信息的攻击预测方法,步骤如下:
[0019]步骤一:首先收集所需预测的资产的历史警告数据。并对历史警告数据中出现的攻击者的历史攻击信息进行收集,收集一年的目标资产所受攻击的警告数据。并对该警告数据中攻击者的历史攻击信息进行收集,其中攻击者缺失的历史信息均补0处理。因为要预测下一次出现的网络攻击所在的阶段,所以训练时y为下一次出现的警告在所处多阶段攻击链条中所处的步骤序号。 LSTM模型的输入特征向量为n
×
32的矩阵,矩阵的n行分别为目标资产近n次所受网络攻击的相关数据,每一行分别由32个维度组成。全部维度可以分为 3部分。
[0020]第一部分由目标资产警告数据组成;第二部分为攻击时网络流量数据;第三部分为攻击者历史信息的数据。第一部分由目标资产警告数据可以得到维度:攻击开始时间start_time、攻击结束时间end_time、警告在所处多阶段攻击链条中所处的步骤序号、警告的方法序号、攻击者IP地址的四部分。通常,警告中的攻击开始时间和攻击结束时间通常为时间戳的数据格式,即 10位或13位的整数,其中10位为秒为单位,13位为毫秒为单位。后续以10 位的时间戳作为标准。
[0021]第二部分由攻击者的历史信息数据可以分为以下多个维度:根据网络攻击开始时间start_time的前5天的历史数据,每天的数据可以统计为以下维度,该警告信息中的攻击者从时间start_time

24
×
60
×
60~start_time统计全部的攻击次数(即从网络攻击开始时间的1天前,到网络攻击开始时间的攻击次数累计数量),该警告信息中的攻击者从时间start_time

24
×
60
×ꢀ
60~start_time

16
×
60
×
60统计全部的攻击次数(即从网络攻击开始时间的1天前,到网络攻击开始时间的8小时前攻击次数累计数量),该警告信息中的攻击者从时间start_time

24
×
60
×
60~start_time

16
×
60
×
60统计全部的攻击次数(即从网络攻击开始时间的1天前,到网络攻击开始时间的16小时前攻击次数累计数量),该警告信息中的攻击者从时间start_time
‑ꢀ
16
×
60
×
60到start_time
‑8×
60
×
60统计全部的攻击次数(即从网络攻击开始时间的16小时前,到网络攻击开始时间的8小时前攻击次数累计数量),该警告信息中的攻击者从时间start_time
‑8×
60
×
60到start_time统计全部的攻击次数(即从网络攻击开始时间的8小时前,到网络攻击开始时间的攻击次数累计数量)。
[0022]第三部分由警告相关数据中攻击时网络流量数据主要可分为以下维度:连接持续时间(以秒为单位,连续类型。范围是[0,58329]。它的定义是从TCP连接以3次握手建立算
起,到FIN/ACK连接结束为止的时间;若为UDP 协议类型,则将每个UDP数据包作为一条连接。)、源地址到目标地址的数据流量(从源主机到目标主机的数据的字节数,连续类型,范围是[0, 1379963888])、目标地址到源地址的数据流量(从目标主机到源主机的数据的字节数,连续类型,范围是[0,1379963888])、错误碎片的数目(错误分段的数量,连续类型,范围是[0,本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于LSTM和攻击者信息的攻击阶段预测方法,其特征在于包括以下步骤:步骤一:首先收集所需预测的资产的历史警告数据;并对历史警告数据中出现的攻击者的历史攻击信息进行收集;步骤二:然后通过对收集到的历史数据进行归一化的预处理,构造待训练的LSTM模型的训练样本数据和测试样本数据;步骤三:通过训练样本数据得到预先训练的LSTM模型,然后通过构造的验证样本数据和测试样本数据微调训练得到的LSTM模型参数,F1指标达到0.75时,停止参数的微调,将微调后的LSTM模型作为攻击预测模型;步骤四:将预处理后的目标资产的一段时间的历史数据作为LSTM模型的输入数据,通过LSTM模型对输入数据进行学习,最终LSTM模型输出得到未来可能收到的攻击的阶段。2.根据权利要求1所述的基于LSTM和攻击者信息的攻击阶段预测方法,其特征在于:步骤1中,收集目标资产1年的所受攻击的警告数据;并对该警告数据中攻击者的历史攻击信息进行收集,对于部分攻击者缺失的历史信息均补0处理。3.根据权利要求1所述的基于LSTM和攻击者信息的攻击阶段预测方法,其特征在于:步骤2中,构造待训练的LSTM模型的输入特征向量,并按照80%,10%,10%的比例划分为训练样本数据、验证样本数据、测试样本数据。4.根据权利要求1所述的基于LSTM和攻击者信息的攻击阶段预测方法,其特征在于:LSTM模型的输入特征向量为n
×
32的矩阵,矩阵的n行分别为目标资产近n次所受网络攻击的相关数据,每一行分别由32个维度组成;全部维度分为3部分;第一部分由目标资产警告数据组成;第二部分为攻击时网络流量数据;第三部分为攻击者历史信息的数据。5.根据权利要求1所述的基于LSTM和攻击者信息的攻击阶段预测方法,其特征在于:由目标资产警告数据得到维度:攻击开始时间start_time、攻击结束时间end_time、警告在所处多阶段攻击链条中所处的步骤序号、警告的方法序号、攻击者IP地址的四部分;警告中的攻击开始时间和攻击结束时间通常为时间戳的数据格式,即10位或13位的整数,其中10位为秒为单位,13位为毫秒为单位;后续以10位的时间戳作为标准。6.根据权利要求1所述的基于LSTM和攻击者信息的攻击阶段预测方法,其特征在于:攻击者的历史信息数据分为以下多个维度:根据网络攻击开始时间start_time的前5天的历史数据,每天的数据统计为以下维度,该警告信息中的攻击者从时间start_time

24
×
60
×
60~start_time统计全部的攻击次数,即从网络攻击开始时间的1天前,到网络攻击开始时间的攻击次数累计数量,该警告信息中的攻击者从时间start_time

24
×
60
×
60~start_time

16
×
60
×
60统计全部的攻击次数,即从网络攻击开始时间的1天前,到网络攻击开始时间的8小时前攻击次数累计数量,该警告信息中的攻击者从时间start_time

24
×
60
×
60~start_time

16
×
60
×
60统计全部的攻击次数,即从网络攻击开始时间的1天前,到网络攻击开始时间的16小时前攻击次数累计数量,该警告信息中的攻击者从时间start_time

16
×
60
×
60到start_time
‑8×
...

【专利技术属性】
技术研发人员:李童李战士杨震
申请(专利权)人:北京工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1