【技术实现步骤摘要】
一种基于时间序列分解网络流量预测系统
[0001]本专利技术涉及网络安全、深度学习领域,尤其涉及一种基于时间序列分解网络流量预测系统。
技术介绍
[0002]网络流量是所有攻击的发起者和传播载体。大量的攻击流量在时间行为上表现出与正常流量有明显的差别,比如DDoS、僵尸网络、扫描探测、暴力破解等等。对网络流量的行为进行建模并检测攻击事件又有两种方法,一种是基于分类的方法,结合机器学习和深度学习对网络流量的各种特征训练分类器,然后通过训练好的分类器进行攻击事件的检测,这种方法有很多局限性,其一是数据集样本分布不平衡的问题,人们多数是出于正常目的访问网络,因此网络中的正常流量站的比重很大,导致黑白样本占比存在显著差异。其二是基于分类任务的攻击检测方法对于未知威胁的检测效果比较差。
[0003]另一种是根据流量的特征数据建立正常的流量模型,然后基于正常模型检测异常,即先进行流量特征预测任务,如果当前流量特征的真实值与正常模型的预测值偏差较大时,认为发生异常事件。这种方法对异常事件的检测准确率和误报率极大程度依赖于网络流量预测模型的好坏,单个服务器的网络流量由于受到多种因素的影响,表现出噪声大,突变值多,规律不明显等特点,因此现阶段的难点和重点在于如何针对行为复杂的网络流量特征提高预测性能。
[0004]得益于深度学习技术的进一步发展,时间序列预测领域也越来越多的采用深度学习的方法,通过对大量的序列数据进行建模,学习用历史观测序列预测未来时间步的观测值,常见的时间序列预测模型有卷积神经网络CNN,循环神经网络 ...
【技术保护点】
【技术特征摘要】
1.一种基于时间序列分解的网络流量预测系统,其特征在于,包括:流量特征提取模块,特征序列预处理模块、时间序列预测模块;流量特征提取模块:提取服务器流量特征序列,即按指定采样窗口大小由服务器原始流量数据计算各种特征,所述各种特征包括上下行字节数,对端IP数,端口熵,源端端口熵,对端IP熵;服务器流量指由<源IP,目的IP,源端口,目的端口,传输协议>,五元组唯一标识的数据集合,它将一段时间内服务端和客户端发出的单向或双向数据包聚合成一条流数据;每一条流数据除包括上述五个特征,还包括字节数、包数和开始时间;在计算流量特征之前需要先指定一个采样窗口,用于计算窗口内特征值;特征序列预处理模块:对流量特征提取模块提取的流量特征序列进行预处理,首先采用经典季节性分解算法将所述流量特征序列分解为趋势、季节及残差三个子序列,趋势子序列提取了原始序列的整体走势,季节子序列提取原始序列在每个周期内不变的模式,残差子序列由原始序列减去趋势子序列和季节子序列,表示原始序列的剩余分量,这三个子序列相加重构回原始特征序列,最终得到分解后的网络流量特征序列;季节子序列是由算法中的周期延拓操作得到,不需要进行后续的建模预测;然后对趋势子序列以及残差子序列按滑动窗口采样得到后续建模需要的窗口特征序列样本,再应用时间序列数据增广方法,对滑动窗口采样得到的窗口特征序列样本进行扩展,得到最终的扩增数据;时间序列预测模块:使用基于神经网络确定阈值的去噪算法和趋势残差子序列联合建模的MCLSTM模型对分解后的网络流量特征序列的趋势子序列和残差子序列进行建模,首先使用神经网络去噪算法对残差子序列进行动态去噪,将去噪后的残差子序列和趋势子序列拼接,送入到LSTM网络中联合建模,得到趋势和残差序列的联合预测结果,然后经过全连接网络学习两者的关系,得到趋势序列和残差序列的权重系数,使用权重系数对趋势和残差的联合预测结果加权求和,再加上季节序列对应时间步的观测值,得到最终的预测结果。2.根据权利要求1所述的基于时间序列分解的网络流量预测系统,其特征在于:所述流量特征提取模块具体实现如下:计算不同特征前首先需要指定一个长度固定的采样窗口,计算窗口内的特征值;(1)针对服务器每个指定端口的流数据以及服务器总体流数据,计算对端IP熵,对端端口熵,源端口熵特征。在计算对端IP熵的时候,统计采样窗口内的每个IP的频率作为概率p
i
,i表示窗口内不重复的IP地址编号;然后再根据公式(1)计算熵值,作为这个采样窗口内的对端IP熵值,X表示采样窗口内对端IP序列,其中H(X)代表采样窗口内的对端IP熵值,m表示采样窗口内不重复的IP地址总数;计算对端端口熵的时候i表示采样窗口内不重复对端端口编号,p
i
表示采样窗口内每个不重复对端端口的频率,X表示采样窗口内对端端口序列,H(X)代表采样窗口内对端端口熵值,m表示采样窗口内不重复的对端端口总数;计算源端端口熵的时候i表示采样窗口内不重复源端端口编号,p
i
表示采样窗口内每个不重复源端端口的频率,X表示采样窗口内源端端口序列,H(X)代表采样窗口内源端端口熵值,m表示采样窗口内不重复的源端端口总数;(2)针对服务器每个指定端口的流数据以及服务器总体流数据计算对端IP数特征,计
算方法就是在采样窗口内统计服务器对端IP出现的个数;(3)针对服务器每个指定端口的流数据以及服务器总体流数据计算流入流量,流出流量和流入流出流量比例的特征,计算方法是在采样窗口内统计流入服务器的流量大小和流出服务器的流量大小,然后再计算比值。3.根据权利要求1所述的基于时间序列分解网络流量预测系统,其特征在于:所述特征序列预处理模块实现如下:(1)对于提取好的特征序列Y应用经典时间序列分解方法,分解为趋势,季节,残差三个子序列:首先指定一个周期m,对特征序列应用2
×
m
‑
MA移动平均算法,提取趋势子序列然后计算去趋势化后的序列计算全部周期内相同时间步的观测值的平均值作为没个周期内的每一时间步的观测值,得到了季节子序列最后依照公式得到残差子序列最后依照公式得到残差子序列(2)对趋势子序列和残...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。