一种基于多变量序贯分析的分布式网络流量异常检测方法技术

技术编号:11604309 阅读:114 留言:0更新日期:2015-06-17 01:41
本发明专利技术公开了一种基于多变量序贯分析的分布式网络流量异常检测方法,其特征在于:获取分布式网络中链路的网络流量信息,提取其中的数据包大小值;构建网络流量新息序列;多变量序贯概率比检验方法;构建似然比突变值序列;通过检测分布式网络2条以上的网络链路的似然比突变值序列的相关性来检测分布式网络异常的发生。本方法具有检测速度快,实时性高等特点;不仅可以检测DDOS攻击,针对DOS攻击也能够得到很好的检测效果。

【技术实现步骤摘要】

本专利技术涉及一种分布式网络异常检测方法,特别是一种基于多变量序贯分析的分布式网络流量异常检测方法
技术介绍
随着网络通信技术的快速发展,计算机网络改变了人们日常生活和工作方式,使得信息的获取、利用和处理更加高效,然而当我们在享受网络给我们带来便利的同时,还要时刻警惕网络异常行为给我们带来的危害。网络流量异常的特点是发作突然,先兆特征未知,大量消耗网络资源,导致网络拥塞、网络链路利用率下降、显著降低网络服务质量,有可能在短时间内给网络运营商和客户都产生极大的危害,此外,通常情况下,网络异常行为较正常行为相比,总量以及变化量都是很小的,因此如何准确、快速、实时地检测和响应流量异常是防范攻击、制定网络配置策略以实现合理利用网络资源的重要手段。近年来,研究人员将网络流行为的各种特征看作信号,采用信号处理的方法,探讨网络异常流行为在时域和频域中表现出的不同特性。基于信号处理的网络异常检测主要包括以下几种方法:基于时间的(Temporal)网络异常检测、基于谱分析(Spectrual Analysis)的网络异常检测以及基于空间(Spatial)的网络异常检 测。(1)基于时间的网络异常检测基于时间的网络异常检测方法主要采用应用时间序列分析方法进行分析。早期异常检测方法大多采用基于时间的方法,通过分析时间序列中偏离网络正常流行为的数据以检测网络异常。利用经典的时间序列预测模型,如AR[1]、ARMA[2]、ARIMA等,对网络流量进行预测,并根据预测值与实际观测值之间的偏差大小,通过设定一个阈值进行网络异常检测的目的。该方法特点在于通过构建时间序列模型能够准确地描述网络正常流行为的特征,但是其准确性还是主要依赖模型对数据动态性和复杂性的描述,在高速连接网络的情况下,时间序列模型将很难实现对网络流行为的准确刻画,这也是时间序列模型不能用于实时高速网络异常检测的主要原因。(2)基于谱分析的网络异常检测谱分析技术[3]广泛用于各种领域,采用谱技术能够从一个有噪声的环境中提取隐藏的模式和未来趋势。在过去几年,研究者已经将频率技术运用在网络异常流行为中,基于谱分析的网络异常检测是通过网络异常流行为在时域谱和频域谱上所反映出的统计特性与网络正常流行为之间的偏差来检测异常,该方法已经用于链路层的故障识别、DOS攻击检测、网络流量异常检测以及网络攻击行为指纹检测等。基于谱分析的网络异常检测技术通过对网络流行为信号的频 率进行分析,以得到与网络正常流行为信号特性偏差较大的异常流行为信号,该方法计算复杂度较低,计算效率高,但是采用该方法的检测率会随着异常信号周期性减弱而减弱,与基于时域的方法相比,基于频域的方法开销比较大,尤其是在处理高速网络的情况下。(3)基于空间的网络异常检测由于异常特征会受到空间特征的影响而使得异常特征在时间上相关性受到一定的抑制,为此研究人员提出基于空间的网络异常检测方法。如利用链路之间的相关性描述网络正常流行为,为了将网络中异常流行为从网络行为数据空间中提取出来,采用PCA(Principal ComponentAnalysis)分析的方法,将网络行为空间分为正常行为子空间和剩余行为子空间,采用Q统计法在剩余子空间里设置阈值判断网络异常的发生等。基于空间的网络异常检测方法与其他基于信号处理的方法相比,检测率相当,检测算法计算复杂度低,但检测对象仅限于在时域频域上异常特征不明显而空间上异常特征相关的异常行为。(4)时间序列分析方法由于网络流量数据是随时间变化的数据,因此我们可以把网络流量数据看成一个时间序列,用时间序列的方法对流量数据进行建模。平稳时间序列是序列中不存在任何趋势性和周期性,其统计意义就是一阶矩为常数,二阶矩存在且为时间间隔的函数。较常见的平稳时间序列模型有自回归模型(AR,Auto Regressive)、 滑动平均模型(MA,MovingAverage)以及自回归滑动平均模型(ARMA)。AR模型[1]是最常见的平稳时间序列模型,可以表示为:Xt=φ1Xt-1+φ2Xt-2+…+φpXt-p+at                (1-1) 其中at为白噪声,φi(1≤i≤p)为自回归系数。如果时间序列当前时刻t的值Xt与其以前时刻的值Xt-1,Xt-2,……无关,而与其以前时刻t-1,t-2,……进入系统的扰动at-1,at-2,……存在着某种相关关系,那么这一类时间序列可用MA模型表示。MA(q)模型可以表示为:Xt=at-θ1at-1-…-θqat-q                (1-2) 其中at为白噪声,θi(1≤i≤p)为滑动平均系数。ARMA模型描述的系统在时刻t的响应Xt不仅与其以前时刻的自身值有关,而且还与其以前时刻进入系统的扰动存在一定的依存关系。ARMA(p,q)模型可以表示为:Xt-Σk=1pφkXt-k=at-Σk=1qθkat-k---(1-3)]]>在这里我们引入后向算子B,它的运算有BXt=Xt-1,B2Xt=Xt-2B2,依此类推。那么式(1-3)可以变换为:Ф(B)Xt=θ(B)at               (1-4) 其中Ф(B)和θ(B)分别为后向算子B的p阶和q阶多项式1-φ1B-φ2B2-···-φPBp=Φ(B)1-θ1B-θ2B2-···-θqBq=θ(B)---(1-5)]]>序贯分析序贯分析,又称序列似然比检验,数理统计学的一个分支,研究的对象是没有固定数量大小的样本,它主要有2部分构成:停止抽样法则与结果判决法则,停止抽样法则用来判断对总体样本进行抽样的过程何时停止,结果判决法则根据停止抽样法则得到的数据对总体做出推断或选择。假设正常情况下随机变量X服从正态分布,即X~N(θ,σ2),θ∈(-∞,+∞),分布密度是:f(x,θ)=-12πexp{-12(x-θ)2本文档来自技高网...

【技术保护点】
一种基于多变量序贯分析的分布式网络流量异常检测方法,其特征在于:包括以下步骤:a、获取分布式网络中链路的网络流量信息,并对网络流量信息进行预处理,得到网络流量的属性数据信息,提取其中的数据包大小值;b、构建网络流量新息序列:使用时间序列预测算法ARMA模型,对该链路数据包大小值进行预测,所得预测值和步骤a中提取的真实流量数据包大小值比对,将两个数据进行作差处理,得到新息序列;c、多变量序贯概率比检验方法:将步骤b中的新息序列通过多变量序贯概率比检验,得到似然比值;d、将后一个时刻的似然比值减去前一个时刻的似然比值,得到似然比突变值,构建似然比突变值序列;e、通过检测分布式网络2条以上的网络链路的似然比突变值序列的相关性来检测分布式网络异常的发生:当2条链路似然比突变值的皮尔逊相关系数≥0.8时,认为网络中流量发生异常;当2条链路似然比突变值的皮尔逊相关系数<0.8时,认为网络中流量没有发生异常。f、输出异常检测结果:根据步骤e中相关性变化,得出网络异常检测的结果。

【技术特征摘要】
1.一种基于多变量序贯分析的分布式网络流量异常检测方法,
其特征在于:包括以下步骤:
a、获取分布式网络中链路的网络流量信息,并对网络流量信息
进行预处理,得到网络流量的属性数据信息,提取其中的数据包大小
值;
b、构建网络流量新息序列:使用时间序列预测算法ARMA模型,
对该链路数据包大小值进行预测,所得预测值和步骤a中提取的真实
流量数据包大小值比对,将两个数据进行作差处理,得到新息序列;
c、多变量序贯概率比检验方法:将步骤b中的新息序列通过多变
量序贯概率比检验,得到似然比值;
d、将后一个时刻的似然比值减去前一个时刻的似然比值,得到
似然比突变值,构建似然比突变值序列;
e、通过检测分布式网络2条以上的网络链路的似然比突变值序列
的相关性来检测分布式网络异常的发生:当2条链路似然比突变值的
皮尔逊相关系数≥0.8时,认为网络中流量发生异常;当2条链路似然
比突变值的皮尔逊相关系数<0.8时,认为网络中流量没有发生异常。
f、输出异常检测结果:根据步骤e中相关性变化,得出网络异常
检测的结果。
2.根据权利要求1所述的基于多变量序贯分析的分布式网络流量
异常检测方法,其特征在于:步骤b为:分布式网络中链路的数据包

\t大小为数值xi,通过ARMA模型得到预测值将xi与进行作差处理,
得到新息序列3.根据权利要求1所述的基于多变...

【专利技术属性】
技术研发人员:陈利民胡航宇马涛任阳阳陆飙王玮张晓于富财李由熊诚刘毅杨耀龙诺亚张猛撒兴杰张菡郑元伟
申请(专利权)人:贵州电网公司信息通信分公司电子科技大学
类型:发明
国别省市:贵州;52

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1