【技术实现步骤摘要】
一种基于INFIGARCH模型的网络流量异常检测方法及设备
本专利技术涉及网络安全领域,具体涉及一种基于INFIGARCH模型的网络流量异常检测方法及设备。
技术介绍
伴随着网络日渐深入人们的日常生产生活,网络攻击问题也日益严重。由于网络数据流包含时间戳,天然就是一个时间序列。所以基于时间序列模型,进行网络异常检测是一种常用的手段。传统上,时间序列网络流量异常检测方法主要考虑将网络流量视为实数或变换为实数后,按实数时间序列进行建模。同时,现有的基于时间序列模型往往基于传统的ARIMA模型或统计检验,这些方法一般忽略了网络流量数据分布的右偏性,数据之间的异方差性和长记忆性。现有方案之一,一种基于差分自回归滑动平均模型的网络流量异常检测方法。该方法基于差分自回归滑动平均模型ARIMA模型。该方法:包括第一步:确定滑动窗口大小;第二步:对第一步确定的窗口内的流量数据进行平稳性判断,若流量数据不平稳则进行d次差分直到平稳。判断平稳的依据是Dickey-Fuller检验;第三步:对第二步中得到的数据利用AIC准则确定模型的阶数,即p和q的值,结合第二步中d的值,得到ARIMA(p,d,q)模型;第四步:用极大似然估计方法确定ARIMA(p,d,q)的参数值;第五步:根据第四步的模型做L步预报;第六步:根据第五步的预报值做指数加权平均生成当前流量的预测值然后与当前时刻流量的真实值做误差判定。若误差大于给定的阈值,则判定为异常。第七步:移动窗口进行下一次判断。现有技术方案的缺点:该方法完全忽视了网络流量包数量的如下特性:(1)整数性。网络流量包的数量只能是1个,2个等非 ...
【技术保护点】
一种基于INFIGARCH(1,d,1)模型的网络流量异常检测方法,具体包括如下步骤:S1:确定建模移动窗口时间跨度的大小m;S2:确定数据聚合后每个数据点对应的时间间隔的大小;S3:确定模型更新时间跨度Tgap;S4:对由步骤S1所确定的时间跨度内移动窗口中流量数据按所述S2步骤中的时间间隔进行聚合;S5:使用极大似然估计法在约束条件下的最大化似然函数估计得到INFIGARCH(1,d,1)模型的待定参数,同时记录所用最后一个数据点对应的时间Test;S6:根据步骤S5得到的参数,代入INFIGARCH(1,d,1)模型进行L步预测,每一个预测值对应一个预测时刻,以数据框形式储存预测结果;所述数据框共L行五列:第一列为时刻,第二列为该时刻对应的预测值,第三列为该时刻预测值置信水平α1=0.95的右侧置信区间的上界阈值,第四列为该时刻预测值置信水平α2=0.99的右侧置信区间的上界阈值;第五列为该时刻预测值置信水平α3=0.999的右侧置信区间的上界阈值;每行对应第i步预报,i=1,...,L;S7:用步骤S2中选定的时间间隔聚合新到的流量,记录时刻和对应的聚合流量,其中所述聚合流量记 ...
【技术特征摘要】
1.一种基于INFIGARCH(1,d,1)模型的网络流量异常检测方法,具体包括如下步骤:S1:确定建模移动窗口时间跨度的大小m;S2:确定数据聚合后每个数据点对应的时间间隔的大小;S3:确定模型更新时间跨度Tgap;S4:对由步骤S1所确定的时间跨度内移动窗口中流量数据按所述S2步骤中的时间间隔进行聚合;S5:使用极大似然估计法在约束条件下的最大化似然函数估计得到INFIGARCH(1,d,1)模型的待定参数,同时记录所用最后一个数据点对应的时间Test;S6:根据步骤S5得到的参数,代入INFIGARCH(1,d,1)模型进行L步预测,每一个预测值对应一个预测时刻,以数据框形式储存预测结果;所述数据框共L行五列:第一列为时刻,第二列为该时刻对应的预测值,第三列为该时刻预测值置信水平α1=0.95的右侧置信区间的上界阈值,第四列为该时刻预测值置信水平α2=0.99的右侧置信区间的上界阈值;第五列为该时刻预测值置信水平α3=0.999的右侧置信区间的上界阈值;每行对应第i步预报,i=1,...,L;S7:用步骤S2中选定的时间间隔聚合新到的流量,记录时刻和对应的聚合流量,其中所述聚合流量记为xnew;S8:将步骤S7中获得的最新完整聚合流量与步骤S6中预测时刻相同的流量上界阈值作比较;若流量小于第三列α1=0.95上界阈值,判断为正常,返回绿色信号;若流量小于第四列α2=0.99的上界阈值同时大于等于第三列α1=0.95的上界阈值,则返回黄色信号;若流量大于等于第四列α2=0.99的上界阈值同时小于第五列α3=0.999的上界阈值,则返回橙色信号;若流量大于等于第五列α3=0.999的上界阈值,返回红色信号;S9:比较当前时间和步骤S5中记录的Test,若两者差距大于Tgap,返回步骤S4,更新模型,否则执行步骤S10;S10:将步骤S7聚合的数据加入时间序列队列之中,移动时间窗口,使得步骤S7中的数据进入时间窗口,同时剔除时间较旧的数据,以保证时间窗口与步骤S1中选定的宽度一致。2.根据权利要求1所述的方法,其特征在于:所述步骤S5具体包括以下分步骤:S51:计算时间窗口内数据的算术平均值即将窗口内的流量数据求和并除以窗口内的数据点数量;所述的数据点数量为经过步骤S4聚合后的数据点;S52:计算时间窗口内数据的标准差σ;S53:随机选择d、δ、ξ和λ这四个参数的初始值,只需它们满足0<ξ<δ<d<1即可;S54:确定足够大的正整数M,由于得到用ξ,δ,λ,d表示的ηi和λt;S55:用步骤S54的λt计算对数似然函数:其中lt是时刻t的对数似然函数,m是时间窗口中样本的数量,x!表示非负整数x的阶乘;S56:为保证条件方差λt始终非负,以ξ-δ<0,δ-d<0和d-1<0作为约束条件,用约束条件下,求函数最大值的方法,最大化对数似然函数l(ξ,δ,λ,d),求得参数ξ,δ,λ,d的值;S57:为后续步骤能判断是否需要更新模型,记录当前时间为Test。3.根据权利要求1或2所述的方法,其特征在于:所述步骤S6具体包括以下分步骤:S61:令i=1,同时构造一个L行5列的数据框;S62:将由步骤S5求得的ξ,δ,λ,d代入此处,同样用步骤S54确定的正整数M近似∞,计算得到最新的时刻t+i的λt+i,取小于等于λt+i的最大非负整数为流量在时刻t+i的预报;S63:令α1=0.95,α2=0.99,α3=0.999;S64:令j=1;S65:令pj=0,k=0,S66:以步骤S62计算得到的λt+i为Poisson分布的参数,计算该分布取值为k的概率并更新pj=pj+Pk;S67:判断pj是否大于αj;S68:若S67判断为真,则置信水平为αj的置信上界为k-1,记入数据框第i行第j+2列。转到步骤S610;S69:若S67判断为假,更新k=k+1,并转至步骤S66;S610:判断j是否大于3;S611:若S610判断为假,则更新j=j+1,并转至步骤S65;S612:若S610判断为真,则判断i是否大于L;若i>L为真,则进行步骤S7;S613:若S612判断为假,则更新i=i+1并转至步骤S62。4.根据权利要求3所述的方法,其特征在于:所述步骤S8具体包括以下分步骤:S81:选择步骤S6预报时间与步骤S7中聚合时间相同的行;S82:令j=5,signal2=绿,signal3=黄,signal4=橙,signal5=红;本处脚标从2开始是为了异常警告正好与数据在数据框中的列对应,程序编写方便;S83:判断xnew是否小于第j列的值;S84:若S83判断为假,返回signalj信号,表示流量异常,异常等级由信号颜色标识。然后转到步骤S9;S85:若S83判断为真,则比较j是否等于3;S86:若S85判断为假,则更新j=j-1,并转到步骤S83;S87:若S85判断为真,则返回signal2信号,表示没有异常流量并转到步骤S9;5.根据权利要求4所述的方法,其特征在于:所述步骤S10具体包括以下分步骤:S101:设原数据窗口中的数据为(xt-m+1,xt-m+2,...,,xt,)将数据窗口中最晚的数据xt对应的时间与当前时间之间的流量用步骤S4相同的方法聚合,记为(xt+1,...,xt+n);S102:将新旧数据组合(xt-m+1,xt-m+2,...,xt,xt+1,xt+2,...,xt+n,);S103:剔除旧数据,剩余(xt+n-m+1,xt-m+2,...,xt,xt+1,xt+2,...,xt+n)即为新的保持窗口宽度不变的序列。6.一种电子设备,包括:至少一个处理器;以及,与所述至少一个处理器通信连接的存储器;其中,所述...
【专利技术属性】
技术研发人员:金曙松,李强,
申请(专利权)人:北京溢思得瑞智能科技研究院有限公司,北京聚睿智能科技有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。