一种网络流量异常检测方法及装置制造方法及图纸

技术编号:22597518 阅读:20 留言:0更新日期:2019-11-20 12:26
本发明专利技术公开了一种网络流量异常检测方法及装置,用以解决现有技术中网络流量时间序列的异常值检测方法中的阈值设定法确定的异常值范围不准确、而引起的网络流量异常误判的问题。所述网络流量异常检测方法包括:根据获取的网络流量的时间序列数据生成的训练集确定基准序列和正常值范围的上、下边界序列,其中,所述时间序列数据为若干个采样周期的网络流量时间序列;根据所述基准序列和正常值范围的上、下边界序列对待检测的网络流量时间序列进行检测。

An anomaly detection method and device for network traffic

The invention discloses a network traffic anomaly detection method and device, which is used to solve the problem that the range of outliers determined by the threshold setting method of the outliers detection method of the network traffic time series in the prior art is not accurate, and the network traffic anomaly misjudgment is caused. The network traffic anomaly detection method includes: determining the upper and lower boundary sequence of the reference sequence and the normal value range according to the training set generated by the acquired network traffic time series data, wherein the time series data is the network traffic time sequence of several sampling periods; and the network to be detected according to the upper and lower boundary sequence of the reference sequence and the normal value range The flow time series is detected.

【技术实现步骤摘要】
一种网络流量异常检测方法及装置
本专利技术涉及网络信息安全
,尤其涉及一种网络流量异常检测方法及装置。
技术介绍
随着网络技术的不断发展,网络攻击等恶意行为已经严重威胁到计算机网络安全,网络异常行为会导致网络流量异常,出于网络安全和业务管理等方面的考虑,需要对一些网络流量进行监控,能够及时准确地检测出网络流量异常对于维护网络安全有着非常重要的意义。时间序列是由记录值和记录时间组成的元素的有序集合,时间序列的一个重要特征就是具有时间属性,序列值之间必须按照时间先后顺序进行严格的排序。现有技术中针对网络流量时间序列的异常值检测方法如阈值设定法,一般通过比较单位时长流量值与预设固定阈值,根据单位时长流量值与预设固定阈值的大小关系来判断该单位时长流量值是否异常,其中,3σ准则是异常值判断的一种常用方法。3σ准则又称为拉依达准则,它是先假设一组检测数据只包含有随机误差,对其进行计算处理得到标准偏差,按一定概率确定一个区间,认为凡是超过这个区间的误差就不属于随机误差,而是粗大误差,含有该误差的数据应予以剔除。现有的预设固定阈值的网络流量判断机制,由于阈值是预设的且一般都是固定不变的,这使得在一些网络流量波动较大的复杂场景下,经常会出现流量异常误判的情况。例如,3σ准则先假设一组检测数据只含有随机误差,使得确定的异常值范围不够准确。
技术实现思路
为了解决现有技术中网络流量时间序列的异常值检测方法中的阈值设定法确定的异常值范围不准确、而引起的网络流量异常误判的问题,本专利技术实施例提供了一种网络流量异常检测方法及装置。第一方面,本专利技术实施例提供了一种网络流量异常检测方法,包括:根据获取的网络流量的时间序列数据生成的训练集确定基准序列和正常值范围的上、下边界序列,其中,所述时间序列数据为若干个采样周期的网络流量时间序列;根据所述基准序列和正常值范围的上、下边界序列对待检测的网络流量时间序列进行检测。采用本专利技术实施例提供的网络流量异常检测方法,服务器获取若干个采样周期的网络流量时间序列作为训练集,根据该训练集确定基准序列和正常值范围的上、下边界序列,再根据确定的基准序列和正常值范围的上、下边界对待检测的网络流量时间序列进行检测,本专利技术实施例提供的网络流量异常检测方法,在分析网络流量时间序列特性的基础上,采用一种新的监督学习算法来计算数据正常值范围和检测基准序列,通过分析隐藏在海量网络流量数据背后的特征,来对网络流量时间序列进行异常点的检测与分析,从而提高网络流量异常检测的准确性。较佳地,根据获取的网络流量的时间序列数据生成的训练集确定基准序列和正常值范围的上、下边界序列,具体包括:根据所有采样周期的网络流量时间序列的均值和标准偏差确定所述训练集中的潜在异常数据;确定每个采样周期的网络流量时间序列中的潜在自波动异常数据,所述自波动表征一个时间序列中相邻两点的变化;对确定的所述潜在异常数据和所述潜在自波动异常数据进行异常值标签标注;根据所述标注了标签后的训练集确定基准序列和正常值范围的上、下边界序列。本专利技术中,根据训练集中所有采样周期的网络流量时间序列的均值和标准偏差确定训练集中的潜在异常数据,再确定每个采样周期的网络流量时间序列中的潜在自波动异常数据,其中,自波动表征一个时间序列中相邻两点的变化,自波动异常表征时间序列中相邻两点的变化存在异常,对确定出的潜在异常数据和潜在自波动异常数据进行异常值标签标注,根据标注了标签后的训练集确定基准序列和正常值范围的上、下边界序列,再根据所述基准序列和正常值范围的上、下边界序列对待检测的网络流量时间序列进行检测。本专利技术实施例提供的网络流量异常检测方法,在分析网络流量时间序列特性的基础上,采用上述新的监督学习算法来计算数据正常值范围和检测基准序列,来对网络流量时间序列进行异常点的检测与分析,提高了网络流量异常检测的准确性。较佳地,根据所有采样周期的网络流量时间序列的均值和标准偏差确定所述训练集中的潜在异常数据,具体包括:计算所有采样周期的网络流量时间序列中数据的第一均值和第一标准偏差;将所述训练集中小于所述第一均值与第一标准偏差之差,或大于所述第一均值与第一标准偏差之和的数据确定为潜在异常数据。本专利技术实施例提出通过σ准则筛选潜在网络流量异常值,即通过计算所有采样周期的网络流量时间序列中数据的均值和标准偏差,分别记作第一均值和第一标准偏差,将训练集中在第一均值与第一标准偏差之差、以及第一均值与第一标准偏差之和区间范围之外的数据确定为潜在异常数据。σ准则相较于3σ准则更适用于日益增多的网络流量数据量。较佳地,通过以下步骤确定每个采样周期的网络流量时间序列中的潜在自波动异常数据:针对每一采样周期的网络流量时间序列,计算所述网络流量时间序列的自波动序列,所述自波动序列为所述时间序列中每两个相邻数据差值的绝对值与所述两个元素中的前一个元素的比值组成的序列;计算所述自波动序列的第二均值和第二标准偏差;确定所述采样周期的网络流量时间序列中小于所述第二均值与第二标准偏差之差,或大于所述第二均值与第二标准偏差之和的数据为潜在自波动异常数据。在通过σ准则筛选所有采样周期的网络流量时间序列中的潜在异常数据的基础上,进一步提出时间序列的自波动异常检测方法,筛选每一采样周期的网络流量时间序列中的潜在自波动异常数据,使得确定出的潜在的异常值的范围更加准确,避免异常值漏判的情况。较佳地,对确定的所述潜在异常数据和所述潜在自波动异常数据进行异常值标签标注,具体包括:将所述潜在异常数据和所述潜在自波动异常数据中小于所述第一均值与第一标准偏差之差的数据标注为超小异常值,将所述潜在异常数据和所述潜在自波动异常数据中大于所述第一均值与第一标准偏差之和的数据标注为超大异常值;以及所述方法,还包括:将所述训练集中大于等于所述第一均值与第一标准偏差之差且小于等于第一均值与第一标准偏差之和的数据标注为潜在正常值。根据σ准则确定的潜在正常值的区间范围,将确定的潜在异常数据和潜在的自波动异常数据中小于该潜在正常值的区间范围的下边界的数据标注为超小异常值,将大于该潜在正常值的区间范围的上边界的数据标注为超大异常值,并对在该潜在正常值的区间范围内的数据标准为潜在正常值,从而,超大异常值、潜在正常值和超小异常值构成一个三层带状数据分布结构,为后续计算基准序列和正常值范围的上、下边界序列提供数据基础。较佳地,根据所述标注了标签后的训练集确定基准序列,具体包括:剔除每一采样周期的网络流量时间序列中标注了异常值标签的数据;将剔除的异常值数据的个数大于预设阈值的网络流量时间序列删除;根据预设插值算法将剔除的异常值数据的个数小于等于所述预设阈值的网络流量时间序列中剔除异常值的位置进行插值补充;将所述插值补充后的网络流量时间序列以及不包含异常值的网络流量时间序列进行积分过滤;对各积分过滤后的网络流量时间序列进行加权计算获得基准序列。本文档来自技高网...

【技术保护点】
1.一种网络流量异常检测方法,其特征在于,包括:/n根据获取的网络流量的时间序列数据生成的训练集确定基准序列和正常值范围的上、下边界序列,其中,所述时间序列数据为若干个采样周期的网络流量时间序列;/n根据所述基准序列和正常值范围的上、下边界序列对待检测的网络流量时间序列进行检测。/n

【技术特征摘要】
1.一种网络流量异常检测方法,其特征在于,包括:
根据获取的网络流量的时间序列数据生成的训练集确定基准序列和正常值范围的上、下边界序列,其中,所述时间序列数据为若干个采样周期的网络流量时间序列;
根据所述基准序列和正常值范围的上、下边界序列对待检测的网络流量时间序列进行检测。


2.如权利要求1所述的方法,其特征在于,根据获取的网络流量的时间序列数据生成的训练集确定基准序列和正常值范围的上、下边界序列,具体包括:
根据所有采样周期的网络流量时间序列的均值和标准偏差确定所述训练集中的潜在异常数据;
确定每个采样周期的网络流量时间序列中的潜在自波动异常数据,所述自波动表征一个时间序列中相邻两点的变化;
对确定的所述潜在异常数据和所述潜在自波动异常数据进行异常值标签标注;
根据所述标注了标签后的训练集确定基准序列和正常值范围的上、下边界序列。


3.如权利要求2所述的方法,其特征在于,根据所有采样周期的网络流量时间序列的均值和标准偏差确定所述训练集中的潜在异常数据,具体包括:
计算所有采样周期的网络流量时间序列中数据的第一均值和第一标准偏差;
将所述训练集中小于所述第一均值与第一标准偏差之差,或大于所述第一均值与第一标准偏差之和的数据确定为潜在异常数据。


4.如权利要求3所述的方法,其特征在于,通过以下步骤确定每个采样周期的网络流量时间序列中的潜在自波动异常数据:
针对每一采样周期的网络流量时间序列,计算所述网络流量时间序列的自波动序列,所述自波动序列为所述时间序列中每两个相邻数据差值的绝对值与所述两个元素中的前一个元素的比值组成的序列;
计算所述自波动序列的第二均值和第二标准偏差;
确定所述采样周期的网络流量时间序列中小于所述第二均值与第二标准偏差之差,或大于所述第二均值与第二标准偏差之和的数据为潜在自波动异常数据。


5.如权利要求4所述的方法,其特征在于,对确定的所述潜在异常数据和所述潜在自波动异常数据进行异常值标签标注,具体包括:
将所述潜在异常数据和所述潜在自波动异常数据中小于所述第一均值与第一标准偏差之差的数据标注为超小异常值,将所述潜在异常数据和所述潜在自波动异常数据中大于所述第一均值与第一标准偏差之和的数据标注为超大异常值;以及
所述方法,还包括:
将所述训练集中大于等于所述第一均值与第一标准偏差之差且小于等于第一均值与第一标准偏差之和的数据标注为潜在正常值。


6.如权利要求5所述的方法,其特征在于,根据所述标注了标签后的训练集确定基准序列,具体包括:
剔除每一采样周期的网络流量时间序列中标注了异常值标签的数据;
将剔除的异常值数据的个数大于预设阈值的网络流量时间序列删除;
根据预设插值算法将剔除的异常值数据的个数小于等于所述预设阈值的网络流量时间序列中剔除异常值的位置进行插值补充;
将所述插值补充后的网络流量时间序列以及不包含异常值的网络流量时间序列进行积分过滤;
对各积分过滤后的网络流量时间序列进行加权计算获得基准序列。


7.如权利要求1~6任一项所述的方法,其特征在于,在根据所述标注了标签后的训练集确定基准序列之后,还包括:
获取验证数据集,所述验证数据集为和所述训练集具有相同个数采样周期的网络流量时间序列;
对所述验证数据集中的各采样周期的网络流量时间序列和所述训练集中的各采样周期的网络流量时间序列分别进行积分过滤;
计算进行积分过滤后的验证数据集中的各采样周期的网络流量时间序列与所述基准序列的平均误差d1,以及进行积分过滤后的训练集中的各采样周期的网络流量时间序列与所述基准序列的平均误差d0;
根据d1和d0的比值判断所述基准序列是否通过验证。


8.如权利要求7所述的方法,其特征在于,根据d1和d0的比值判断所述基准序列是否通过验证,具体包括:
判断d1和d0的比值是否在第一预设区间内;
如果是,则确定所述基准序列通过验证;
否则,确定所述基准序列未通过验证,并将所述验证数据集和所述训练集合并成新的训练集,重新计算基准序列。


9.如权利要求5所述的方法,其特征在于,根据所述标注了标签后的训练集确定正常值范围的上、下边界序列,具体包括:
获取所述标注了标签后的各采样周期的网络流量时间序列中每一采样时刻对应的数据;
获取每一采样时刻超大异常值的最小值、潜在正常值的最大值和最小值、以及超小异常值的最大值;
将所述获取的超大异常值的最小值按采样时间顺序组合成超大异常值的最小值时间序列,将潜在正常值的最大值按采样时间顺序组合成潜在正常值的最大值时间序列,将潜在正常值的最小值按采样时间顺序组合成潜在正常值的最小值时间序列,以及将超小异常值的最大值按采样时间顺序组合成超小异常值的最大值时间序列;
对所述超大异常值的最小值时间序列、所述潜在正常值的最大值时间序列、所述潜在正常值的最小值时间序列以及所述超小异常值的最大值时间序列分别做自波动异常检测,确定各时间序列中的潜在自波动异常数据并剔除;
对剔除了潜在自波动异常数据的所述各时间序列中无数据的采样时刻进行插值补充;
对所述进行插值补充后的所述各时间序列分别进行积分过滤获得积分过滤后的超大异常值的最小值时间序列、潜在正常值的最大值时间序列、潜在正常值的最小值时间序列以及超小异常值的最大值时间序列;
根据所述积分过滤后的超大异常值的最小值时间序列和所述积分过滤后的潜在正常值的最大值时间序列确定正常值的上边界序列;并
根据所述积分过滤后的潜在正常值的最小值时间序列和所述积分过滤后的超小异常值的最大值时间序列确定正常值的下边界序列。


10.如权利要求9所述的方法,其特征在于,
根据所述积分过滤后的超大异常值的最小值时间序列和所述积分过滤后的潜在正常值的最大值时间序列确定正常值的上边界序列,具体包括:
将所述积分过滤后的超大异常值的最小值时间序列和所述积分过滤后的潜在正常值的最大值时间序列的均值时间序列确定为正常值的上边界序列;
根据所述积分过滤后的潜在正常值的最小值时间序列和所述积分过滤后的超小异常值的最大值时间序列确定正常值的下边界序列,具体包括:
将所述积分过滤后的潜在正常值的最小值时间序列和所述积分过滤后的超小异常值的最大值时间序列的均值时间序列确定为正常值的下边界序列。


11.如权利要求1所述的方法,其特征在于,根据所述基准序列和正常值范围的上、下边界序列对待检测的网络流量时间序列进行检测,具体包括:
将待检测的网络流量时间序列中的数据和所述正常值范围的上、下边界序列进行比较;
将所述待检测的网络流量时间序列中超出正常值范围的数据标注为异常值;并
判断所述待检测的网络流量时间序列每一采样时刻对应...

【专利技术属性】
技术研发人员:迟德中安婧
申请(专利权)人:中移苏州软件技术有限公司中国移动通信集团有限公司
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1