一种基于最大频繁模式非相似性的异常网络流量检测方法技术

技术编号:33734065 阅读:22 留言:0更新日期:2022-06-08 21:30
本发明专利技术提供了一种基于最大频繁模式非相似性的异常网络流量检测方法。包括:步骤1,利用模式增长法挖掘网络流量中的最大频繁模式,有效发现网络流量中属性的关联关系;步骤2,利用挖掘得到的具有强关联关系的网络流量的属性,构建基于最大频繁模式的非相似性指数,用于衡量各条网络流量的异常程度;步骤3,根据步骤2所构建的最大频繁模式的非相似性指数,计算每条网络流量的异常程度;步骤4,将网络流量按照异常度的降序顺序排列,得到异常网络流量检测报告。检测报告。检测报告。

【技术实现步骤摘要】
一种基于最大频繁模式非相似性的异常网络流量检测方法


[0001]本专利技术属于异常网络流量检测领域,涉及一种基于最大频繁模式非相似性的异常网络流量检测方法。

技术介绍

[0002]随着互联网技术的快速发展,网络流量的规模呈现出爆发式增长的趋势,如何对采集到的网络流量进行准确分类引起了学术界的广泛关注,也是一个亟待解决的关键问题。对网络流量进行准确分类的前提是所收集的网络流量数据集是安全可靠的,即所收集的网络流量数据集不包含任何异常的流量数据。因此,在进行网络流量分类操作之前,对网络流量数据进行异常检测以消除异常流量是非常必要的。另一方面,对网络流量数据的日益重视也使得人们对网络流量的安全问题更加关注,因此,如何使采集到的网络流量数据更加安全也成为研究热点。
[0003]与普通数据相比,网络流量数据是由多个具有不同属性的数据元素组成,而不同属性的数据元素通常具有一定的关联性,这就需要对网络流量数据中的属性进行关联分析。同样,在对网络流量数据进行异常检测的过程中,也需要充分考虑网络流量数据属性之间的关联,才能更准确地检测出隐藏在网络流量数据中的异常流量。作为保证网络流量数据安全的重要方法,异常检测是这些年的研究热点,它被广泛应用于信用卡欺诈检测、网络入侵检测、社交网络检测、轨迹检测等领域。
[0004]近年来,学者们提出了大量的异常检测方法,包括:基于聚类的方法、基于距离的方法、基于密度的方法、基于模型的方法、基于分布的方法、基于深度学习的方法以及基于关联关系的方法。在这些异常检测方法中,大多数只考虑数据实例与周围其他数据的偏离程度。与其他类型的异常检测方法不同,基于关联关系的离群点检测方法通过频繁(或不频繁)模式挖掘阶段和异常检测阶段进行异常流量的检测操作。其中,模式挖掘阶段的主要任务是挖掘网络流量数据集中具有强关联或弱关联的项集,而异常检测阶段的主要任务是设计更完整的偏差指数,全面衡量网络流量数据的异常程度,从而提高检测精度。由于基于关联关系的异常检测方法在充分考虑了网络流量属性之间的关联,因此可以有效地发现潜在的异常流量。
[0005]对于基于关联关系的异常检测方法,虽然设计的偏差指数是检测精度的保证,但归根结底,异常检测的基础是分析挖掘出的网络流量中的频繁模式与被检测网络流量之间的(非)相似度。其中,与频繁模式相似度较高的网络流量不太可能是异常流量,与非频繁项集相似度较高的网络流量更可能是异常流量。虽然设计多个偏差指数可以有效提高异常检测的准确性,但是多个偏差指数的设计需要多次扫描网络流量才能有效计算出异常程度,这就导致异常检测的时间消耗非常长。此外,当最小支持度阈值(记录为min_sup,用于判断网络流量中的属性是否为频繁模式)设置得比较大时,可以挖掘的频繁模式(或其压缩形式,如封闭频繁模式、最大频繁模式)的数量会比较少,这会导致基于关联关系的异常检测方法的检测精度较差。
[0006]基于此,本专利技术提出了一种基于最大频繁模式非相似性的异常网络流量检测方法。在模式挖掘阶段,通过挖掘网络流量中的最大频繁模式(一种具有关联关系的属性压缩形式,最大频繁模式中的任意属性组合都是频繁出现的)来减少异常检测阶段使用的模式数量,从而减少该阶段消耗的时间;在异常检测阶段,通过考虑网络流量与最大频繁模式的非相似性,构造了基于最大频繁模式的非相似性指数,有效地解决了当min_sup设置得较大时由于挖掘得到的频繁模式较少而导致的异常检测精度低的问题,从而提高异常网络流量的检测准确率。大量的对比实验证明本专利技术提出的异常网络流量检测方法能够获得更高的检测准确性,且时间消耗也更少。

技术实现思路

[0007]现有技术中的基于关联关系的异常网络流量检测方法是基于频繁模式的挖掘进行异常流量的检测,这就导致时间消耗比较长;并且当最小支持度阈值设置得较大时,由于频繁模式数量过少,容易引起的检测准确率出现明显下降的问题。基于此,本专利技术提出了一种基于最大频繁模式非相似性的异常网络流量检测方法用以解决上述存在的问题。
[0008]本专利技术提供了一种基于最大频繁模式非相似性的异常网络流量检测方法,包括:
[0009]步骤1,利用模式增长法挖掘网络流量中的最大频繁模式,有效发现网络流量中属性的关联关系;
[0010]步骤2,利用挖掘得到的具有强关联关系的网络流量的属性,构建基于最大频繁模式的非相似性指数,用于衡量各条网络流量的异常程度;
[0011]步骤3,根据步骤2所构建的最大频繁模式的非相似性指数,计算每条网络流量的异常程度;
[0012]步骤4,将网络流量按照异常度的降序顺序排列,得到异常网络流量检测报告。
[0013]第一方面,上述步骤1的具体步骤如下:
[0014]步骤1.1,扫描搜集的网络流量,将每一个属性进行标准化处理以消除属性度量不一致带来的影响,计算标准化后网络流量中每个属性的支持度,从而删除支持度小于预设的最小支持度阈值min_sup的非频繁属性,并将频繁的属性(即支持度不小于min_sup的属性)按照其支持度降序的顺序进行排列;
[0015]步骤1.2,将网络流量中所有长度为1的频繁的属性(简称为:频繁1

模式)按照步骤1.1排列好的顺序依次插入一课以NULL为根节点的频繁模式树(Frequent Pattern Tree,简称为:FP

Tree)中;
[0016]步骤1.3,从FP

Tree中依次取出支持度等于min_sup的频繁1

模型,利用模式增长法(FP

Growth)分别递归FP

Tree的路径以将其与其它的频繁1

模式进行“模式扩展”(即扩展的过程从2

模式至更长的模式),通过计算所扩展得到的模式的支持度并将其支持度与min_sup进行比较,以挖掘最大频繁模式;
[0017]步骤1.4,从FP

Tree中取出支持度大于最小支持度阈值的频繁1

模式,利用模式增长法(FP

Growth)分别递归FP

Tree的路径以将其首先扩展为k

模式(k为可扩展模式的最长长度);
[0018]步骤1.5,计算由步骤1.4扩展得到的k

模式的支持度,若k

模式的支持度不小于min_sup则输出此k

模式,否则回溯FP

Tree树以扩展得到(k

1)

模式并计算(k

1)

模式的
支持度,依此类推直至发现支持度不小于min_sup的模式为止。
[0019]第二方面,上述步骤2具体包括:
[0020]步骤2.1,统计网络流量中所有属性的个数(记为:N(T
i
),其中T
i
表示第i本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于最大频繁模式非相似性的异常网络流量检测方法,其特征在于,包括如下步骤:步骤1,利用模式增长法挖掘网络流量中的最大频繁模式,有效发现网络流量中属性的关联关系;步骤2,利用挖掘得到的具有强关联关系的网络流量的属性,构建基于最大频繁模式的非相似性指数,用于衡量各条网络流量的异常程度;步骤3,根据步骤2所构建的最大频繁模式的非相似性指数,计算每条网络流量的异常程度;步骤4,将网络流量按照异常度的降序顺序排列,得到异常网络流量检测报告。2.如权利要求1所述方法,其特征在于,所述步骤1的具体实现包括如下步骤:步骤2.1,扫描网络流量,计算网络流量中每个属性的支持度,从而删除支持度小于最小支持度阈值的非频繁属性,并将频繁的属性按照其支持度降序的顺序进行排列;步骤2.2,将网络流量中所有长度为1的频繁的属性,即频繁1

模式,按照步骤2.1排列好的顺序依次插入一课以NULL为根节点的频繁模式树中,频繁模式树简称为:FP

Tree;步骤2.3,从FP

Tree中依次取出支持度等于设定的最小支持度阈值的频繁1

模式,将其按照模式增长法分别与其它的频繁1

模式进行“模式扩展”,即扩展的过程从2

模式至更长的模式,通过计算所扩展得到的模式的支持度并将其支持度与最小支持度阈值进行比较,以挖掘最大频繁模式;步骤2.4,从FP

Tree中取出支持度大于最小支持度阈值的频繁1

模式,将其按照FP

Tree结构进行模式的遍历以将其首先扩展为k

模式,k为可扩展模式的最长长度;步骤2.5,计算由步骤2.4扩展得到的k

模式的支持度,若k

模式的支持度不小于...

【专利技术属性】
技术研发人员:蔡赛华陈锦富徐波魏忠旺林敏
申请(专利权)人:江苏省未来网络创新研究院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1