一种基于Count-Min概要数据结构的网络流量概念漂移检测方法技术

技术编号:38230222 阅读:11 留言:0更新日期:2023-07-25 17:58
本发明专利技术涉及一种基于Count

【技术实现步骤摘要】
一种基于Count

Min概要数据结构的网络流量概念漂移检测方法


[0001]本专利技术属于网络流量分析领域,具体涉及一种基于Count

Min概要数据结构的网络流量概念漂移检测方法。

技术介绍

[0002]互联网流量与传统的静态数据不同,具有海量性、动态性和实时性,给流量分类带来了很大的挑战。当网络流量发生概念漂移时,会导致分类器性能下降,分类准确率降低。因此,需要检测网络流量是否发生了概念漂移,如果发生,为保持分类器的稳定性,需要更新分类模型。
[0003]目前,已经提出了很多针对数据流的概念漂移的分类方法。第一类方法是构建能够自动适应数据流变化的分类器,该类方法增量式的更新分类器,无法检测出数据流中发生的概念转变;第二类方法则是分离数据流概念漂移检测器和分类模型,当概念漂移检测器发现数据流变化时,再对分类模型进行更新。第二类方法能够发现数据流中概念漂移发生的时间和数据变点,为接下来的工作提供支持数据。
[0004]在第二类的概念漂移检测方法中,也包含两种不同的漂移检测方法。第一种方法是基于分类器的分类结果来判断漂移是否发生,包括分类错误率,分类准确率,召回率,分类精度等分类指标。该类方法容易造成对分类结果的过度依赖,可能会导致概念漂移的误判和漏检。第二种方法则是从数据流的概率分布入手,检测数据流概率分布的变化来判断是否发生概念漂移。
[0005]基于数据流分布的概念漂移检测方法能很好的适用于网络流量的概念漂移检测,通过检测网络流量不同维度属性的分布变化来判断网络流量中是否产生了概念漂移。然而,现有的方法还无法检测出网络流量概念漂移的类型。因此,为了满足高速网络条件下实时高维流量数据概念漂移检测的要求,本专利技术采用概要数据结构存储网络流量的属性特征统计信息,在该数据结构上监测网络流量各维度Hellinger距离的变化情况来判断是否发生了概念漂移。检测到网络流量概念漂移后,进一步检测网络流量概念漂移的类型。

技术实现思路

[0006](一)要解决的技术问题
[0007]本专利技术要解决的技术问题是如何提供一种基于Count

Min概要数据结构的网络流量概念漂移检测方法,以解决现有的方法还无法检测出网络流量概念漂移的类型的问题。
[0008](二)技术方案
[0009]为了解决上述技术问题,本专利技术提出一种基于Count

Min概要数据结构的网络流量概念漂移检测方法,该方法包括如下步骤:
[0010]步骤一:采用Count

Min(CM)概要数据结构存储网络流量的多维特征信息;
[0011]步骤二:在两个数据概要结构上计算网络流量各维度的Hellinger距离,判断是否
发生了概念漂移;
[0012]步骤三:计算网络流量概念漂移阈值;
[0013]步骤四:识别网络流量概念漂移类型,包括网络应用类别漂移检测和网络流分布漂移检测。
[0014](三)有益效果
[0015]本专利技术提出一种基于Count

Min概要数据结构的网络流量概念漂移检测方法,采用本专利技术的一种基于CM概要数据结构的网络流量概念漂移检测方法具有如下优势:
[0016]1)通过CM概要数据结构记录网络流量的多维统计信息,不仅节省了存储空间,而且每个维度相对独立,可以并行处理,节省了检测时间。
[0017]2)从网络流多维概率分布入手,监测多维Hellinger距离变化情况,进行网络流量概念漂移检测,降低了概念漂移误检率和漏检率,使得检测结果更准确。
[0018]3)能够正确识别网络流量概念漂移类型,发现新应用和分布漂移的应用,在网络入侵检测等方面有重要意义。
附图说明
[0019]图1为本专利技术的网络流量概念漂移检测流程图;
[0020]图2为多维Count

Min概要数据结构。
具体实施方式
[0021]为使本专利技术的目的、内容和优点更加清楚,下面结合附图和实施例,对本专利技术的具体实施方式作进一步详细描述。
[0022]本专利技术的主要目的是检测网络流量中存在的概念漂移,以能够及时更新网络流量分类模型,提高分类精度。该专利技术通过Count

Min(CM)概要数据结构记录网络流量的多维统计信息,然后从网络流多维概率分布入手,每隔一定周期监测多维Hellinger距离变化情况,进行网络流量概念漂移检测,并且基于欧氏距离检测网络流量概念漂移的类型,为网络管理和维护提供了数据支持。
[0023]本专利技术基于CM概要数据结构的网络流量概念漂移检测方法,首先检测数据流中是否发生概念漂移,如果发生,则进一步识别概念漂移的类型,检测流程如图1所示。网络流量概念漂移检测包括如下步骤:
[0024]步骤一:采用CM概要数据结构存储网络流量的多维特征信息;
[0025]步骤二:在两个数据概要结构上计算网络流量各维度的Hellinger距离,判断是否发生了概念漂移;
[0026]步骤三:计算网络流量概念漂移阈值;
[0027]步骤四:识别网络流量概念漂移类型,包括网络应用类别漂移检测和网络流分布漂移检测。
[0028]进一步地,所述步骤一的具体过程如下:
[0029]CM由多个哈希函数(h1,h2,
……
h
d
)和一张二维表组成,其中每个哈希函数分别对应表中的每一行。当一个网络流到来时,需要经过每个哈希函数的计算,根据计算得到的哈希值分别存入每一行对应哈希值的计数器。当对网络流的特征统计量进行查询时,取计数
器中的最小值为该特征统计量的估计值。
[0030]进一步地,所述步骤二的具体过程如下:
[0031]在两个概要数据结构上计算网络流量各维度的Hellinger距离,记为H
k
,k表示网络流量不同的维度元素数,一条网络流是由不同的特征组成的,例如端口号、源IP、目的IP等,k指特征维度数。Hellinger距离是度量两个概率分布差异的指标,Hellinger距离越大,数据分布的差异越大,如果H
k
超出了设定的阈值,则认为发生了概念漂移。让P=(p1,p2,
……
,p
n
)和Q=(q1,q2,
……
,q
n
)分别表示网络流量x和y在k维上的概率分布,x和y在k维上的Hellinger距离可以定义为公式(1):
[0032][0033]其中,H
k
表示k维上的Hellinger距离,p
i
为网络流量x中k维上取i值的概率,p
i
=v
i
/m,v
i
=min
d
CM[d,h(i)],m为网络流量x的总数。q
i
为网络流量y中k维上取i值的概率本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于Count

Min概要数据结构的网络流量概念漂移检测方法,其特征在于,该方法包括如下步骤:步骤一:采用Count

Min(CM)概要数据结构存储网络流量的多维特征信息;步骤二:在两个数据概要结构上计算网络流量各维度的Hellinger距离,判断是否发生了概念漂移;步骤三:计算网络流量概念漂移阈值;步骤四:识别网络流量概念漂移类型,包括网络应用类别漂移检测和网络流分布漂移检测。2.如权利要求1所述的基于Count

Min概要数据结构的网络流量概念漂移检测方法,其特征在于,所述步骤一具体包括:CM由多个哈希函数(h1,h2,
……
h
d
)和一张二维表组成,其中每个哈希函数分别对应表中的每一行;当一个网络流到来时,需要经过每个哈希函数的计算,根据计算得到的哈希值分别存入每一行对应哈希值的计数器;当对网络流的特征统计量进行查询时,取计数器中的最小值为该特征统计量的估计值。3.如权利要求2所述的基于Count

Min概要数据结构的网络流量概念漂移检测方法,其特征在于,所述步骤二具体包括:在两个概要数据结构上计算网络流量各维度的Hellinger距离,记为H
k
,k表示网络流量不同的维度元素数;Hellinger距离是度量两个概率分布差异的指标,Hellinger距离越大,数据分布的差异越大,如果H
k
超出了设定的阈值,则认为发生了概念漂移;让P=(p1,p2,
……
,p
n
)和Q=(q1,q2,
……
,q
n
)分别表示网络流量x和y在k维上的概率分布,x和y在k维上的Hellinger距离可以定义为公式(1):其中,H
k
表示k维上的Hellinger距离,p
i
为网络流量x中k维上取i值的概率,p
i
=v
i
/m,v
i
=min
d
CM[d,h(i)],m为网络流量x的总数;q
i
为网络流量y中k维上取i值的概率,q
i
=v
i
/m',v
i
=min
d
CM[d,h(i)],m'为网络流量y的总数;其中,d是哈希函数的个数,h(i)是哈希函数值。4.如权利要求3所述的基于Count

Min概要数据结构的网络流量概念漂移检测方法,其特征在于,如果H
k
>σ
k
,则认为网络流量在k维特征上发生了概念漂移,σ
k
为网络流量发生概念漂移设定的阈值。5.如权利要求3所述的基于Count

Min概要数据结构的网络流量概念漂移检测方法,其特征在于,所述步骤三中,采用Bootstrap方法对网络流量概念漂移检测过程中的阈值进行估计,通过重复抽样来构造自助样本,根据抽出的样本数据计算给定的统计量,根据统...

【专利技术属性】
技术研发人员:张泽鑫马睿遇泓霏郑旭刘然张智慧
申请(专利权)人:北京计算机技术及应用研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1