【技术实现步骤摘要】
一种基于Count
‑
Min概要数据结构的网络流量概念漂移检测方法
[0001]本专利技术属于网络流量分析领域,具体涉及一种基于Count
‑
Min概要数据结构的网络流量概念漂移检测方法。
技术介绍
[0002]互联网流量与传统的静态数据不同,具有海量性、动态性和实时性,给流量分类带来了很大的挑战。当网络流量发生概念漂移时,会导致分类器性能下降,分类准确率降低。因此,需要检测网络流量是否发生了概念漂移,如果发生,为保持分类器的稳定性,需要更新分类模型。
[0003]目前,已经提出了很多针对数据流的概念漂移的分类方法。第一类方法是构建能够自动适应数据流变化的分类器,该类方法增量式的更新分类器,无法检测出数据流中发生的概念转变;第二类方法则是分离数据流概念漂移检测器和分类模型,当概念漂移检测器发现数据流变化时,再对分类模型进行更新。第二类方法能够发现数据流中概念漂移发生的时间和数据变点,为接下来的工作提供支持数据。
[0004]在第二类的概念漂移检测方法中,也包含两种不同的漂移检测方法。第一种方法是基于分类器的分类结果来判断漂移是否发生,包括分类错误率,分类准确率,召回率,分类精度等分类指标。该类方法容易造成对分类结果的过度依赖,可能会导致概念漂移的误判和漏检。第二种方法则是从数据流的概率分布入手,检测数据流概率分布的变化来判断是否发生概念漂移。
[0005]基于数据流分布的概念漂移检测方法能很好的适用于网络流量的概念漂移检测,通过检测网络流量不同维度属性的分布 ...
【技术保护点】
【技术特征摘要】
1.一种基于Count
‑
Min概要数据结构的网络流量概念漂移检测方法,其特征在于,该方法包括如下步骤:步骤一:采用Count
‑
Min(CM)概要数据结构存储网络流量的多维特征信息;步骤二:在两个数据概要结构上计算网络流量各维度的Hellinger距离,判断是否发生了概念漂移;步骤三:计算网络流量概念漂移阈值;步骤四:识别网络流量概念漂移类型,包括网络应用类别漂移检测和网络流分布漂移检测。2.如权利要求1所述的基于Count
‑
Min概要数据结构的网络流量概念漂移检测方法,其特征在于,所述步骤一具体包括:CM由多个哈希函数(h1,h2,
……
h
d
)和一张二维表组成,其中每个哈希函数分别对应表中的每一行;当一个网络流到来时,需要经过每个哈希函数的计算,根据计算得到的哈希值分别存入每一行对应哈希值的计数器;当对网络流的特征统计量进行查询时,取计数器中的最小值为该特征统计量的估计值。3.如权利要求2所述的基于Count
‑
Min概要数据结构的网络流量概念漂移检测方法,其特征在于,所述步骤二具体包括:在两个概要数据结构上计算网络流量各维度的Hellinger距离,记为H
k
,k表示网络流量不同的维度元素数;Hellinger距离是度量两个概率分布差异的指标,Hellinger距离越大,数据分布的差异越大,如果H
k
超出了设定的阈值,则认为发生了概念漂移;让P=(p1,p2,
……
,p
n
)和Q=(q1,q2,
……
,q
n
)分别表示网络流量x和y在k维上的概率分布,x和y在k维上的Hellinger距离可以定义为公式(1):其中,H
k
表示k维上的Hellinger距离,p
i
为网络流量x中k维上取i值的概率,p
i
=v
i
/m,v
i
=min
d
CM[d,h(i)],m为网络流量x的总数;q
i
为网络流量y中k维上取i值的概率,q
i
=v
i
/m',v
i
=min
d
CM[d,h(i)],m'为网络流量y的总数;其中,d是哈希函数的个数,h(i)是哈希函数值。4.如权利要求3所述的基于Count
‑
Min概要数据结构的网络流量概念漂移检测方法,其特征在于,如果H
k
>σ
k
,则认为网络流量在k维特征上发生了概念漂移,σ
k
为网络流量发生概念漂移设定的阈值。5.如权利要求3所述的基于Count
‑
Min概要数据结构的网络流量概念漂移检测方法,其特征在于,所述步骤三中,采用Bootstrap方法对网络流量概念漂移检测过程中的阈值进行估计,通过重复抽样来构造自助样本,根据抽出的样本数据计算给定的统计量,根据统...
【专利技术属性】
技术研发人员:张泽鑫,马睿,遇泓霏,郑旭,刘然,张智慧,
申请(专利权)人:北京计算机技术及应用研究所,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。