System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术属于计算机网络流量入侵检测领域,具体涉及一种基于集成聚类算法的轻量级漂移检测方法。
技术介绍
1、网络入侵检测系统(nids)在保障网络安全方面发挥着至关重要的作用。传统的网络入侵检测系统利用专家指定的规则作为防火墙来发现已知的威胁。最近,随着机器学习的广泛普及,nids采用了机器学习技术,这些基于深度神经网络的nids在检测更为复杂的网络流量攻击方面具有卓越的性能和准确性。尽管前景广阔,但现有的基于机器学习的nids通常假设用于训练检测系统的流量数据和后续部署上线后检测的测试流量从模型分布角度是相似的,即遵循独立且相同的分布(i.i.d)原则。然而,在现实世界中,不仅恶意软件会随时间演变,正常的网络行为也会发生变化,例如,真实世界中网络协议的升级或新流量物联网设备的加入。所有这些流量行为变化都会导致恶意流量和良性流量的机器学习分布随时间发生不可预测的变化,这些变化被称之为概念漂移。概念漂移的存在会导致漂移流量跨越nids的决策边界。如果不加以有效解决,必然会产生大量的误报和误判,从而导致严重的性能下降。
2、为了解决这一问题,研究人员寻求各种解决方案,从机器学习的角度以轻量和准确的检测判断漂移。在漂移检测中,主要的思路就是去检测并找出可能漂移的样本后进行人工标记和更新检测器。其中第一类方法侧重于从数据样本分布类内、类间(正常类与多种异常类)距离和相似度的角度为评估样本的漂移分数,选择与已知类最不相似的样本当作漂移样本。另一类是借助统计学的假设检验,根据模型的输出进行数据样本类内比较,从而生成优化后流量样本
技术实现思路
1、本专利技术旨在克服现有技术的缺点和局限,并提供一种基于集成聚类算法的轻量性方法,以准确检测概念漂移。该方法可以使用细粒度集成聚类技术估计、近似当前全部流量的分布情况,使用有限的人工标记开销为全部流量打上标签(真实标签或伪标签),并与入侵检测系统的检测结果进行比较来完整、准确地检测漂移。
2、为实现上述目的,本专利技术所采取的技术方案为:
3、一种基于集成聚类算法的轻量级漂移检测方法,应用于概念漂移检测,所述基于集成聚类算法的轻量级漂移检测方法,包括:
4、捕获包含五元组信息的原始流量包作为样本,并提取原始流量包中的流量特征,利用网络入侵检测系统处理所述流量特征输出检测结果并记录;
5、采用多种聚类算法对一个时间窗口内所有样本进行聚类得到子聚类结果,并对多个子聚类结果求交集得到最终的细粒度集成聚类结果;
6、在细粒度集成聚类结果的每个聚类中选择预设数量的样本进行人工标记,并根据人工标记的真实标签采用标签传播法对每个聚类中剩余样本附上伪标签;
7、根据所述检测结果以及样本的真实标签和伪标签计算漂移分数,通过比较漂移分数和漂移阈值完成漂移检测。
8、以下还提供了若干可选方式,但并不作为对上述总体方案的额外限定,仅仅是进一步的增补或优选,在没有技术或逻辑矛盾的前提下,各可选方式可单独针对上述总体方案进行组合,还可以是多个可选方式之间进行组合。
9、作为优选,所述对多个子聚类结果求交集得到最终的细粒度集成聚类结果,包括:
10、对于任意两个样本,若两个样本在每个子聚类结果中均属于同一个聚类,则这两个样本归属至细粒度集成聚类结果的同一聚类中,否则这两个样本归属至细粒度集成聚类结果的不同聚类中。
11、作为优选,所述在细粒度集成聚类结果的每个聚类中选择预设数量的样本进行人工标记,包括:
12、给定人工标记能力上限为n;
13、计算细粒度集成聚类结果的每个聚类中样本选择的预设数量为n乘以每个聚类的大小后除以总样本数;
14、在每个聚类中根据距聚类中心的距离对样本由近到远进行排序,并选择排序中的前预设数量个数的样本进行人工标记。
15、作为优选,所述根据人工标记的真实标签采用标签传播法对每个聚类中剩余样本附上伪标签,包括:
16、在一个聚类中,若所选样本人工标记的真实标签均相同,则为该聚类中剩余样本传播与真实标签相同的伪标签,并为伪标签附上值为1的确定度;
17、在一个聚类中,若所选样本人工标记的真实标签存在不同,则基于欧式距离进行标签传播,即聚类中从附有真实标签的样本开始为与自身的欧式距离最近的未设置标签的样本附上与自身标签相同的伪标签,并根据真实标签的分类为伪标签附上确定度。
18、作为优选,所述根据真实标签的分类为伪标签附上确定度,包括:
19、
20、式中,um表示细粒度集成聚类结果的第m个聚类中所有样本的伪标签的确定度,表示细粒度集成聚类结果的第m个聚类中真实标签为正常流量的样本个数,|cm|表示细粒度集成聚类结果的第m个聚类中人工标记真实标签的样本个数,enscluster(·)表示细粒度集成聚类结果。
21、作为优选,所述漂移分数计算公式如下:
22、
23、式中,score为漂移分数,n一个时间窗口内的样本总数,表示样本xi的确定度,表示样本xi在检测结果中的分类,表示样本xi的真实标签或伪标签,表示异或运算。
24、作为优选,所述通过比较漂移分数和漂移阈值完成漂移检测,包括:
25、若所述漂移分数大于漂移阈值,则当前时间窗口发生概念漂移,取当前时间窗口下在检测结果中的分类与所标记的真实标签或伪标签不同的样本作为漂移样本;否则未发生概念漂移。
26、本专利技术通过上述步骤,提供了一种基于集成聚类算法的轻量级漂移检测方法,利用少量的人工标记开销获取全局的样本分布,从而精确的检测漂移,为后续网络流量入侵检测的更新和适应漂移提供了支撑。
27、本专利技术的优点在于:该漂移检测方法能够从全局的视角检测漂移,而不仅仅局限于漂移程度最高的少量流量样本上,确保了完整且准确的漂移检测;同时该方式仅需要少量的人工打标签开销,并能够高效利用这些少量真实标签去传播出全局伪标签,满足网络流量场景的轻量性需求,避免了漂移检测与后续更新适应的高成本开销问题。
本文档来自技高网...【技术保护点】
1.一种基于集成聚类算法的轻量级漂移检测方法,应用于概念漂移检测,其特征在于,所述基于集成聚类算法的轻量级漂移检测方法,包括:
2.根据权利要求1所述的基于集成聚类算法的轻量级漂移检测方法,其特征在于,所述对多个子聚类结果求交集得到最终的细粒度集成聚类结果,包括:
3.根据权利要求1所述的基于集成聚类算法的轻量级漂移检测方法,其特征在于,所述在细粒度集成聚类结果的每个聚类中选择预设数量的样本进行人工标记,包括:
4.根据权利要求1所述的基于集成聚类算法的轻量级漂移检测方法,其特征在于,所述根据人工标记的真实标签采用标签传播法对每个聚类中剩余样本附上伪标签,包括:
5.根据权利要求4所述的基于集成聚类算法的轻量级漂移检测方法,其特征在于,所述根据真实标签的分类为伪标签附上确定度,包括:
6.根据权利要求1所述的基于集成聚类算法的轻量级漂移检测方法,其特征在于,所述漂移分数计算公式如下:
7.根据权利要求1所述的基于集成聚类算法的轻量级漂移检测方法,其特征在于,所述通过比较漂移分数和漂移阈值完成漂移检测,包括:<
...【技术特征摘要】
1.一种基于集成聚类算法的轻量级漂移检测方法,应用于概念漂移检测,其特征在于,所述基于集成聚类算法的轻量级漂移检测方法,包括:
2.根据权利要求1所述的基于集成聚类算法的轻量级漂移检测方法,其特征在于,所述对多个子聚类结果求交集得到最终的细粒度集成聚类结果,包括:
3.根据权利要求1所述的基于集成聚类算法的轻量级漂移检测方法,其特征在于,所述在细粒度集成聚类结果的每个聚类中选择预设数量的样本进行人工标记,包括:
4.根据权利要求1所述的基于集成聚类算法的轻...
【专利技术属性】
技术研发人员:张晓丽,王绍冰,程宏兵,郑峻励,
申请(专利权)人:浙江工业大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。