基于BIRCH和SMOTE的网络入侵检测方法及系统技术方案

技术编号:24692406 阅读:77 留言:0更新日期:2020-06-27 11:23
本发明专利技术涉及网络入侵检测技术,特别涉及基于BIRCH和SMOTE的网络入侵检测方法及系统,方法包括将网络入侵历史数据集中的符号属性转换为数字属性;将网络入侵历史数据集归一化至区间[0,1];利用平衡采样算法对网络入侵历史数据集进行采样,得到每个类别平衡的训练集;利用获得的训练集训练机器学习分类器;将实时的网络入侵数据输入训练好的分类器,分类器输出该实时的网络入侵数据的类别;本发明专利技术比单纯使用欠采样的网络入侵检测方法减少了有潜在价值的多数类样本的丢弃,比单纯使用SMOTE过采样的网络入侵检测方法减少了生成少数类新样本时引入的噪音,因此本发明专利技术具有更高的少数类召回率和更高的整体分类性能G‑means值。

Network intrusion detection method and system based on birch and smote

【技术实现步骤摘要】
基于BIRCH和SMOTE的网络入侵检测方法及系统
本专利技术涉及网络入侵检测技术,特别涉及一种基于BIRCH和SMOTE的网络入侵检测方法及系统。
技术介绍
近年来机器学习方法被越来越多地应用于网络入侵检测中,将网络入侵检测作为分类问题处理。在网络攻击中,有些攻击类型频繁发生,有些攻击类型发生频率低,因此,入侵检测是一个典型的数据不平衡的应用场景,机器学习在处理不平衡数据时,对多数类的入侵样本的分类效果较好,但是对少数类的入侵样本的分类效果却较差,然而,对少数类的入侵样本的检测也很重要。现有的网络入侵检测系统处理不平衡数据的方法包括基于过采样的网络入侵检测技术和基于欠采样的网络入侵检测技术,SMOTE算法是常用的过采样方法算法,随机欠采样是常用的欠采样方法。现有文献1,燕昺昊,韩国栋.基于深度循环神经网络和改进SMOTE算法的组合式入侵检测模型[J].网络与信息安全学报,2018,v.4;No.32(07):52-63,使用改进的SMOTE算法生成少数类的新样本,增加少数类样本数量,在生成的平衡数据集上训练深度循环神经网络分类器,用于进行网络本文档来自技高网...

【技术保护点】
1.基于BIRCH和SMOTE的网络入侵检测方法,其特征在于,具体包括以下步骤:/nS1、将网络入侵历史数据集中的符号属性转换为数字属性;/nS2、将网络入侵历史数据集归一化至区间[0,1];/nS3、利用平衡采样算法对网络入侵历史数据集进行采样,得到每个类别平衡的训练集;/nS4、利用获得的训练集训练机器学习分类器;/nS5、将实时的网络入侵数据输入训练好的分类器,分类器输出该实时的网络入侵数据的类别。/n

【技术特征摘要】
1.基于BIRCH和SMOTE的网络入侵检测方法,其特征在于,具体包括以下步骤:
S1、将网络入侵历史数据集中的符号属性转换为数字属性;
S2、将网络入侵历史数据集归一化至区间[0,1];
S3、利用平衡采样算法对网络入侵历史数据集进行采样,得到每个类别平衡的训练集;
S4、利用获得的训练集训练机器学习分类器;
S5、将实时的网络入侵数据输入训练好的分类器,分类器输出该实时的网络入侵数据的类别。


2.根据权利要求1所述的基于BIRCH和SMOTE的网络入侵检测方法,其特征在于,利用平衡采样算法对网络入侵历史数据集进行采样包括:
对每个类别的网络入侵历史数据使用BIRCH聚类形成一个包含ni个簇的集合,并设置每个类别重采样的样本数量r为各类的簇数量和最少的类的实例数量中的最大值;
若一个类别的样本数量等于r,则直接将该r个样本添加到平衡数据集D'中;
若一个类别的样本数量小于r,则对该类数据使用SMOTE过采样,使该类数据样本数量为r,并将该r个数据添加到数据集D'中;
若一个类别的样本数量大于r,则使用基于BIRCH的聚类采样算法得到r个数据,并将该r个数据添加到数据集D'中。


3.根据权利要求2所述的基于BIRCH和SMOTE的网络入侵检测方法,其特征在于,基于BIRCH的聚类采样算法包括:
对输入的数据集使用BIRCH算法得到k个簇,如果采样的样本数r小于簇中心数k,则对簇中心集合使用K-means聚类算法得到r个簇,并采集簇中心;
如果r等于k,则采集所有的簇中心;
如果r大于k,则首先采集簇中心,并进行多轮采样,得到每轮采样对各个簇采样的样本数,使得在各个簇中采集的样本数量尽可能相近。


4.根据权利要求3所述的基于BIRCH和SMOTE的网络入侵检测方法,其特征在于,对于多数类,即当r大于k时,每轮采样对各个簇采样的样本数获取过程表示为:



其中,Si表示数据集D中属于第i类的样本集合;S'表示对每个簇平均采样的样本容量;Ci表示第i个簇;|D'|表示当前已采集的样本个数;q表示欠采样可用的簇的个数。


5.根据权利要求1所述的基于BIRCH和SMOTE的网络入侵检测方法,其特征在于,每个类别重采样的样本数量r表示为:
r=max(n1,n2,...,ni,...,nN,m);
其中,ni表示对数据集中第i类入侵数据聚类生成的簇个数,N为总的入侵类型的数量;m为输入数据集中最少的类的样本数。


6.基于BIRCH和SMOTE的网络入侵检测系统,其特征在于,包括历史数据存储模块、属性转换...

【专利技术属性】
技术研发人员:熊炫睿陈高升程占伟付明凯刘敏
申请(专利权)人:重庆邮电大学
类型:发明
国别省市:重庆;50

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1