一种基于混合采样的网络入侵检测方法及系统技术方案

技术编号:24590379 阅读:47 留言:0更新日期:2020-06-21 02:33
本发明专利技术涉及网络入侵检测技术领域,特别涉及一种基于混合采样的网络入侵检测方法及系统,方法包括将网络入侵历史数据集中的符号属性转换为数字属性;将网络入侵历史数据集归一化至区间[0,1];利用混合采样算法对网络入侵历史数据集进行采样,得到每个类别平衡的训练集;利用获得的训练集训练BP神经网络分类器;将实时的网络入侵数据输入训练好的BP神经网络分类器,BP神经网络分类器输出该实时的网络入侵数据的类别;本发明专利技术减少了多数类样本的舍弃,从而减少了对构建分类器有价值的信息的损失;相比基于SMOTE过采样的入侵检测技术,减少了生成少数类新样本时引入的噪音,因此该算法对不平衡数据有更好的分类性能。

A network intrusion detection method and system based on mixed sampling

【技术实现步骤摘要】
一种基于混合采样的网络入侵检测方法及系统
本专利技术涉及网络入侵检测
,特别涉及一种基于混合采样的网络入侵检测方法及系统。
技术介绍
近年来机器学习方法被越来越多地应用于网络入侵检测中,将网络入侵检测作为分类问题处理。在网络攻击中,有些攻击类型频繁发生,有些攻击类型发生频率低,因此,入侵检测是一个典型的数据不平衡的应用场景,机器学习在处理不平衡数据时,对多数类的入侵样本的分类效果较好,但是对少数类的入侵样本的分类效果却较差,然而,对少数类的入侵样本的检测也很重要。现有的网络入侵检测系统处理不平衡数据的方法包括基于过采样SMOTE算法的网络入侵检测技术和基于聚类算法欠采样的网络入侵检测技术。燕昺昊、韩国栋等人提出的基于深度循环神经网络和改进SMOTE算法的组合式入侵检测模型使用改进的SMOTE算法生成少数类的新样本,增加少数类样本数量,在生成的平衡数据集上训练深度循环神经网络分类器,用于进行网络入侵检测。陈虹、肖越、肖成龙等人提出的融合最大相异系数密度的SMOTE算法的入侵检测方法,是基于最大相异系数密度的SMOTE算法与深度信念网络和梯度提升决策树的网络入侵检测方法,使用最大相异系数密度的SMOTE算法对少数类样本进行过采样,然后在预处理后的平衡数据集上训练梯度提升决策树分类器。沈学利、覃淑娟等人提出的基于SMOTE和深度信念网络的异常检测,使用SMOTE算法增加少数类的样本,然后在生成的平衡数据集上训练深度信念网络分类器。然而,单纯的SMOTE过采样算法在处理极度不平衡的数据分类时,由于生成大量的少数类新样本而会引入过多的噪声,降低分类性能。MiahMO、KhanSS、ShatabdaS等人提出的《ImprovingDetectionAccuracyforImbalancedNetworkIntrusionClassificationusingCluster-basedUnder-samplingwithRandomForests》,使用基于聚类的欠采样方法减少多数类的样本,然后用随机森林分类器进行网络入侵检测。Al-YaseenWL、OthmanZA、NazriMZA等人提出的《Multi-levelhybridsupportvectormachineandextremelearningmachinebasedonmodifiedK-meansforintrusiondetectionsystem》,是使用改进的K-means聚类算法生成一个抽象的更小的数据集,在一定程度上减轻了类别不平衡的程度,然后用SVM和ELM进行网络入侵检测。然而,这些基于聚类算法欠采样的网络入侵检测技术对多数类进行聚类后,以簇为基础选取样本,并未考虑簇内的全部样本的信息,这会导致选取的多数类样本不具有足够的代表性。
技术实现思路
针对现有的基于机器学习的网络入侵检测技术,在处理极度不平衡的入侵数据时,要使得数据平衡,单纯的欠采样方法需要减少大量多数类样本而损失大量对构建分类器有重要价值的潜在信息,单纯的SMOTE算法需要生成大量少数类的新样本,从而带来严重的噪音问题,本专利技术提出一种基于混合采样的网络入侵检测方法及系统,所述方法如图1,具体包括以下步骤:S1、将网络入侵历史数据集中的符号属性转换为数字属性;S2、将网络入侵历史数据集归一化至区间[0,1];S3、利用混合采样算法对网络入侵历史数据集进行采样,得到每个类别平衡的训练集;S4、利用获得的训练集训练BP神经网络分类器;S5、将实时的网络入侵数据输入训练好的BP神经网络分类器,BP神经网络分类器输出该实时的网络入侵数据的类别。进一步的,利用混合采样算法对网络入侵历史数据集进行采样以及训练BP神经网络分类器的过程包括:S101、将包含N个种类入侵攻击的历史数据中样本数量大于平衡采样数m的网络入侵攻击划分为多数类,否则为非多数类,非多数类中包括样本数量小于m的少数类以及样本数量等于m的种类;S102、对每个少数类样本集使用SMOTE进行过采样,使少数类样本数接近平衡采样数m;S103、对所有类样本集分别使用K-means进行聚类,每个类生成z个簇,从每个簇中不放回地提取簇的代表样本,共提取N*z个样本作为初始的平衡样本集;S104、使用初始的平衡样本集训练初始的BP神经网络分类器,并设置采样的迭代次数T,令t=1;S105、对每个多数类样本集使用基于簇内样本平均分类错误率的欠采样不放回地提取z个样本;S106、从每个非多数类剩余的样本数据集中不放回地随机提取z个样本,并添加至平衡样本集中;S107、平衡样本集训练再次训练BP神经网络分类器;S108、判断t是否等于T-1,若是则结束迭代输出训练好的BP神经网络分类器,否则令t=t+1并返回S105。进一步的,对多数类样本使用基于簇内样本平均分类错误率的欠采样的过程包括:对多数类中未被采样到平衡样本集中的样本再次使用K-means进行聚类,各类生成m个簇;计算每个簇的平均分类错误率,并从平均分类错误率最大的z个簇中提取各自簇代表的样本,将样本添加到平衡样本集并将这些样本从多数类中未被采样到平衡样本集中删除。本专利技术提出一种基于混合采样的网络入侵检测系统,包括历史数据存储模块、属性转换模块、归一化模块、采样模块、BP神经网络分类器训练模块块以及实时预测模块,其中:历史数据存储模块,用于存储已经进行了分类的网络入侵数据;属性转换模块,用于将网络入侵数据中的符号属性转换为数字属性;归一化模块,用于对经过属性转换后的网络入侵数据归一化到区间;采样模块,对网络历史数据进行采样,保证训练数据的数据量平衡;BP神经网络分类器训练模块,用于根据训练数据对BP神经网络进行训练,获得机BP神经网络分类器;实时预测模块,将实时的网络入侵数据输入BP神经网络分类器,获得该网络入侵的类型。进一步的,采样模块包括数据分类单元、少数类采样单元、样本初选单元以及多数类采样单元,其中:数据分类模块,用于根据平衡采样数m将历史数据中攻击类型种类分为多数类以及非多数类,其中非多数类包括样本数量小于m的网络入侵攻击类型以及等于m的网络入侵攻击类型;少数类采样单元,用于使用SMOTE进行过采样,使少数类样本数接近平衡采样数m;样本初选单元,用于利用K-means进行聚类使得每个网络入侵攻击类型生成z个簇,从每个簇中不放回地提取簇的代表样本,共提取N*z个样本作为初始的平衡样本集;多数类采样单元,用于对多数类中未被样本初选单元选择的的样本再次使用K-means进行聚类,各类生成m个簇,计算每个簇的平均分类错误率,并从平均分类错误率最大的z个簇中不放回地提取各自簇的代表点。本专利技术在使极度不平衡的数据集转化为平衡的数据集的基础上,该技术相比基于聚类欠采样的入侵检测技术,减少了多数类样本的舍弃,从而减少了对构建分类器有价值的信息的损本文档来自技高网
...

【技术保护点】
1.一种基于混合采样的网络入侵检测方法,其特征在于,具体包括以下步骤:/nS1、将网络入侵历史数据集中的符号属性转换为数字属性;/nS2、将网络入侵历史数据集归一化至区间[0,1];/nS3、利用混合采样算法对网络入侵历史数据集进行采样,得到每个类别平衡的训练集;/nS4、利用获得的训练集训练BP神经网络分类器;/nS5、将实时的网络入侵数据输入训练好的BP神经网络分类器,BP神经网络分类器输出该实时的网络入侵数据的类别。/n

【技术特征摘要】
1.一种基于混合采样的网络入侵检测方法,其特征在于,具体包括以下步骤:
S1、将网络入侵历史数据集中的符号属性转换为数字属性;
S2、将网络入侵历史数据集归一化至区间[0,1];
S3、利用混合采样算法对网络入侵历史数据集进行采样,得到每个类别平衡的训练集;
S4、利用获得的训练集训练BP神经网络分类器;
S5、将实时的网络入侵数据输入训练好的BP神经网络分类器,BP神经网络分类器输出该实时的网络入侵数据的类别。


2.根据权利要求1所述的一种基于混合采样的网络入侵检测方法,其特征在于,利用混合采样算法对网络入侵历史数据集进行采样以及训练BP神经网络分类器的过程包括:
S101、设置平衡采样数数m,将包含N个种类入侵攻击的历史数据中样本数量大于平衡采样数m的网络入侵攻击划分为多数类,否则为非多数类,非多数类中包括样本数量小于m的少数类以及样本数量等于m的种类;
S102、对每个少数类样本集使用SMOTE进行过采样,使少数类样本数接近平衡采样数m;
S103、对所有类样本集分别使用K-means进行聚类,每个类生成z个簇,从每个簇中不放回地提取簇的代表样本,共提取N*z个样本作为初始的平衡样本集;
S104、使用初始的平衡样本集训练初始的BP神经网络分类器,并设置BP神经网络分类器的迭代次数T,令t=1;
S105、对多数类样本使用基于簇内样本平均分类错误率的欠采样;
S106、从每个非多数类剩余的样本数据集中不放回地随机提取z个样本,并添加至平衡样本集中;
S107、平衡样本集训练再次训练BP神经网络分类器;
S108、判断t是否等于T-1,若是则结束迭代输出训练好的BP神经网络分类器,否则令t=t+1并返回S105。


3.根据权利要求2所述的一种基于混合采样的网络入侵检测方法,其特征在于,对每个少数类样本集使用SMOTE进行过采样的采样倍率表示为:



其中,为对少数类i使用SMOTE进行过采样的采样倍率;Si为第i类入侵攻击的样本集,|Si|表示样本集Si中样本的数量。


4.根据权利要求2所述的一种基于混合采样的网络入侵检测方法,其特征在于,对多数类样本使用基于簇内样本平均分类错误率的欠采样的过程包括:
对多数类中未被采样到平衡样本集中的样本再次使用K-means进行聚类,各类生成m个簇;
计算每个簇的平均分类错误率,并从平均分类错误率最大的z个簇中提取各自簇代表的样本,将样本添加到平衡样本集并将这些样本从多数类中未被采样到平衡样本集中删除。

【专利技术属性】
技术研发人员:熊炫睿陈高升熊炼张媛程占伟付明凯刘敏
申请(专利权)人:重庆邮电大学
类型:发明
国别省市:重庆;50

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1