一种基于混合采样的网络入侵检测方法及系统技术方案

技术编号：24590379 阅读：47 留言：0更新日期：2020-06-21 02:33

本发明专利技术涉及网络入侵检测技术领域，特别涉及一种基于混合采样的网络入侵检测方法及系统，方法包括将网络入侵历史数据集中的符号属性转换为数字属性；将网络入侵历史数据集归一化至区间[0,1]；利用混合采样算法对网络入侵历史数据集进行采样，得到每个类别平衡的训练集；利用获得的训练集训练BP神经网络分类器；将实时的网络入侵数据输入训练好的BP神经网络分类器，BP神经网络分类器输出该实时的网络入侵数据的类别；本发明专利技术减少了多数类样本的舍弃，从而减少了对构建分类器有价值的信息的损失；相比基于SMOTE过采样的入侵检测技术，减少了生成少数类新样本时引入的噪音，因此该算法对不平衡数据有更好的分类性能。

A network intrusion detection method and system based on mixed sampling

全部详细技术资料下载

【技术实现步骤摘要】
一种基于混合采样的网络入侵检测方法及系统
本专利技术涉及网络入侵检测
，特别涉及一种基于混合采样的网络入侵检测方法及系统。
技术介绍
近年来机器学习方法被越来越多地应用于网络入侵检测中，将网络入侵检测作为分类问题处理。在网络攻击中，有些攻击类型频繁发生，有些攻击类型发生频率低，因此，入侵检测是一个典型的数据不平衡的应用场景，机器学习在处理不平衡数据时，对多数类的入侵样本的分类效果较好，但是对少数类的入侵样本的分类效果却较差，然而，对少数类的入侵样本的检测也很重要。现有的网络入侵检测系统处理不平衡数据的方法包括基于过采样SMOTE算法的网络入侵检测技术和基于聚类算法欠采样的网络入侵检测技术。燕昺昊、韩国栋等人提出的基于深度循环神经网络和改进SMOTE算法的组合式入侵检测模型使用改进的SMOTE算法生成少数类的新样本，增加少数类样本数量，在生成的平衡数据集上训练深度循环神经网络分类器，用于进行网络入侵检测。陈虹、肖越、肖成龙等人提出的融合最大相异系数密度的SMOTE算法的入侵检测方法，是基于最大相异系数密度的SMOTE算法与深度信念网络和梯度提升决策树的网络入侵检测方法，使用最大相异系数密度的SMOTE算法对少数类样本进行过采样，然后在预处理后的平衡数据集上训练梯度提升决策树分类器。沈学利、覃淑娟等人提出的基于SMOTE和深度信念网络的异常检测，使用SMOTE算法增加少数类的样本，然后在生成的平衡数据集上训练深度信念网络分类器。然而，单纯的SMOTE过采样算法在处理极度不平衡的数据分类时，由于生成大...

【技术保护点】
1.一种基于混合采样的网络入侵检测方法，其特征在于，具体包括以下步骤：/nS1、将网络入侵历史数据集中的符号属性转换为数字属性；/nS2、将网络入侵历史数据集归一化至区间[0,1]；/nS3、利用混合采样算法对网络入侵历史数据集进行采样，得到每个类别平衡的训练集；/nS4、利用获得的训练集训练BP神经网络分类器；/nS5、将实时的网络入侵数据输入训练好的BP神经网络分类器，BP神经网络分类器输出该实时的网络入侵数据的类别。/n

【技术特征摘要】
1.一种基于混合采样的网络入侵检测方法，其特征在于，具体包括以下步骤：
S1、将网络入侵历史数据集中的符号属性转换为数字属性；
S2、将网络入侵历史数据集归一化至区间[0,1]；
S3、利用混合采样算法对网络入侵历史数据集进行采样，得到每个类别平衡的训练集；
S4、利用获得的训练集训练BP神经网络分类器；
S5、将实时的网络入侵数据输入训练好的BP神经网络分类器，BP神经网络分类器输出该实时的网络入侵数据的类别。

2.根据权利要求1所述的一种基于混合采样的网络入侵检测方法，其特征在于，利用混合采样算法对网络入侵历史数据集进行采样以及训练BP神经网络分类器的过程包括：
S101、设置平衡采样数数m，将包含N个种类入侵攻击的历史数据中样本数量大于平衡采样数m的网络入侵攻击划分为多数类，否则为非多数类，非多数类中包括样本数量小于m的少数类以及样本数量等于m的种类；
S102、对每个少数类样本集使用SMOTE进行过采样，使少数类样本数接近平衡采样数m；
S103、对所有类样本集分别使用K-means进行聚类，每个类生成z个簇，从每个簇中不放回地提取簇的代表样本，共提取N*z个样本作为初始的平衡样本集；
S104、使用初始的平衡样本集训练初始的BP神经网络分类器，并设置BP神经网络分类器的迭代次数T，令t＝1；
S105、对多数类样本使用基于簇内样本平均分类错误率的欠采样；
S106、从每个非多数类剩余的样本数据集中不放回地随机提取z个样本，并添加至平衡样本集中；
S107、平衡样本集训练再次训练BP神经网络分类器；
S108、判断t是否等于T-1，若是则结束迭代输出训练好的BP神经网络分类器，否则令t＝t+1并返回S105。

3.根据权利要求2所述的一种基于混合采样的网络入侵检测方法，其特征在于，对每个少数类样本集使用SMOTE进行过采样的采样倍率表示为：

其中，为对少数类i使用SMOTE进行过采样的采样倍率；Si为第i类入侵攻击的样本集，|Si|表示样本集Si中样本的数量。

4.根据权利要求2所述的一种基于混合采样的网络入侵检测方法，其特征在于，对多数类样本使用基于簇内样本平均分类错误率的欠采样的过程包括：
对多数类中未被采样到平衡样本集中的样本再次使用K-means进行聚类，各类生成m个簇；
计算每个簇的平均分类错误率，并从平均分类错误率最大的z个簇中提取各自簇代表的样本，将样本添加到平衡样本集并将这些样本从多数类中未被采样到平衡样本集中删除。

【专利技术属性】
技术研发人员：熊炫睿，陈高升，熊炼，张媛，程占伟，付明凯，刘敏，
申请(专利权)人：重庆邮电大学，
类型：发明
国别省市：重庆;50

全部详细技术资料下载我是这个专利的主人