The invention discloses a method for classification of intrusion detection, according to the SVM classification algorithm for the classification of imbalanced data sets sensitive classification and features in the kernel space, based on the samples of minority class training samples set to take over sampling based on nuclear SMOTE, at the same time the majority class samples to fuzzy C the sampling of the kernel k-means clustering method based on mixed sampling, achieve equalization preprocessing imbalanced training data set, and then uses the Bagging ensemble learning method to train classifier based on SVM in the new training set. The trained model can not only improve the traditional SVM intrusion detection model for intrusion data recognition effect is not ideal and the high rate of misjudgment on the normal data shortcomings, Bagging integration algorithm and adopt suitable for large-scale parallel computing.
【技术实现步骤摘要】
一种适用于入侵检测的分类方法
本专利技术属于网络安全
,涉及入侵检测数据均衡化预处理的混合采样技术及支持向量机集成学习方法,公开了一种适用于入侵检测的分类方法。
技术介绍
在网络安全领域,入侵检测作为一种主动防御技术,通过收集并分析系统、用户及网络数据包的信息,监测用户和系统的活动。为了使检测系统能够从收集到的信息中自动检测到异常,机器学习技术被引入到入侵检测系统。支持向量机作为机器学习领域的一个重要研究分支,因为自身完善的数学理论和良好的实际应用效果,因此在入侵检测领域获得了应用。但是在传统的入侵检测标准训练集中,训练样本分布是极端不均衡的,单个支持向量机对类别不平衡的样本集较为敏感。因此将支持向量机应用到入侵检测中,训练出来的检测模型存在对入侵数据的检测率较低及对正常数据的误判率较高等难以让人满意的缺点。本专利技术针对SVM应用在入侵检测中的上述缺陷,提出了在训练样本集上首先采用基于核空间混合采样技术的样本均衡化预处理方法,在分类算法上采用支持向量机集成的学习方法,该方案可以改善支持向量机检测模型对入侵数据的检测率较低及误判率较高的缺点,并且适合大规模并行计算。
技术实现思路
本专利技术的目的是针对现有的SVM方案用于入侵检测的不足,提供了一种适用于入侵检测的分类方法,提高SVM在入侵检测中应对入侵数据的检测率及降低对正常数据的误判率,并且使算法适合大规模并行计算。本专利技术为解决上述技术问题所采用的技术方案如下:1)数据集规范化预处理:针对入侵检测标准数据集进行样本特征参数归一化处理,实现所有文本属性信息数值化转换,并使所有的特征属性得到规格化处理 ...
【技术保护点】
一种适用于入侵检测的分类方法,其特征在于包括如下步骤:1)对入侵检测标准数据集进行样本特征参数归一化处理;2)在核空间对不均衡样本集混合采样改善类别均衡度;采用核SMOTE算法对少数类样本进行过采样处理,得到过采样样本集;对多数类样本集采用基于核的模糊C均值聚类算法进行欠采样得到欠采样样本集;将上述得到的过采样样本集与欠采样样本集合并得到新的训练用均衡样本集;3)在上述得到的训练用均衡样本集上,采用Bagging方法构建多个训练子集,并分别对每个训练子集用SVM基分类器进行学习,得到集成分类器;4)分类器识别:在识别阶段,通过由步骤3)产生的基分类器来对测试集进行分类,最终预测结果采取加权投票得出。
【技术特征摘要】
1.一种适用于入侵检测的分类方法,其特征在于包括如下步骤:1)对入侵检测标准数据集进行样本特征参数归一化处理;2)在核空间对不均衡样本集混合采样改善类别均衡度;采用核SMOTE算法对少数类样本进行过采样处理,得到过采样样本集;对多数类样本集采用基于核的模糊C均值聚类算法进行欠采样得到欠采样样本集;将上述得到的过采样样本集与欠采样样本集合并得到新的训练用均衡样本集;3)在上述得到的训练用均衡样本集上,采用Bagging方法构建多个训练子集,并分别对每个训练子集用SVM基分类器进行学习,得到集成分类器;4)分类器识别:在识别阶段,通过由步骤3)产生的基分类器来对测试集进行分类,最终预测结果采取加权投票得出。2.根据权利要求1所述的适用于入侵检测的分类方法,其特征在于所述的步骤2)中采用核SMOTE算法对少数类样本进行过采样处理,具体为:设待处理的少数类样本集为:F={x1,x2,...xn},xi∈Rh,i=1,2,···,n,核函数K(·)和非线性映射相关,其中H是特征向量空间,Rh是原始输入空间,映射是将集合F中的样本映射到特征向量空间H中;步骤2.1.1:首先根据训练样本集中的多数类样本与少数类样本的样本差值,确定需要生成的人工样本的数目D;步骤2.1.2:在特征向量空间中生成人工少数类样本:步骤2.1.3:按照排列的序号顺序从中选取一个少数类样本xi∈Rh,i=1,2,···,n,求出该样本在特征向量空间中的k个少数类最近邻,最近邻求法如下:对少数类样本按照di的值从小到大进行排列,选择排...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。