当前位置: 首页 > 专利查询>重庆大学专利>正文

一种基于特征选择的网络入侵检测系统技术方案

技术编号:21899218 阅读:30 留言:0更新日期:2019-08-17 18:33
本发明专利技术公开了一种基于特征选择的网络入侵检测系统,包括测试数据抓取模块、特征提取模块、分类器模块以及数据类型输出模块;测试数据抓取模块抓取网络中的数据;训练样本经过混合采样模块和特征选择模块后对分类器模块进行训练,同时利用训练好的分类器模块对所述测试数据进行分类识别;混合采样模块用于实现各类训练数据量的均衡;特征选择模块采用递归特征消除法,根据相对重要性对各个特征进行排序,基于排序结果进行特征选择,同时控制所述特征提取模块按照最终选择的特征进行提取。其效果是:系统能够实现对入侵数据特征的选择,可以提高对小样本入侵数据的预测分类准确率,收敛速度快、所用数据少,易实现。

A Network Intrusion Detection System Based on Feature Selection

【技术实现步骤摘要】
一种基于特征选择的网络入侵检测系统
本专利技术涉及大数据领域中的数据预测技术,更具体地说,是一种基于特征选择的网络入侵检测系统。
技术介绍
网络入侵检测技术是建设网络强国的重中之重,是网络安全的第一道防线,对网络中的入侵数据进行准确预测,可以有效提升网络安全,保护国家、社会和家庭的财产安全。然而,随着移动互联网和信息通信产业近二十年的飞速发展,网络数据量呈现出指数级增长趋势,传统的网络入侵检测技术在庞大数据量面前捉襟见肘,存在虚警率高、难以检测未知入侵、检测速度慢等问题,难以实现高效高精度的检测。针对网络入侵检测的难题,学术界和工业界已有深入研究。现有的预测方法包括传统方法,如简单模式匹配、专家系统等方法,和现代的机器学习方法,如支持向量机、决策树等。传统方法结构简单,但在精度上比较欠缺。机器学习方法总体精度较高,但在对小样本进行预测时无法达到理想预测精度。
技术实现思路
针对目前研究中存在的问题,本专利技术提出了一种基于特征选择的入侵检测系统,该系统能够对数据集中决定入侵类型的特征维度基于重要性进行选择,对小样本的预测精度有较大提升,能够满足网络入侵检测系统对数据流预测。为实现上述目的,本专利技术所采用的具体技术方案如下:一种基于特征选择的入侵检测系统,其关键在于,包括测试数据抓取模块、特征提取模块、分类器模块以及数据类型输出模块;所述测试数据抓取模块用于抓取网络中的数据,并将抓取的测试数据传输到所述特征提取模块中提取相应的数据特征;所述分类器模块从样本数据库中获取训练样本,该训练样本经过混合采样模块和特征选择模块后对所述分类器模块进行训练,使其达到预先设定的检测精度,同时利用训练好的分类器模块对所述测试数据进行分类识别;所述混合采样模块用于实现各类训练数据量的均衡;所述特征选择模块采用递归特征消除法,根据相对重要性对各个特征进行排序,基于排序结果进行特征选择,同时控制所述特征提取模块按照最终选择的特征进行提取。可选地,所述样本数据库采用KDDCUP99数据集,将其字符型数据进行数字化处理,而后对其归一化,并按Dos、U2R、R2L、ProbeorScan和Normal五个类别分成五个子数据集。可选地,所述混合采样模块将多数类数据集进行下采样,将所得数据与少数类的子数据集合并,接着基于SMOTE算法对样本数量较少的数据类别进行过采样,使得各类数据量相对平衡,然后再对多数类每个样本使用KNN方法进行检测并剔除不良样本,最后将所得数据集进行洗牌。可选地,所述SMOTE算法将T个少数类样本合成NT个新样本,样本数量增加N倍,N为正整数。可选地,所述SMOTE算法按照xi1=xi+ζ1·(xi(nn)-xi)合成新样本,其中xi为原始样本,xi(nn)为原始样本xi的邻近样本,ζ1为0到1之间的随机数,每个原始样本重复N次,即可将T个少数类样本合成NT个新样本。可选地,所述KNN方法是基于距离度量的方式将多数类数据集中的每个样本寻找k个最近的邻近点,如果其k个邻近点有超过一半不属于该多数类,则这个样本会被删除,直至各个类型的样本数量相同。可选地,所述递归特征消除法采用SVM-RFE算法,基于SVM最大间隔原理进行序列后向选择,对每个特征进行评分,剔除最小得分特征,然后用剩余的特征再次训练模型,进行下一次迭代,根据迭代中特征被剔除的顺序,得到排序结果。可选地,所述分类器模块采用LightGBM分类器。可选地,所述分类器模块从样本数据库中获取测试样本,并按照所述特征选择模块最终选择的特征进行特征选择,进行分类准确率的验证。本专利技术的显著效果是:系统能够实现对入侵数据特征的选择,可以提高对小样本入侵数据的预测分类准确率,收敛速度快、所用数据少,易实现。附图说明下面将结合附图及实施例对本专利技术作进一步说明,附图中:图1是本专利技术的系统原理框图;图2是本专利技术进行数据处理以及预测分类的控制流程图;图3是本专利技术对于KDDCUP99中小样本(U2R、R2L)的预测分类效果图;图4为本专利技术对KDDCUP99数据集网络不同数量的特征入侵进行预测分类的效果图;图5为本专利技术与其余分类器分别对KDDCUP99数据集进行预测分类的效果图。具体实施方式为了使本专利技术要解决的技术问题、技术方案和优点更加清楚,下面将结合附图及具体实施例进行详细描述,应当理解,此处所描述的具体实施例仅仅用以解释本专利技术,并不用于限定本专利技术。如图1所示,本实施例提供的一种基于特征选择的入侵检测系统,包括测试数据抓取模块、特征提取模块、分类器模块以及数据类型输出模块;所述测试数据抓取模块用于抓取网络中的数据,并将抓取的测试数据传输到所述特征提取模块中提取相应的数据特征;所述分类器模块采用LightGBM分类器,从样本数据库中获取训练样本,该训练样本经过混合采样模块和特征选择模块后对所述分类器模块进行训练,使其达到预先设定的检测精度,同时利用训练好的分类器模块对所述测试数据进行分类识别;所述混合采样模块用于实现各类训练数据量的均衡;所述特征选择模块采用递归特征消除法,根据相对重要性对各个特征进行排序,基于排序结果进行特征选择,同时控制所述特征提取模块按照最终选择的特征进行提取。在具体实施时,所述样本数据库采用KDDCUP99数据集,将其字符型数据进行数字化处理,而后对其归一化,并按Dos、U2R、R2L、ProbeorScan和Normal五个类别分成五个子数据集。所述KDDCUP99数据集来自1998年美国国防部高级规划署(DARPA)在MIT林肯实验室进行的入侵检测评估项目,并被哥伦比亚大学SalStolfo教授等利用数据挖掘技术进行特征分析和数据预处理形成,来源真实有效。该数据集可细分为22个攻击类型小类,包含489万组数据。数据集中每个样本具备41项特征,包括9项TCP连接基本特征,13项TCP连接的内容特征,9项基于时间的网络流量统计特征以及10项基于主机的网络流量统计特征。为了进一步体现本系统的效果,我们将原始KDDCUP99数据集按照所述数据方法进行处理,分别得到训练集与测试集,其中训练集包含50万组数据,测试集包含10万组数据。按照图2所示的控制流程,将得到训练集作为LightGBM分类器输入,得到训练模型,并用训练模型对测试集进行预测分类。通过图1和图2可以看出,由于五个子数据集中Dos、Normal、ProbeorScan数据集属于多数类数据集,因此,模型训练过程中,通过所述混合采样模块将多数类数据集进行下采样,将所得数据与少数类的子数据集合并,接着基于SMOTE算法对样本数量较少的数据类别进行过采样,使得各类数据量相对平衡,然后再对多数类每个样本使用KNN方法进行检测并剔除不良样本,最后将所得数据集进行洗牌。具体实施时,所述SMOTE算法可以将T个少数类样本合成NT个新样本,样本数量增加N倍,N为正整数。具体按照xi1=xi+ζ1·(xi(nn)-xi)合成新样本,其中xi为原始样本,xi(nn)为原始样本xi的邻近样本,ζ1为0到1之间的随机数,每个原始样本重复N次,即可将T个少数类样本合成NT个新样本。所述KNN方法是基于距离度量的方式将多数类数据集中的每个样本寻找k个最近的邻近点,如果其k个邻近点有超过一半不属于该多数类,则这个样本会被删除,直至各本文档来自技高网...

【技术保护点】
1.一种基于特征选择的网络入侵检测系统,其特征在于,包括测试数据抓取模块、特征提取模块、分类器模块以及数据类型输出模块;所述测试数据抓取模块用于抓取网络中的数据,并将抓取的测试数据传输到所述特征提取模块中提取相应的数据特征;所述分类器模块从样本数据库中获取训练样本,该训练样本经过混合采样模块和特征选择模块后对所述分类器模块进行训练,使其达到预先设定的检测精度,同时利用训练好的分类器模块对所述测试数据进行分类识别;所述混合采样模块用于实现各类训练数据量的均衡;所述特征选择模块采用递归特征消除法,根据相对重要性对各个特征进行排序,基于排序结果进行特征选择,同时控制所述特征提取模块按照最终选择的特征进行提取。

【技术特征摘要】
1.一种基于特征选择的网络入侵检测系统,其特征在于,包括测试数据抓取模块、特征提取模块、分类器模块以及数据类型输出模块;所述测试数据抓取模块用于抓取网络中的数据,并将抓取的测试数据传输到所述特征提取模块中提取相应的数据特征;所述分类器模块从样本数据库中获取训练样本,该训练样本经过混合采样模块和特征选择模块后对所述分类器模块进行训练,使其达到预先设定的检测精度,同时利用训练好的分类器模块对所述测试数据进行分类识别;所述混合采样模块用于实现各类训练数据量的均衡;所述特征选择模块采用递归特征消除法,根据相对重要性对各个特征进行排序,基于排序结果进行特征选择,同时控制所述特征提取模块按照最终选择的特征进行提取。2.根据权利要求1所述的基于特征选择的网络入侵检测系统,其特征在于,所述样本数据库采用KDDCUP99数据集,将其字符型数据进行数字化处理,而后对其归一化,并按Dos、U2R、R2L、ProbeorScan和Normal五个类别分成五个子数据集。3.根据权利要求1或2所述的基于特征选择的网络入侵检测系统,其特征在于,所述混合采样模块将多数类数据集进行下采样,将所得数据与少数类的子数据集合并,接着基于SMOTE算法对样本数量较少的数据类别进行过采样,使得各类数据量相对平衡,然后再对多数类每个样本使用KNN方法进行检测并剔除不良样本,最后将所得数据集进行洗牌。4.根据权利要求3所述的基于特征选择...

【专利技术属性】
技术研发人员:蒋卫恒谢智玮谭佳宝魏鑫全张瑜赖琴喻莞芯邬小刚
申请(专利权)人:重庆大学
类型:发明
国别省市:重庆,50

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1