一种基于XGBoost和LGBM的入侵检测方法、存储介质及设备技术

技术编号:36355622 阅读:17 留言:0更新日期:2023-01-14 18:11
本发明专利技术公开了一种基于XGBoost和LGBM的入侵检测方法、存储介质及设备,方法包括步骤:获取数据集,对所述数据集进行数据预处理;根据信息增益和FCBF算法对预处理后的数据集进行特征选择;采用XGBoost和LGBM分类器对数据进行分类处理;优化XGBoost和LGBM分类器,根据分类器性能比较结果,选择性能更高的分类器进行分类结果输出。本发明专利技术通过对数据集进行数据预处理,可缓解数据集样本的不平衡问题,同时提高了数据集质量;通过对分类器不断优化,提高分类器的分类处理性能,并通过选择性能更高的分类器进行分类结果输出,能提高入侵检测的检测精度、降低入侵检测异常误报率。降低入侵检测异常误报率。降低入侵检测异常误报率。

【技术实现步骤摘要】
一种基于XGBoost和LGBM的入侵检测方法、存储介质及设备


[0001]本专利技术涉及网络安全
,具体涉及一种基于XGBoost和LGBM的入侵检测方法、存储介质及设备。

技术介绍

[0002]随着互联网在现代生活中的日益普及,大量的设备已经成为互操作的可通过网络进行交互,随之而来的就是大量的设备安全问题,因而网络空间的安全受到更多关注。入侵检测系统(IDS)用于有效检测网络上的各种恶意攻击,是维护网络空间安全的最关键系统之一。从机器学习(ML)的角度来看,IDS可以定义为旨在对网络流量进行分类的系统,一个简单的模型是二进制分类模型,用于区分正常和恶意网络流量,从而能够检测入侵流量。随着最近以ML为重点的研究进展,许多研究表明,可以设计ML算法以实现IDS。
[0003]对数据集进行预处理和分类的时候,采用机器学习的方法往往能取得更优的结果。虽然机器学习在流量异常检测领域有了一些研究成果,但是都存在一些问题:一是目前很少有研究工作提出十分有效的解决方法,来解决入侵检测问题下的样本不平衡问题;二是检测精度和误报率都无法达到产品的要求,所以在实际应用中很少。
[0004]因此,网络入侵检测中如何平衡样本以及提高入侵检测的准确率,是网络入侵检测需要解决的问题。

技术实现思路

[0005]为了克服上述技术缺陷,本专利技术提供一种基于XGBoost和LGBM的入侵检测方法、存储介质及设备,其能提高网络入侵检测的准确率。
[0006]为了解决上述问题,本专利技术按以下技术方案予以实现:
[0007]第一方面,本专利技术提供一种基于XGBoost和LGBM的入侵检测方法,包括步骤:
[0008]获取数据集,对所述数据集进行数据预处理;
[0009]根据信息增益和FCBF算法对预处理后的数据集进行特征选择;
[0010]采用XGBoost和LGBM分类器对数据集的数据进行分类处理;
[0011]优化XGBoost和LGBM分类器,根据分类器性能比较结果,选择性能更高的分类器进行分类结果输出。
[0012]作为上述方案的改进,所述获取数据集,对所述数据集进行预处理包括步骤:
[0013]删除数据集中的空值、格式不正确的值及重复的值,使数据集中的每个值只保留一个有效数据;
[0014]采用K

Means聚类算法将数据集中数据分成K个聚类,并从每个聚类中随机选取数据作为实例化的子集;
[0015]根据阿特曼Z

score模型将数据集进行标准化处理;
[0016]采用DSSTE算法对数据集进行数据平衡。
[0017]作为上述方案的改进,所述采用DSSTE算法对数据集进行数据平衡包括步骤:
[0018]采用ENN算法将不平衡的训练集分为近邻集和远邻集,并且将近邻集定义为困难样本,将远邻集定义为简单样本;
[0019]采用K

Means聚类算法将困难样本里的多样本进行压缩,并以聚类中心替代聚类;
[0020]将困难样本里的少样本进行放大,将简单样本、经过放大的困难样本及压缩后的困难样本组合形成一个新的训练集。
[0021]作为上述方案的改进,所述K

Means聚类算法的超参数K由BO

GP算法进行优化。
[0022]作为上述方案的改进,所述根据信息增益和FC BC算法对预处理后的数据集进行特征选择包括步骤:
[0023]根据信息增益算法计算每个特征的IG值,将每个特征的IG值标准化为0

1之间的值,并将所有特征的IG值进行排序,从数值大到数值小依次进行特征选择,直至到达第一阈值时停止选择,将未被选择的特征剔除;
[0024]采用FCBF算法计算每两个特征的相似度,若相似度值大于第二阈值时,将进行相似度计算的两个特征IG值进行对比,剔除IG值低的特征,重复此步骤,直至数据集中任意两个特征相似度小于第二阈值。
[0025]作为上述方案的改进,所述第一阈值与第二阈值采用BO

GP算法进行优化。
[0026]作为上述方案的改进,所述采用XGBoost和LGBM分类器对数据进行分类处理包括步骤:
[0027]将数据集划分成一个训练集和一个测试集,所述训练集包含数据集的70%数据样本,所述测试集包含数据集的30%数据样本;
[0028]所述测试集采用十折交叉法对模型迭代训练,所述十折交叉验证法的每一次迭代中,将90%的原始训练集用于模型训练,10%的原始训练集作为验证集进行模型测试。
[0029]作为上述方案的改进,所述优化XGBoost和LGBM分类器,根据分类器性能比较结果,选择性能更高的分类器进行分类结果输出包括步骤:
[0030]采用BO

TPE算法对XGBoost和LGBM分类器进行超参数优化;
[0031]计算LGBM分类器和XGBoost分类器的准确率和出现最优准确率的时长并进行比较,当XGBoost分类器的准确率大于LGBM分类器的准确率且XGBoost分类器出现最优准确率的时长小于LGBM分类器时,选择XGBoost分类器进行分类结果输出,否则,选择LGBM分类器进行分类结果输出。
[0032]第二方面,本专利技术提供一种计算机可读存储介质,所述计算机可读存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行以实现如第一方面所述的基于XGBoost和LGBM的入侵检测方法。
[0033]第三方面,本专利技术提供一种设备,所述设备包括处理器和存储器,所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、至少一段程序、代码集或指令集由所述处理器加载并执行以实现如第一方面所述的基于XGBoost和LGBM的入侵检测方法。
[0034]与现有技术相比,本专利技术具有以下有益效果:
[0035]本申请通过对数据集进行数据预处理,可缓解数据集样本的不平衡问题,同时提高了数据集质量;通过对分类器不断优化,提高分类器的分类处理性能,并通过选择性能更
高的分类器进行分类结果输出,能提高入侵检测的检测精度、降低入侵检测异常误报率。
附图说明
[0036]下面结合附图对本专利技术的具体实施方式作进一步详细的说明,其中:
[0037]图1为一个实施例中基于XGBoost和LGBM的入侵检测方法的流程示意图;
[0038]图2为一个实施例中所述中步骤S100的流程示意图;
[0039]图3为一个实施例中所述步骤S140的流程示意图;
[0040]图4为一个实施例中所述步骤S200的流程示意图;
[0041]图5为一个实施例中所述步骤S300的流程示意图;
[0042]图6为一个实施例中所述步骤S400的流程示意图。
具体本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于XGBoost和LGBM的入侵检测方法,其特征在于,包括步骤:获取数据集,对所述数据集进行数据预处理;根据信息增益和FCBF算法对预处理后的数据集进行特征选择;采用XGBoost和LGBM分类器对数据集的数据进行分类处理;优化XGBoost和LGBM分类器,根据分类器性能比较结果,选择性能更高的分类器进行分类结果输出。2.根据权利要求1所述的基于XGBoost和LGBM的入侵检测方法,其特征在于,所述获取数据集,对所述数据集进行预处理包括步骤:删除数据集中的空值、格式不正确的值及重复的值,使数据集中的每个值只保留一个有效数据;采用K

Means聚类算法将数据集中数据分成K个聚类,并从每个聚类中随机选取数据作为实例化的子集;根据阿特曼Z

score模型将数据集进行标准化处理;采用DSSTE算法对数据集进行数据平衡。3.根据权利要求2所述的基于XGBoost和LGBM的入侵检测方法,其特征在于,所述采用DSSTE算法对数据集进行数据平衡包括步骤:采用ENN算法将不平衡的训练集分为近邻集和远邻集,并且将近邻集定义为困难样本,将远邻集定义为简单样本;采用K

Means聚类算法将困难样本里的多样本进行压缩,并以聚类中心替代聚类;将困难样本里的少样本进行放大,将简单样本、经过放大的困难样本及压缩后的困难样本组合形成一个新的训练集。4.根据权利要求3所述的基于XGBoost和LGBM的入侵检测方法,其特征在于,所述K

Means聚类算法的超参数K由BO

GP算法进行优化。5.根据权利要求1所述的基于XGBoost和LGBM的入侵检测方法,其特征在于,所述根据信息增益和FC BC算法对预处理后的数据集进行特征选择包括步骤:根据信息增益算法计算每个特征的IG值,将每个特征的IG值标准化为0

1之间的值,并将所有特征的IG值进行排序,从数值大到数值小依次进行特征选择,直至到达第一阈值时停止选择,将未被选择的特征剔除;采用FCBF算法计算每两个特征的...

【专利技术属性】
技术研发人员:刘兰吴亚峰陈桂铭胡峻涵陈子力林子萌
申请(专利权)人:广东技术师范大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1