当前位置: 首页 > 专利查询>东北大学专利>正文

基于精英麻雀搜索改进XGBoost算法的异常流量检测方法及系统技术方案

技术编号:38746491 阅读:12 留言:0更新日期:2023-09-08 23:28
本发明专利技术涉及一种基于精英麻雀搜索改进XGBoost算法的异常流量检测方法,其中:所述方法步骤如下:(1)、对实时采集的带有异常流量环境的网络流量数据进行初始化,获得带有初始特征集的流量数据集;(2)、对步骤(1)中所述的流量数据集进行特征提取获得提取后的特征集的流量数据集;(3)、将步骤(2)中所述的带有初始特征集的流量数据集输入至基于精英麻雀搜索改进XGBoost模型,输出检测结果。其有益效果是,使用XGBoost作为基分类器,精英麻雀搜索算法进行算法性能优化,得到更精准的异常流量分类结果。类结果。类结果。

【技术实现步骤摘要】
基于精英麻雀搜索改进XGBoost算法的异常流量检测方法及系统


[0001]本专利技术涉及互联网安全
,尤其涉及一种基于精英麻雀搜索改进XGBoost算法的异常流量检测方法及系统。

技术介绍

[0002]随着互联网中各种科技的不断飞跃,以及人类对计算机网络的研究越来越深入,使得一些不法分子可以利用其网络中的一些原理进行攻击性实验,比如攻击者向被攻击方发送大量的SYN请求流量,使得被攻击方无法及时响应ACK,致使主机最后崩溃。另外,还有一些常见的恶意流量软件发出的流量攻击,会恶意盗取他人密码或企业的重要机密等,这些恶意攻击无时无刻不在威胁着我们的生活。因此,实时准确的识别出异常流量以及将其隔绝丢弃,是提高网络安全性能方面的关键因素。
[0003]网络入侵检测旨在识别恶意流量,从而保护计算机、网络、服务器和数据免受攻击,防止未经授权的访问、修改或破坏等。随着新型网络攻击的激增,以及越来越多的网络动态端口的出现,难以靠端口或一些流量中固有的特征来识别出流量的类型,因此,依靠模式匹配(如IP地址和端口号)和分类的传统入侵检测方法正在失去效力。
[0004]近年来,基于人工智能算法的异常流量检测技术取得了很大进展,出现了使用支持向量机SVM算法进行工业异常检测的记载。但是基于支持向量机的工业异常检测并不适用于网络流量检测,因为SVM对于实现二分类效果更好,而网络流量的异常检测需要具体区分其异常种类,以便于后续进行流量调度的工作。目前,大多数网络流量检测都是基于领域知识和经验的特征筛选方法,根据领域知识和经验来进行特征选择可能会包含一些主观因素,使其得到的结果欠缺客观性,进而造成该方法检测效果差。

技术实现思路

[0005](一)要解决的技术问题
[0006]鉴于现有技术的上述缺点、不足,本专利技术提供一种基于精英麻雀搜索改进XGBoost算法的异常流量检测方法及系统,其解决了现有技术存在的检测结果欠缺客观性,导致检测效果差的技术问题。
[0007](二)技术方案
[0008]为了达到上述目的,本专利技术采用的主要技术方案包括:
[0009]第一方面,本专利技术实施例提供一种基于精英麻雀搜索改进XGBoost算法的异常流量检测方法,其特征在于:所述方法步骤如下:
[0010](1)、对实时采集的带有异常流量环境的网络流量数据进行初始化,获得带有初始特征集的流量数据集;
[0011](2)、对步骤(1)中所述的流量数据集进行特征提取获得提取后的特征集的流量数据集;
[0012](3)、将步骤(2)中所述的带有初始特征集的流量数据集输入至基于精英麻雀搜索改进XGBoost模型,输出检测结果。
[0013]可选的,(1)步骤中,初始化所述异常流量环境的网络流量数据是捕获带有异常流量的数据包,使用流量处理工具CIC

Flowmeter将异常流量的数据包处理为带有初始特征集的流量数据集。
[0014]可选的,(2)步骤中,所述特征提取为针对所述带有初始特征集的流量数据集提取特征重要性前15的特征,获得提取后的特征集的流量数据集。
[0015]可选的,所述的特征重要性为类内距离小,类间距离大的特征。
[0016]可选的,(3)步骤中,所述基于精英麻雀搜索改进XGBoost模型为:对构建好的XGBoost模型利用精英麻雀搜索算法进行优化得到的所述基于精英麻雀搜索改进XGBoost模型。
[0017]可选的,构建XGBoost模型的方法为:
[0018](一):输入经过特征提取处理后的历史网络流量数据集,历史网络流量数据集由特征矩阵F和标签向量L组成,其中F的维度为表示有n个样本,每个样本含有m个特征;
[0019](二):初始化XGBoost模型作为原始模型:所述XGBoos模型使用决策树作为基分类器,初始化只有一个叶子结点的决策树;
[0020](三):计算每次预测会出现的残差:使用“步骤(二)”中的初始化XGBoost模型对输入的步骤(一)中的历史流量集数据进行预测,得到预测结果F(y),计算预测结果与实际标签之间的残差:其中y为实际标签;
[0021](四):训练子模型:使用步骤(三)中得到的所述残差作为标签,将历史网络流量数据集的数据作为训练集,再训练一个新的决策树模型,作为所述原始模型的一棵子树,用于纠正所述原始模型的错误,得到一个更新过的更加准确的新模型;
[0022](五):迭代训练所述新模型:重复步骤(三)—(四),直到达到预设的迭代次数为止,并保存训练好的XGBoost模型。
[0023]可选的,对构建好的所述XGBoost模型利用精英麻雀搜索算法进行优化的步骤中把网络流量数据集模拟为麻雀种群,具体步骤如下:
[0024]步骤1:使用tent混沌映射初始化麻雀种群,使其随机化分布,由初始麻雀种群X生成混沌种群Y;同时,通过透镜成像反向学习方法将初始麻雀种群X生成透镜成像反向种群Z;
[0025]步骤2:种群Y与种群Z排序,取适应度值前N的种群P;
[0026]步骤3:种群P与初始麻雀种群X排序,取适应度前N的种群X


[0027]步骤4:初始化种群X

的个体适应度并排序,更新个体位置;
[0028]步骤5:比较个体适应度,选择最优适应度的个体;
[0029]步骤6:将步骤5中选择出的个体根据柯西

高斯公式进行变异;比较个体变异前与变异后的位置变化,选择更好的位置,位置好坏由靠近食物、远离危险决定;
[0030]步骤7:由步骤6中选出具有更好位置的个体进入下一轮迭代;
[0031]步骤8:迭代结束,输出模型最优适应度值、最优解。
[0032]可选的,步骤1中:随机初始化个体数为N的初始麻雀种群X=x1,x2,

,x
n
,x
id
表示
第i只麻雀在第d维的位置;将种群X代入式(2)生成混沌种群Y,同时将种群X代入式(3)生成透镜成像反向种群Z;
[0033][0034][0035][0036]α就是一个混沌系数,通常取0.5;x
i
是指第i只麻雀,x
1b
和x
ub
分别对应解空间中的下界和上界,x
j
是第j只麻雀,x
j
*为经过了混沌初始化核透镜成像反向化后的第j只麻雀,y
i
对应公式(1)中的x
n+1
,a
j
和b
j
分别表示当前种群第j维中的最小值和最大值,k为透镜的缩放系数。
[0037]可选的,步骤6中:柯西

高斯变异策略主要是选择当前适应度最好的个体进行变异,然后比较其变异前后的位置,选择比较之后较优的位置代入下一次迭代,具体公式如下:
[0038][0039][0040本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于精英麻雀搜索改进XGBoost算法的异常流量检测方法,其特征在于:所述方法步骤如下:(1)、对实时采集的带有异常流量环境的网络流量数据进行初始化,获得带有初始特征集的流量数据集;(2)、对步骤(1)中所述的流量数据集进行特征提取获得提取后的特征集的流量数据集;(3)、将步骤(2)中所述的带有初始特征集的流量数据集输入至基于精英麻雀搜索改进XGBoost模型,输出检测结果。2.如权利要求1所述的基于精英麻雀搜索改进XGBoost算法的异常流量检测方法,其特征在于:(1)步骤中,初始化所述异常流量环境的网络流量数据是捕获带有异常流量的数据包,使用流量处理工具CIC

Flowmeter将异常流量的数据包处理为带有初始特征集的流量数据集。3.如权利要求1所述的基于精英麻雀搜索改进XGBoost算法的异常流量检测方法,其特征在于:(2)步骤中,所述特征提取为针对所述带有初始特征集的流量数据集提取特征重要性前15的特征,获得提取后的特征集的流量数据集。4.如权利要求3所述的基于精英麻雀搜索改进XGBoost算法的异常流量检测方法,其特征在于:所述的特征重要性为类内距离小,类间距离大的特征。5.如权利要求1所述的基于精英麻雀搜索改进XGBoost算法的异常流量检测方法,其特征在于:(3)步骤中,所述基于精英麻雀搜索改进XGBoost模型为:对构建好的XGBoost模型利用精英麻雀搜索算法进行优化得到的所述基于精英麻雀搜索改进XGBoost模型。6.如权利要求5所述的基于精英麻雀搜索改进XGBoost算法的异常流量检测方法,其特征在于:构建XGBoost模型的方法为:(一):输入经过特征提取处理后的历史网络流量数据集,历史网络流量数据集由特征矩阵F和标签向量L组成,其中F的维度为表示有n个样本,每个样本含有m个特征;(二):初始化XGBoost模型作为原始模型:所述XGBoos模型使用决策树作为基分类器,初始化只有一个叶子结点的决策树;(三):计算每次预测会出现的残差:使用“步骤(二)”中的初始化XGBoost模型对输入的步骤(一)中的历史流量集数据进行预测,得到预测结果F(y),计算预测结果与实际标签之间的残差:其中y为实际标签;(四):训练子模型:使用步骤(三)中得到的所述残差作为标签,将历史网络流量数据集的数据作为训练集,再训练一个新的决策树模型,作为所述原始模型的一棵子树,用于纠正所述原始模型的错误,得到一个更新过的更加准确的新模型;(五):迭代训练所述新模型:重复步骤(三)—(四),直到达到预设的迭代次数为止,并保存训练好的XGBoost模型。7.如权利要求6所述的基于精英麻雀搜索改进XGBoost算法的异常流量检测方法,其特征在于:
对构建好的所述XGBoost模型利用精英麻雀搜索算法进行优化的步骤中把网络流量数据集模拟为麻雀种群,具体步骤如下:步骤1:使用tent混沌映射初始化麻雀种群,使其随机化分布,由初始麻雀种群X生成混沌种群Y;同时,通过透镜成像反向学习方法将初始麻雀种群X生成透镜成像反向种群Z;步骤2:种群Y与种群Z排序,取适应度值前N的种群P;步骤3:种群P与初始麻雀种群X排序,取适...

【专利技术属性】
技术研发人员:王兴伟孙晓娟于佳林赵伟莨李婕贾杰
申请(专利权)人:东北大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1