当前位置: 首页 > 专利查询>福州大学专利>正文

基于SMOTETomek和LightGBM的Web异常检测方法及系统技术方案

技术编号:21899220 阅读:74 留言:0更新日期:2019-08-17 18:33
本发明专利技术涉及基于SMOTETomek和LightGBM的Web异常检测方法及系统,首先从交换机上采集镜像流量PCAP包,提取网络流量特征,其次清洗训练数据集冗余数据,缺失值处理,处理字符型流量特征,采用min‑max方法归一化数据,然后基于基尼系数的GBDT算法计算流量特征重要性,进行特征选择,再结合SMOTE和Tomek Links算法对少数类进行过采样,通过LightGBM算法训练分类器对异常流量进行检测,最后对检测结果进行响应和反馈处理。本发明专利技术可检测未知Web攻击,对少数类Web攻击检测率和检测精度高。

Web anomaly detection method and system based on SMOTETomek and LightGBM

【技术实现步骤摘要】
基于SMOTETomek和LightGBM的Web异常检测方法及系统
本专利技术涉及网络安全
,特别是一种基于SMOTETomek和LightGBM的Web异常检测方法及系统。
技术介绍
随着网络技术的迅速发展,Web服务在网络服务中得到了广泛的应用,因此也成为了不法分子的主要攻击对象。由于攻击工具的不断更新以及攻击技术的不断提高,基于规则匹配的入侵检测系统很难检测变形或未知Web攻击,采用挖掘日志信息来检测攻击行为的方法存在一定的滞后性,基于机器学习的检测模型虽然可以检测未知攻击,但受限于特征提取的好坏,检测率和检测精度有待提高。从微观角度上观察,攻击者的入侵行为都是需要与目标保持通信,因此基于机器学习分析流量特征上细微变化攻击行为成为研究的焦点,目前基于异常流量的检测仍然存在攻击流量与正常流量分布不均匀、数据量大机器学习算法难以处理和效率低等问题。
技术实现思路
有鉴于此,本专利技术的目的是提出一种基于SMOTETomek和LightGBM的Web异常检测方法及系统,可检测未知Web攻击,对少数类Web攻击检测率和检测精度高。本专利技术采用以下方案实现:一种基于SMOTETomek和LightGBM的Web异常检测方法,首先从交换机上采集镜像流量PCAP包,提取网络流量特征,其次清洗训练数据集冗余数据,缺失值处理,处理字符型流量特征,采用min-max方法归一化数据,然后基于基尼系数的GBDT算法计算流量特征重要性,进行特征选择,再结合SMOTE和TomekLinks算法对少数类进行过采样,通过LightGBM算法训练分类器对异常流量进行检测,最后对检测结果进行响应和反馈处理;具体包括模型训练环节和实时检测环节;所述模型训练环节具体为:首先从交换机设备上采集镜像流量PCAP包,提取网络流量特征,再对流量数据进行预处理,然后采用lightGBM算法训练流量异常检测模型;所述实时检测环节具体为:实时从交换机设备上采集镜像流量PCAP包,提取网络流量特征,利用训练好的流量异常检测模型对数据进行检测。进一步地,所述对流量数据进行据处理具体包括包括以下步骤:步骤S1:清洗训练数据集冗余数据,处理字符型流量特征,处理缺失值,采用min-max方法归一化数据;步骤S2:进行特征选择计算,采用基于基尼系数的GBDT算法,计算每一维特征的重要性,对重要性进行归一化处理;步骤S3:进行数据平衡处理,结合SMOTE和TomekLinks算法平衡少数类与多数类的分布。进一步地,所述采用lightGBM算法训练流量异常检测模型具体为:加载预处理后的数据,采用LightGBM算法,训练正常和异常流量二分类模型以及Web攻击多分类模型。进一步地,步骤S1中,所述处理字符型流量特征具体为:删除每一维字符型特征,将攻击类别转化为十进制数字。进一步地,步骤S1中,所述处理缺失值具体为:对每一条数据的缺失值,在所有同类别数据中取平均值补齐。进一步地,步骤S3具体包括以下步骤:步骤S31:采用SMOTE算法对少量类别数据进行过采样;步骤S32:将过采样后的数据,采用TomekLinks算法,进行下采样处理;步骤S33:设置一个采样阈值,该阈值控制多数类与少数类之间的数量级差;若SMOTE与TomekLinks处理过后的多数类与少数类的数量级差大于该阈值,则返回步骤S31,直至满足要求。进一步地,所述数量级差的计算公式为:数量级差=多数类数量/少数类数量。本专利技术还提供了一种基于上文所述的基于SMOTETomek和LightGBM的Web异常检测方法的系统,具体包括存储器与执行器,所述存储器中存储有权利要求1中的方法指令,所述执行器在运行时执行存储器中的方法指令。特别的,本专利技术的系统包括以下功能模块:流量采集及特征提取单元:从交换机设备上的镜像端口,采用Wireshark开源工具捕获数据包,将流量PCAP包以会话粒度处理,提取网络流量特征;流量行为建模及实时流量分析单元:根据历史数据训练异常检测模型,包括正常和异常流量模型和多类别Web攻击模型,实时读取流量数据,利用异常检测模型对网络流量进行实时检测;警报响应单元:若检测结果存在攻击行为,则显示攻击者、攻击类别、攻击时间等信息,发出警报给安全管理员,安全管理员可根据攻击行为信息分析采取相应措施;更新存储单元:审核检测结果,更正误报漏报数据,存储到关系型数据库。与现有技术相比,本专利技术有以下有益效果:本专利技术解决了异常检测过程中模型训练数据不平衡问题,解决大批量数据训练困难的问题,并且提高了检测率和检测精度,实现了对几种经典攻击手段的检测。算法扩展性能好,效率高,可适应网络流量剧增所带来的检测压力,具有很强的实用性和广阔的应用前景。附图说明图1为本专利技术实施例的原理框架示意图。图2为本专利技术实施例的正常和异常流量模型。图3为本专利技术实施例的多类别Web攻击模型。图4为本专利技术实施例的数据预处理流程图。图5为本专利技术实施例的数据平衡处理流程图。图6为本专利技术实施例采用的实验数据集。图7为本专利技术实施例的二分类检测的混淆矩阵。图8为本专利技术实施例的二分类检测的准确率、召回率和误报率。图9为本专利技术实施例的多分类的准确率、召回率。图10为本专利技术实施例的多种算法检测结果对比示意图。具体实施方式下面结合附图及实施例对本专利技术做进一步说明。应该指出,以下详细说明都是示例性的,旨在对本申请提供进一步的说明。除非另有指明,本文使用的所有技术和科学术语具有与本申请所属
的普通技术人员通常理解的相同含义。需要注意的是,这里所使用的术语仅是为了描述具体实施方式,而非意图限制根据本申请的示例性实施方式。如在这里所使用的,除非上下文另外明确指出,否则单数形式也意图包括复数形式,此外,还应当理解的是,当在本说明书中使用术语“包含”和/或“包括”时,其指明存在特征、步骤、操作、器件、组件和/或它们的组合。如图1所示,本实施例提供了一种基于SMOTETomek和LightGBM的Web异常检测方法,首先从交换机上采集镜像流量PCAP包,提取网络流量特征,其次清洗训练数据集冗余数据,缺失值处理,处理字符型流量特征,采用min-max方法归一化数据,然后基于基尼系数的GBDT算法计算流量特征重要性,进行特征选择,再结合SMOTE和TomekLinks算法对少数类进行过采样,通过LightGBM算法训练分类器对异常流量进行检测,最后对检测结果进行响应和反馈处理;具体包括模型训练环节和实时检测环节;所述模型训练环节具体为:首先从交换机设备上采集镜像流量PCAP包,提取网络流量特征,再对流量数据进行预处理,然后采用lightGBM算法训练流量异常检测模型;所述实时检测环节具体为:实时从交换机设备上采集镜像流量PCAP包,提取网络流量特征,利用训练好的流量异常检测模型对数据进行检测。在本实施例中,所述对流量数据进行据处理具体包括包括以下步骤:步骤S1:清洗训练数据集冗余数据,处理字符型流量特征,处理缺失值,采用min-max方法归一化数据;步骤S2:进行特征选择计算,采用基于基尼系数的GBDT算法,计算每一维特征的重要性,对重要性进行归一化处理;步骤S3:进行数据平衡处理,结合SMOTE和TomekLinks算法平衡少数类与多数类的分布。在本实施例本文档来自技高网
...

【技术保护点】
1.一种基于SMOTETomek和LightGBM的Web异常检测方法,其特征在于,包括模型训练环节和实时检测环节;所述模型训练环节具体为:首先从交换机设备上采集镜像流量PCAP包,提取网络流量特征,再对流量数据进行预处理,然后采用lightGBM算法训练流量异常检测模型;所述实时检测环节具体为:实时从交换机设备上采集镜像流量PCAP包,提取网络流量特征,利用训练好的流量异常检测模型对数据进行检测。

【技术特征摘要】
1.一种基于SMOTETomek和LightGBM的Web异常检测方法,其特征在于,包括模型训练环节和实时检测环节;所述模型训练环节具体为:首先从交换机设备上采集镜像流量PCAP包,提取网络流量特征,再对流量数据进行预处理,然后采用lightGBM算法训练流量异常检测模型;所述实时检测环节具体为:实时从交换机设备上采集镜像流量PCAP包,提取网络流量特征,利用训练好的流量异常检测模型对数据进行检测。2.根据权利要求1所述的一种基于SMOTETomek和LightGBM的Web异常检测方法,其特征在于,所述对流量数据进行据处理具体包括包括以下步骤:步骤S1:清洗训练数据集冗余数据,处理字符型流量特征,处理缺失值,采用min-max方法归一化数据;步骤S2:进行特征选择计算,采用基于基尼系数的GBDT算法,计算每一维特征的重要性,对重要性进行归一化处理;步骤S3:进行数据平衡处理,结合SMOTE和TomekLinks算法平衡少数类与多数类的分布。3.根据权利要求1所述的一种基于SMOTETomek和LightGBM的Web异常检测方法,其特征在于,所述采用lightGBM算法训练流量异常检测模型具体为:加载预处理后的数据,采用LightGBM算法,训练正常和异常流量二分类模型以及Web攻击多分类模型。4.根据权利要求2所述的一种基于SMOTETomek...

【专利技术属性】
技术研发人员:张浩魏志强连鸿飞
申请(专利权)人:福州大学
类型:发明
国别省市:福建,35

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1