一种基于集成学习的WEB异常流量监测方法技术

技术编号:16457929 阅读:42 留言:0更新日期:2017-10-25 22:36
本发明专利技术请求保护一种基于集成学习的WEB异常流量监测方法,包括数据预处理,构建特征工程,数据集重构,模型的建立与融合和模型测试五个过程。数据预处理是对URL数据进行有效信息抽取。特征工程的构建是采用信息熵、互信息等统计学方法进行URL特征的提取与构建。特征工程构建完成后,针对不同的访问性质,对数据集进行调整,输入XGBoost、LightGBM等四种机器学习算法中进行有监督学习。学习器构造完成后,采用Bagging框架集成学习器。在原始数据集上重新选取数据集进行分类预测,以多数投票的方式敲定标签,检验模型准确率。在使用模型过程中,将URL输入模型,模型中的五个子模型会分别给出各自的标签概率,概率最高的标签作为最终标签给出。

A WEB abnormal traffic monitoring method based on Ensemble Learning

The invention requests to protect a WEB abnormal traffic monitoring method based on integrated learning, including data preprocessing, building feature engineering, data set reconstruction, model establishment and integration and model testing five processes. Data preprocessing is an effective information extraction method for URL data. The construction of feature engineering is the extraction and construction of URL features by means of statistical methods such as information entropy and mutual information. After the construction of Feature Engineering, the data set is adjusted according to different access properties, and supervised learning is carried out in four machine learning algorithms such as XGBoost and LightGBM. After the completion of the learner's structure, the Bagging framework is used to integrate the learning device. In the original data set, the data set is re selected to classify and predict, and the tag is finalized by the majority voting method, and the accuracy of the model is tested. In the process of using the model, the URL input model and the five sub models in the model are given their tag probability respectively, and the highest probability tag is given as the final label.

【技术实现步骤摘要】
一种基于集成学习的WEB异常流量监测方法
本专利技术属于机器学习
,具体涉及多种统计学算法与机器学习算法,本算法采用了新的特征提取方式,对统计学与机器学习算法进行创新性融合,实现对WEB异常流量的监测。
技术介绍
1、信息时代的网络安全问题在信息大爆炸的今天,计算机网络的规模与互联网使用人数都达到了空前规模,而接踵而至的,是网络安全问题的愈加凸显。作为抵御网络攻击的最主要手段,异常流量监测的研发与升级迫在眉睫。经过二十多年的发展,流量监测的研究进化出了多个分支,然而在实际应用中,效果却并不尽如人意,其难点主要集中在下面几个方面:1)将违规行为模式用固定规则进行实时监测导致误报率过高;2)运用特征匹配时,特征库需要手动更新,无法检测未知攻击方式;3)庞大的规则数量使得系统检测性能受到了很大的影响,规则库的维护变得难以维护;4)具有阻断功能的异常流量检测系统在误检正常通信行为时,正常通信会被阻断;5)在监测系统数据存储能力存在瓶颈时,易遭受拒绝服务攻击,通信将被阻断。基于异常流量检测系统存在以上问题,当前关于该系统的研究主要集中在三个方向上:特征匹配、规则推理与机器学习。2、机器学本文档来自技高网...
一种基于集成学习的WEB异常流量监测方法

【技术保护点】
一种基于集成学习的WEB异常流量监测方法,其特征在于,包括以下步骤:1)数据预处理:获取统一资源定位符URL记录,并对统一资源定位符URL记录进行切割分离,提取有效信息;2)构建特征工程:运用统计学方法对常见的指令攻击、数据库攻击、跨站脚本攻击与本地文件包含攻击以及正常网络访问的统一资源定位符URL分别进行特征的提取;3)数据集重构:针对五种访问性质,分别根据各自特征对总数据集进行整理,将标签调整为该访问性质及其他;4)模型建立:对五种访问性质所对应的数据集,分别运用XGBoost极端梯度提升、Light GBM轻量级梯度提升机、RF随机森林、LR逻辑回归四种机器学习算法对数据进行有监督学习,...

【技术特征摘要】
1.一种基于集成学习的WEB异常流量监测方法,其特征在于,包括以下步骤:1)数据预处理:获取统一资源定位符URL记录,并对统一资源定位符URL记录进行切割分离,提取有效信息;2)构建特征工程:运用统计学方法对常见的指令攻击、数据库攻击、跨站脚本攻击与本地文件包含攻击以及正常网络访问的统一资源定位符URL分别进行特征的提取;3)数据集重构:针对五种访问性质,分别根据各自特征对总数据集进行整理,将标签调整为该访问性质及其他;4)模型建立:对五种访问性质所对应的数据集,分别运用XGBoost极端梯度提升、LightGBM轻量级梯度提升机、RF随机森林、LR逻辑回归四种机器学习算法对数据进行有监督学习,运用bagging框架集成学习器,得到针对这五种访问性质各自的识别模型;5)模型测试:对步骤4)中提前预留的部分数据集进行测试,检验模型准确率。2.根据权利要求1所述的基于集成学习的WEB异常流量监测方法,其特征在于,所述步骤1)URL有效信息的抽取包括步骤:对于一条未处理的URL:首先去除“#”后的无效数据;将剩余片段按“?”进行切割;分理出文件路径片段,以“/”与“=”划分;查询部分以“&”与“=”划分;划分所得的参数与值分别放入处理函数中进行正则匹配。3.根据权利要求2所述的基于集成学习的WEB异常流量监测方法,其特征在于,所述处理函数会将数字用日期与时间代替,乱符更换为“$0”,长度小于10的小写字母组成的字符串改为“s”,长度大于2的“Ox”开头的字符串改为“Ox1234”,多个空格缩为一个空格,处理完毕后的片段即为模型需要的URL信息片段。4.根据权利要求2所述的基于集成学习的WEB异常流量监测方法,其特征在于,所述步骤2)构建特征工程具体包括:URL参数值的长度,利用统计学中的切比雪夫不等式,以及长度的均值与方差计算出长度的异常值P:字符分布,利用统计学中的卡方检验计算字符分布的异常值α;枚举类型,计算属性值的输入属于所枚举的类型异常中的具体情况;关键词抽取,寻找相同访问性质的URL共同特征,在扫描所有URL数据后,对所有物理位置相邻的字符串进行频次记录,筛除频次过低的字符串后对剩余字符串做互信息计算。5.根据权利...

【专利技术属性】
技术研发人员:李智星沈柯于洪张冠群代南瑶胡聪胡峰王进雷大江欧阳卫华
申请(专利权)人:重庆邮电大学
类型:发明
国别省市:重庆,50

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1