The invention requests to protect a WEB abnormal traffic monitoring method based on integrated learning, including data preprocessing, building feature engineering, data set reconstruction, model establishment and integration and model testing five processes. Data preprocessing is an effective information extraction method for URL data. The construction of feature engineering is the extraction and construction of URL features by means of statistical methods such as information entropy and mutual information. After the construction of Feature Engineering, the data set is adjusted according to different access properties, and supervised learning is carried out in four machine learning algorithms such as XGBoost and LightGBM. After the completion of the learner's structure, the Bagging framework is used to integrate the learning device. In the original data set, the data set is re selected to classify and predict, and the tag is finalized by the majority voting method, and the accuracy of the model is tested. In the process of using the model, the URL input model and the five sub models in the model are given their tag probability respectively, and the highest probability tag is given as the final label.
【技术实现步骤摘要】
一种基于集成学习的WEB异常流量监测方法
本专利技术属于机器学习
,具体涉及多种统计学算法与机器学习算法,本算法采用了新的特征提取方式,对统计学与机器学习算法进行创新性融合,实现对WEB异常流量的监测。
技术介绍
1、信息时代的网络安全问题在信息大爆炸的今天,计算机网络的规模与互联网使用人数都达到了空前规模,而接踵而至的,是网络安全问题的愈加凸显。作为抵御网络攻击的最主要手段,异常流量监测的研发与升级迫在眉睫。经过二十多年的发展,流量监测的研究进化出了多个分支,然而在实际应用中,效果却并不尽如人意,其难点主要集中在下面几个方面:1)将违规行为模式用固定规则进行实时监测导致误报率过高;2)运用特征匹配时,特征库需要手动更新,无法检测未知攻击方式;3)庞大的规则数量使得系统检测性能受到了很大的影响,规则库的维护变得难以维护;4)具有阻断功能的异常流量检测系统在误检正常通信行为时,正常通信会被阻断;5)在监测系统数据存储能力存在瓶颈时,易遭受拒绝服务攻击,通信将被阻断。基于异常流量检测系统存在以上问题,当前关于该系统的研究主要集中在三个方向上:特征匹配、规则推理与 ...
【技术保护点】
一种基于集成学习的WEB异常流量监测方法,其特征在于,包括以下步骤:1)数据预处理:获取统一资源定位符URL记录,并对统一资源定位符URL记录进行切割分离,提取有效信息;2)构建特征工程:运用统计学方法对常见的指令攻击、数据库攻击、跨站脚本攻击与本地文件包含攻击以及正常网络访问的统一资源定位符URL分别进行特征的提取;3)数据集重构:针对五种访问性质,分别根据各自特征对总数据集进行整理,将标签调整为该访问性质及其他;4)模型建立:对五种访问性质所对应的数据集,分别运用XGBoost极端梯度提升、Light GBM轻量级梯度提升机、RF随机森林、LR逻辑回归四种机器学习算法对 ...
【技术特征摘要】
1.一种基于集成学习的WEB异常流量监测方法,其特征在于,包括以下步骤:1)数据预处理:获取统一资源定位符URL记录,并对统一资源定位符URL记录进行切割分离,提取有效信息;2)构建特征工程:运用统计学方法对常见的指令攻击、数据库攻击、跨站脚本攻击与本地文件包含攻击以及正常网络访问的统一资源定位符URL分别进行特征的提取;3)数据集重构:针对五种访问性质,分别根据各自特征对总数据集进行整理,将标签调整为该访问性质及其他;4)模型建立:对五种访问性质所对应的数据集,分别运用XGBoost极端梯度提升、LightGBM轻量级梯度提升机、RF随机森林、LR逻辑回归四种机器学习算法对数据进行有监督学习,运用bagging框架集成学习器,得到针对这五种访问性质各自的识别模型;5)模型测试:对步骤4)中提前预留的部分数据集进行测试,检验模型准确率。2.根据权利要求1所述的基于集成学习的WEB异常流量监测方法,其特征在于,所述步骤1)URL有效信息的抽取包括步骤:对于一条未处理的URL:首先去除“#”后的无效数据;将剩余片段按“?”进行切割;分理出文件路径片段,以“/”与“=”划分;查询部分以“&”与“=”划分;划分所得的参数与值分别放入处理函数中进行正则匹配。3.根据权利要求2所述的基于集成学习的WEB异常流量监测方法,其特征在于,所述处理函数会将数字用日期与时间代替,乱符更换为“$0”,长度小于10的小写字母组成的字符串改为“s”,长度大于2的“Ox”开头的字符串改为“Ox1234”,多个空格缩为一个空格,处理完毕后的片段即为模型需要的URL信息片段。4.根据权利要求2所述的基于集成学习的WEB异常流量监测方法,其特征在于,所述步骤2)构建特征工程具体包括:URL参数值的长度,利用统计学中的切比雪夫不等式,以及长度的均值与方差计算出长度的异常值P:字符分布,利用统计学中的卡方检验计算字符分布的异常值α;枚举类型,计算属性值的输入属于所枚举的类型异常中的具体情况;关键词抽取,寻找相同访问性质的URL共同特征,在扫描所有URL数据后,对所有物理位置相邻的字符串进行频次记录,筛除频次过低的字符串后对剩余字符串做互信息计算。5.根据权利...
【专利技术属性】
技术研发人员:李智星,沈柯,于洪,张冠群,代南瑶,胡聪,胡峰,王进,雷大江,欧阳卫华,
申请(专利权)人:重庆邮电大学,
类型:发明
国别省市:重庆,50
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。