基于机器学习的WAF拦截页面识别的方法、装置及相关组件制造方法及图纸

技术编号:36575635 阅读:13 留言:0更新日期:2023-02-04 17:33
本发明专利技术公开了一种基于机器学习的WAF拦截页面识别的方法、装置及相关组件,涉及网络安全的领域。该方法包括获取目标攻击响应数据集;对目标攻击响应数据集中所有的样本攻击响应数据进行标签分类,得到不同类别的样本攻击响应数据,并将不同类别的样本攻击响应数据分别组成对应的类别组合,其中一个类别组合由标签为已拦截的目标样本攻击响应数据组成;对已拦截的目标样本攻击响应数据进行特征提取,得到多个特征向量;利用所有特征向量对预搭建的WAF拦截页面识别模型进行训练,构建得到WAF拦截页面识别模型;接收目标攻击响应数据,利用WAF拦截页面识别模型对目标攻击响应数据进行分类,输出分类结果。该方法可以有效提高WAF拦截判断的精准度。截判断的精准度。截判断的精准度。

【技术实现步骤摘要】
基于机器学习的WAF拦截页面识别的方法、装置及相关组件


[0001]本专利技术涉及网络安全的领域,尤其涉及一种基于机器学习的WAF拦截页面识别的方法、装置及相关组件。

技术介绍

[0002]随着科学技术的不断发展,社会对网络信息系统的依赖也日益增强。网络信息安全主要是指网络系统的硬件、软件及其系统中的数据受到保护,不受偶然的或者恶意的原因而遭到破坏、更改、泄露,系统连续可靠正常地运行。企业用户通常采用防火墙为安全保障体系的第一道防线,而对于防火墙一类传统设备束手无策的Web应用安全问题,现采用Web应用防火墙(Web Application Firewall)简称WAF,进行防护。WAF对来自Web应用程序客户端的各类请求进行内容检测和验证,确保其安全性与合法性,对非法的请求予以实时阻断,从而对各类站点进行有效防护。
[0003]相关技术中在判断某个站点是否处于WAF的防护下时,采用WAF拦截识别方法。常见的WAF拦截识别方法有,方法一:将站点的页面响应状态特征,进行关键字匹配,并当定义的所有参数符合预设条件时,认为页面是WAF拦截页面;方法二:发出基础请求和攻击请求,并观察攻击响应相较于基础响应的区别,从而判断页面是否处于WAF防护下。
[0004]针对上述相关技术,专利技术人认为方法一的精准率较高,但是在WAF种类不够齐全时,识别的准确率会下降;方法二中若发送的攻击请求为无法被服务器理解的特殊代码,此时攻击响应是未拦截的响应,但此时的攻击响应仍然与基础请求不相同,因此方法二会将其误判为已拦截的响应,从而导致识别的准确率下降。

技术实现思路

[0005]本专利技术的目的是提供一种基于机器学习的WAF拦截页面识别的方法、装置及相关组件,旨在提高现有的WAF拦截识别的准确率。
[0006]为解决上述技术问题,本专利技术的目的是通过以下技术方案实现的:提供一种基于机器学习的WAF拦截页面识别的方法,其包括:获取目标攻击响应数据集;对所述目标攻击响应数据集中所有的样本攻击响应数据进行标签分类,得到不同类别的样本攻击响应数据,并将不同类别的样本攻击响应数据分别组成对应的类别组合,其中一个所述类别组合由标签为已拦截的目标样本攻击响应数据组成;对所述已拦截的目标样本攻击响应数据进行特征提取,得到多个特征向量;利用所有特征向量对预搭建的WAF拦截页面识别模型进行训练,构建得到WAF拦截页面识别模型;接收目标攻击响应数据,利用所述WAF拦截页面识别模型对所述目标攻击响应数据进行分类,输出分类结果。
[0007]优选地,所述获取目标攻击响应数据,包括:
获取样本攻击响应数据,以形成第一样本数据集;对所述第一样本数据集进行随机抽样,以形成目标攻击响应数据集。
[0008]优选地,所述对所述目标攻击响应数据集中所有的样本攻击响应数据进行标签分类,得到不同类别的样本攻击响应数据,包括:获取所述目标攻击响应数据集中所有的样本攻击响应数据中的三元组信息,其中,所述三元组信息包括Status_code信息、Headers信息、Body信息;对所述Headers信息按照键的字母序进行排序和进行关键字过滤,构建得到三元组信息;基于预设的标签分类规则和三元组信息,对所有的样本攻击响应数据进行标签分类,得到已拦截的目标样本攻击响应数据。
[0009]优选地,所述对所述已拦截的目标样本攻击响应数据进行特征提取,得到多个特征向量,包括:提取所述已拦截的目标样本攻击响应数据中的文本内容信息;对所述文本内容信息进行数据清理,以删除所述文本内容信息中与“是否拦截”弱关联的文本信息;对数据清理后的所述文本内容信息进行分词处理,得到目标分词;利用预设的词频模型对所有所述目标分词进行词频统计,得到词频次数;利用所述词频模型对所有所述目标分词进行特征提取,得到对应的词向量;将当前词向量转化为长度与词表长度相同的向量,得到对应的特征向量。
[0010]优选地,所述利用所有特征向量对预搭建的WAF拦截页面识别模型进行训练,构建得到WAF拦截页面识别模型,包括:利用所有特征向量对预搭建的K

means算法的机器学习模型或逻辑回归算法的机器学习模型或SVM支持向量机算法的机器学习模型进行训练,构建得到WAF拦截页面识别模型。
[0011]优选地,所述利用所有特征向量对预搭建的K

means算法的机器学习模型进行训练,构建得到WAF拦截页面识别模型,包括:获取并初始化所有所述类别组合,随机选择每个类别组合的k个初始聚类中心,初始迭代次数为0;分别计算类别组合中的每个样本到k个初始聚类中心的距离,并将对应的样本分类到与其距离最小的初始聚类中心所对应的类别组合中;根据类别组合的重新划分,重新计算每个类别组合的聚类中心;判断当前迭代次数是否大于最大迭代次数,若不是,则当前迭代次数加一,并重复计算每个类别组合的聚类中心;若是,则将最后一次迭代后所输出的聚类中心作为最终聚类中心;基于所述最终聚类中心,获取对应的分类结果。
[0012]另外,本专利技术要解决的技术问题是还在于提供一种基于机器学习的WAF拦截页面识别的装置,其包括:获取单元,用于获取目标攻击响应数据;分类单元,用于对所述目标攻击响应数据集中所有的样本攻击响应数据进行标签
分类,得到不同类别的样本攻击响应数据,并将不同类别的样本攻击响应数据分别组成对应的类别组合,其中一个所述类别组合由标签为已拦截的目标样本攻击响应数据组成;提取单元,用于对所述已拦截的目标样本攻击响应数据进行特征提取,得到多个特征向量;预测单元,用于利用所有特征向量对预搭建的WAF拦截页面识别模型进行训练,构建得到WAF拦截页面识别模型;判断单元,用于接收目标攻击响应数据,利用所述WAF拦截页面识别模型对所述目标攻击响应数据进行分类,输出分类结果。
[0013]优选地,所述分类单元,还包括:信息获取单元,用于获取所述目标攻击响应数据集中所有的样本攻击响应数据中的三元组信息,其中,所述三元组信息包括Status_code信息、Headers信息、Body信息;信息处理单元,用于对所述Headers信息按照键的字母序进行排序和进行关键字过滤,构建得到三元组信息;信息分类单元,用于基于预设的标签分类规则和三元组信息,对所有的样本攻击响应数据进行标签分类,得到已拦截的目标样本攻击响应数据。
[0014]另外,本专利技术实施例又提供了一种计算机设备,其包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述第一方面所述的基于机器学习的WAF拦截页面识别的方法。
[0015]另外,本专利技术实施例还提供了一种计算机可读存储介质,其中所述计算机可读存储介质存储有计算机程序,所述计算机程序当被处理器执行时使所述处理器执行上述第一方面所述的基于机器学习的WAF拦截页面识别的方法。
[0016]本专利技术实施例公开了一种基于机器学习的WAF拦截页面识别的方法、装置及相关组件,其中,方法包括:获取目标攻击响应数据集;对所本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于机器学习的WAF拦截页面识别的方法,其特征在于,包括:获取目标攻击响应数据集;对所述目标攻击响应数据集中所有的样本攻击响应数据进行标签分类,得到不同类别的样本攻击响应数据,并将不同类别的样本攻击响应数据分别组成对应的类别组合,其中一个所述类别组合由标签为已拦截的目标样本攻击响应数据组成;对所述已拦截的目标样本攻击响应数据进行特征提取,得到多个特征向量;利用所有特征向量对预搭建的WAF拦截页面识别模型进行训练,构建得到WAF拦截页面识别模型;接收目标攻击响应数据,利用所述WAF拦截页面识别模型对所述目标攻击响应数据进行分类,输出分类结果。2.根据权利要求1所述的基于机器学习的WAF拦截页面识别的方法,其特征在于,所述获取目标攻击响应数据,包括:获取样本攻击响应数据,以形成第一样本数据集;对所述第一样本数据集进行随机抽样,以形成目标攻击响应数据集。3.根据权利要求1所述的基于机器学习的WAF拦截页面识别的方法,其特征在于,所述对所述目标攻击响应数据集中所有的样本攻击响应数据进行标签分类,得到不同类别的样本攻击响应数据,包括:获取所述目标攻击响应数据集中所有的样本攻击响应数据中的三元组信息,其中,所述三元组信息包括Status_code信息、Headers信息、Body信息;对所述Headers信息按照键的字母序进行排序和进行关键字过滤,构建得到三元组信息;基于预设的标签分类规则和三元组信息,对所有的样本攻击响应数据进行标签分类,得到已拦截的目标样本攻击响应数据。4.根据权利要求3所述的基于机器学习的WAF拦截页面识别的方法,其特征在于,所述对所述已拦截的目标样本攻击响应数据进行特征提取,得到多个特征向量,包括:提取所述已拦截的目标样本攻击响应数据中的文本内容信息;对所述文本内容信息进行数据清理,以删除所述文本内容信息中与“是否拦截”弱关联的文本信息;对数据清理后的所述文本内容信息进行分词处理,得到目标分词;利用预设的词频模型对所有所述目标分词进行词频统计,得到词频次数;利用所述词频模型对所有所述目标分词进行特征提取,得到对应的词向量;将当前词向量转化为长度与词表长度相同的向量,得到对应的特征向量。5.根据权利要求4所述的基于机器学习的WAF拦截页面识别的方法,其特征在于,所述利用所有特征向量对预搭建的WAF拦截页面识别模型进行训练,构建得到WAF拦截页面识别模型,包括:利用所有特征向量对预搭建的K

means算法的机器学习模型或逻辑回归算法的机器学习模型或SVM支持向量机算法的机器学习模型进行训练,构建得到WAF拦截页面识别模型。6.根据权利...

【专利技术属性】
技术研发人员:聂君罗成宫华孟繁强张游知张践鳌姚逸吴佳波陈瑜石天浩
申请(专利权)人:北京知其安科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1