基于机器学习的WAF拦截页面识别的方法、装置及相关组件制造方法及图纸

技术编号：36575635 阅读：13 留言：0更新日期：2023-02-04 17:33

本发明专利技术公开了一种基于机器学习的WAF拦截页面识别的方法、装置及相关组件，涉及网络安全的领域。该方法包括获取目标攻击响应数据集；对目标攻击响应数据集中所有的样本攻击响应数据进行标签分类，得到不同类别的样本攻击响应数据，并将不同类别的样本攻击响应数据分别组成对应的类别组合，其中一个类别组合由标签为已拦截的目标样本攻击响应数据组成；对已拦截的目标样本攻击响应数据进行特征提取，得到多个特征向量；利用所有特征向量对预搭建的WAF拦截页面识别模型进行训练，构建得到WAF拦截页面识别模型；接收目标攻击响应数据，利用WAF拦截页面识别模型对目标攻击响应数据进行分类，输出分类结果。该方法可以有效提高WAF拦截判断的精准度。截判断的精准度。截判断的精准度。

全部详细技术资料下载

【技术实现步骤摘要】
基于机器学习的WAF拦截页面识别的方法、装置及相关组件

[0001]本专利技术涉及网络安全的领域，尤其涉及一种基于机器学习的WAF拦截页面识别的方法、装置及相关组件。

技术介绍

[0002]随着科学技术的不断发展，社会对网络信息系统的依赖也日益增强。网络信息安全主要是指网络系统的硬件、软件及其系统中的数据受到保护，不受偶然的或者恶意的原因而遭到破坏、更改、泄露，系统连续可靠正常地运行。企业用户通常采用防火墙为安全保障体系的第一道防线，而对于防火墙一类传统设备束手无策的Web应用安全问题，现采用Web应用防火墙（Web Application Firewall）简称WAF，进行防护。WAF对来自Web应用程序客户端的各类请求进行内容检测和验证，确保其安全性与合法性，对非法的请求予以实时阻断，从而对各类站点进行有效防护。
[0003]相关技术中在判断某个站点是否处于WAF的防护下时，采用WAF拦截识别方法。常见的WAF拦截识别方法有，方法一：将站点的页面响应状态特征，进行关键字匹配，并当定义的所有参数符合预设条件时，认为页面是WAF拦截页面；方法二：发出基础请求和攻击请求，并观察攻击响应相较于基础响应的区别，从而判断页面是否处于WAF防护下。
[0004]针对上述相关技术，专利技术人认为方法一的精准率较高，但是在WAF种类不够齐全时，识别的准确率会下降；方法二中若发送的攻击请求为无法被服务器理解的特殊代码，此时攻击响应是未拦截的响应，但此时的攻击响应仍然与基础请求不相同，因此方法二会将其误判为已拦截的响应...

【技术保护点】

【技术特征摘要】
1.一种基于机器学习的WAF拦截页面识别的方法，其特征在于，包括：获取目标攻击响应数据集；对所述目标攻击响应数据集中所有的样本攻击响应数据进行标签分类，得到不同类别的样本攻击响应数据，并将不同类别的样本攻击响应数据分别组成对应的类别组合，其中一个所述类别组合由标签为已拦截的目标样本攻击响应数据组成；对所述已拦截的目标样本攻击响应数据进行特征提取，得到多个特征向量；利用所有特征向量对预搭建的WAF拦截页面识别模型进行训练，构建得到WAF拦截页面识别模型；接收目标攻击响应数据，利用所述WAF拦截页面识别模型对所述目标攻击响应数据进行分类，输出分类结果。2.根据权利要求1所述的基于机器学习的WAF拦截页面识别的方法，其特征在于，所述获取目标攻击响应数据，包括：获取样本攻击响应数据，以形成第一样本数据集；对所述第一样本数据集进行随机抽样，以形成目标攻击响应数据集。3.根据权利要求1所述的基于机器学习的WAF拦截页面识别的方法，其特征在于，所述对所述目标攻击响应数据集中所有的样本攻击响应数据进行标签分类，得到不同类别的样本攻击响应数据，包括：获取所述目标攻击响应数据集中所有的样本攻击响应数据中的三元组信息，其中，所述三元组信息包括Status_code信息、Headers信息、Body信息；对所述Headers信息按照键的字母序进行排序和进行关键字过滤，构建得到三元组信息；基于预设的标签分类规则和三元组信息，对所有的样本攻击响应数据进行标签分类，得到已拦截的目标样本攻击响应数据。4.根据权利要求3所述的基于机器学习的WAF拦截页面识别的方法，其特征在于，所述对所述已拦截的目标样本攻击响应数据进行特征提取，得到多个特征向量，包括：提取所述已拦截的目标样本攻击响应数据中的文本内容信息；对所述文本内容信息进行数据清理，以删除所述文本内容信息中与“是否拦截”弱关联的文本信息；对数据清理后的所述文本内容信息进行分词处理，得到目标分词；利用预设的词频模型对所有所述目标分词进行词频统计，得到词频次数；利用所述词频模型对所有所述目标分词进行特征提取，得到对应的词向量；将当前词向量转化为长度与词表长度相同的向量，得到对应的特征向量。5.根据权利要求4所述的基于机器学习的WAF拦截页面识别的方法，其特征在于，所述利用所有特征向量对预搭建的WAF拦截页面识别模型进行训练，构建得到WAF拦截页面识别模型，包括：利用所有特征向量对预搭建的K
‑
means算法的机器学习模型或逻辑回归算法的机器学习模型或SVM支持向量机算法的机器学习模型进行训练，构建得到WAF拦截页面识别模型。6.根据权利...

【专利技术属性】
技术研发人员：聂君，罗成，宫华，孟繁强，张游知，张践鳌，姚逸，吴佳波，陈瑜，石天浩，
申请(专利权)人：北京知其安科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人