报文数据检测方法、装置、电子设备和存储介质制造方法及图纸

技术编号:37082225 阅读:12 留言:0更新日期:2023-03-29 19:57
本申请提供一种报文数据检测方法、装置、电子设备和存储介质,其中,报文数据检测方法包括:获取基于WAF引擎得到的异常报文数据;基于ski p

【技术实现步骤摘要】
报文数据检测方法、装置、电子设备和存储介质


[0001]本申请涉及计算机
,具体而言,涉及一种报文数据检测方法、装置、电子设备和存储介质。

技术介绍

[0002]Web用程序是Internet上最常见的信息和服务交换平台。随着万维网的不断发展,电子银行,在线购物,例如政府和社交网络等许多业务部门己在网络上提供其服务。此外,基于云的系统和服务的采用进一步加快了这一转变。但是,这也导致Web成为恶意攻击者的主要目标。近年的研究发现,报告的网络漏洞数量急剧增加。最新统计数据已经表明,Web应用程序漏洞己经严重威胁用户的隐私甚至财产安全。针对Web应用程序的攻击可能会导致信息泄露以及程序崩溃等严重后果,因此,有必要研究一种机制专门用于保护Web应用程序免受Web攻击的侵扰。
[0003]Web应用防火墙(简称WAF)是专门用于保护Web系统免受恶意攻击的一类防火墙,WAF的传统防护策略是正则表达式识别攻击特征,其防护能力取决于专家策略防护规则集的精准程度。随着业务系统由原来的单业务体系逐渐演变成数十个不同的多业务交叉体系,数据的价值越来越突出,是企业最重要的财富。现有大部分的WAF通过对请求或者响应内容进行特征匹配,如果在请求中匹配到恶意字符串或者在响应中匹配到敏感信息,则视此次请求为非法请求,可以停止响应,实现服务器的保护功能。优秀的WAF产品能够设计出良好的特征库,检测出大部分的恶意攻击;同时也能够拥有较低的误报率,保证网站的正常功能需求。
[0004]然而,随着攻击技术的不断进化,现有的规则检测会存在较多的误报,这些误报需要人工参与,从而需要消耗大量的人工成本。

技术实现思路

[0005]本申请实施例的目的在于提供一种报文数据检测方法、装置、电子设备和存储介质,用以降低报文检测的误报率。
[0006]第一方面,本专利技术提供一种报文数据检测方法,所述方法包括:
[0007]获取基于WAF引擎得到的异常报文数据;
[0008]基于skip

gram模型提取所述异常报文数据的特征向量;
[0009]基于分类模型确定所述异常报文数据的检测结果,其中,所述异常报文数据的检测结果为所述异常报文数据的类型或所述异常报文数据关联的述WAF引擎ID,其中,所述异常报文的特征向量作为所述分类模型的输入,所述异常报文数据的类型为所述分类模型的输出,所述异常报文数据的类型包括第一类型和第二类型,所述第一类型表征所述异常报文数据为异常报文,所述第二类型表征所述异常报文数据为误报报文。
[0010]在本申请第一方面中,通过获取基于WAF引擎得到的异常报文数据,进而能够基于skip

gram模型提取所述异常报文数据的特征向量,进而能够基于分类模型确定所述异常
报文数据的检测结果,最终基于检测结果确定异常报文数据是异常报文、误报报文中哪一种报文,其中,当检测出异常报文数据为误报报文时,能够对异常报文数据的分类结果进行纠正,防止异常报文数据被当作异常报文,这样一来就降低了报文检测的误报率。
[0011]与此同时,本申请基于skip

gram模型能够提取所述异常报文数据的特征向量,进而能够通过异常报文数据的特征向量增强对上下文关联的理解能力,从而能够提升分类模型的泛化能力。
[0012]在可选的实施方式中,在所述获取基于WAF引擎得到的异常报文数据之前,所述方法还包括:
[0013]基于误报报文数据库获取误报报文训练样本;
[0014]基于异常报文数据库获取异常报文训练样本;
[0015]基于所述skip

gram模型提取所述误报报文训练样本的特征向量,和提取所述异常报文训练样本的特征向量;
[0016]基于所述WAF引擎的ID对所述误报报文训练样本的特征向量进行标注,得到第一标注数据,并基于所述WAF引擎的ID对所述异常报文训练样本的特征向量进行标注,得到第二标注数据;
[0017]基于所述第一标注数据和所述第二标注数据训练所述分类模型的模型参数,所述分类模型的模型参数用于识别所述异常报文数据的类型或所述异常报文数据关联的述WAF引擎ID。
[0018]在上述可选的实施方式中,基于误报报文数据库能够获取误报报文训练样本,基于异常报文数据库能够获取异常报文训练样本,进而基于所述skip

gram模型能够提取所述误报报文训练样本的特征向量,和提取所述异常报文训练样本的特征向量,进而基于所述WAF引擎的ID对所述误报报文训练样本的特征向量进行标注,能够得到第一标注数据,基于所述WAF引擎的ID对所述异常报文训练样本的特征向量进行标注,能够得到第二标注数据,进而能够基于所述第一标注数据和所述第二标注数据训练所述分类模型的模型参数,所述分类模型的模型参数用于识别所述异常报文数据的类型或所述异常报文数据关联的述WAF引擎ID。
[0019]在可选的实施方式中,所述分类模型包括GBDT模型、XGBoost模型和随机森林算法模型;
[0020]以及,所述基于分类模型识别所述异常报文数据的类型,包括:
[0021]获取所述GBDT模型输出的类型识别结果、所述XGBoost模型输出的类型识别结果和所述随机森林算法模型输出的类型识别结果;
[0022]获取所述GBDT模型输出的类型识别结果对应的投票值,并作为第一数值;
[0023]获取所述XGBoost模型输出的类型识别结果对应的投票值,并作为第二数值;
[0024]获取所述随机森林算法模型输出的类型识别结果对应的投票值,并作为第三数值;
[0025]基于所述GBDT模型输出的类型识别结果、所述XGBoost模型输出的类型识别结果、所述随机森林算法模型输出的类型识别结果、所述第一数值、所述第二数值和所述第三数值,确定所述异常报文数据的类型或所述异常报文数据关联的述WAF引擎ID。
[0026]在上述可选的实施方式中,使用GBDT模型、XGBoost模型和随机森林模型等多种机
器学习模型进行综合检测,从而得到检测的异常报文数据是误报报文还是异常报文。
[0027]在可选的实施方式中,在于skip

gram模型提取所述异常报文数据的特征向量,包括:
[0028]提取所述述异常报文数据中的报文参数域数据;
[0029]基于skip

gram模型将所述报文参数域数据转换为所述异常报文数据的特征向量,其中,所述skip

gram模型预先学习所述报文参数域数据与所述特征向量之间的映射关系。
[0030]在上述可选的实施方式中,通过提取所述述异常报文数据中的报文参数域数据,进而能够基于skip

gram模型将所述报文参数域数据转换为所述异常报文数据的特征向量,其中,所述skip

gram模型预先学习所述报文参数域数据与所述特本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种报文数据检测方法,其特征在于,所述方法包括:获取基于WAF引擎得到的异常报文数据;基于skip

gram模型提取所述异常报文数据的特征向量;基于分类模型确定所述异常报文数据的检测结果,其中,所述异常报文数据的检测结果为所述异常报文数据的类型或所述异常报文数据关联的述WAF引擎ID,其中,所述异常报文的特征向量作为所述分类模型的输入,所述异常报文数据的类型为所述分类模型的输出,所述异常报文数据的类型包括第一类型和第二类型,所述第一类型表征所述异常报文数据为异常报文,所述第二类型表征所述异常报文数据为误报报文。2.如权利要求1所述的方法,其特征在于,在所述获取基于WAF引擎得到的异常报文数据之前,所述方法还包括:基于误报报文数据库获取误报报文训练样本;基于异常报文数据库获取异常报文训练样本;基于所述skip

gram模型提取所述误报报文训练样本的特征向量,和提取所述异常报文训练样本的特征向量;基于所述WAF引擎的ID对所述误报报文训练样本的特征向量进行标注,得到第一标注数据,并基于所述WAF引擎的ID对所述异常报文训练样本的特征向量进行标注,得到第二标注数据;基于所述第一标注数据和所述第二标注数据训练所述分类模型的模型参数,所述分类模型的模型参数用于识别所述异常报文数据的类型或所述异常报文数据关联的述WAF引擎ID。3.如权利要求2所述的方法,其特征在于,所述分类模型包括GBDT模型、XGBoost模型和随机森林算法模型;以及,所述基于分类模型识别所述异常报文数据的类型,包括:获取所述GBDT模型输出的类型识别结果、所述XGBoost模型输出的类型识别结果和所述随机森林算法模型输出的类型识别结果;获取所述GBDT模型输出的类型识别结果对应的投票值,并作为第一数值;获取所述XGBoost模型输出的类型识别结果对应的投票值,并作为第二数值;获取所述随机森林算法模型输出的类型识别结果对应的投票值,并作为第三数值;基于所述GBDT模型输出的类型识别结果、所述XGBoost模型输出的类型识别结果、所述随机森林算法模型输出的类型识别结果、所述第一数值、所述第二数值和所述第三数值,确定所述异常报文数据的类型或所述异常报文数据关联的述WAF引...

【专利技术属性】
技术研发人员:杨鹤娄扬
申请(专利权)人:北京天融信科技有限公司北京天融信软件有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1