一种基于超图聚合网络的Web攻击检测方法及装置制造方法及图纸

技术编号:34753130 阅读:10 留言:0更新日期:2022-08-31 18:49
本申请公开提供了一种基于超图聚合网络的Web攻击检测方法及装置,其中,该方法包括:获取HTTP请求文本数据;对HTTP请求文本数据进行预处理;将预处理后的HTTP请求文本数据转换为字符级顶点表示,以空格作为预处理后的HTTP请求文本数据的分隔符生成超边集合,根据超边集合和顶点表示得到关联矩阵;将顶点表示和关联矩阵输入预先训练的超图聚合网络模型,得到Web攻击检测结果,超图聚合网络模型中的每一层包括顶点聚合模块和超边聚合模块,解决了现有技术中,超图网络分类器采用卷积或者注意力机制进行信息的融合和计算,在字符级的HTTP文本请求中由于字符所包含的语义信息没有单词的语义信息多,效果大打折扣的问题。效果大打折扣的问题。效果大打折扣的问题。

【技术实现步骤摘要】
一种基于超图聚合网络的Web攻击检测方法及装置


[0001]本专利技术涉及计算机
,具体涉及一种基于超图聚合网络的Web攻击检测方法及装置。

技术介绍

[0002]随着互联网技术的发展,基于Web技术的互联网应用日益广泛,随着网上银行、社交活动、网上购物等业务的兴起,Web服务应用在生活的方方面面,在新冠疫情期间,在线视频、远程办公、健康码等更是不可或缺的工具,但是,Web服务的发展也给网络安全带来了巨大挑战,恶意HTTP请求是Web攻击的有效手段,通过Web攻击可以获取大量的隐私数据,从而导致巨大的经济损失,为保证向用户提供安全、可靠的服务,这些Web服务需要高效准确的识别出Web攻击流量中的恶意HTTP请求,因此,快速而有效的区分Web流量中的恶意HTTP请求是保证网络安全的一项重要任务。
[0003]目前现有的分类技术主要是基于卷积网络或者注意力机制的深度学习方法,它往往是根据HTTP文本做简单序列化对HTTP文本进行表示,并在此基础上采用传统的模型(如卷积网络)对其进行分类,由于HTTP请求的词表不规律性和字段的多变性,这种方式不能考虑字段之间所存在的结构信息,而在Web攻击检测任务中,这种结构信息也是影响分类精度的关键特征。
[0004]目前超图网络用于Web攻击检测任务上的实践不多,这主要是由于HTTP请求数据的不规律性和超图网络建模的复杂性造成的,在实际的Web服务使用超图网络还存在以下三个问题:1、传统的HTTP请求数据的处理一般仅采用URL解码操作与规则替换操作,而且这两个处理方式主要集中在显性可观测的突出字段中,例如requests、body字段中,但是,较多噪声干扰依旧存在于其他heads的子字段中,仅通过URL解码与规则替换的处理数据在编码后无法对数据进行准确的过滤,对于分类精度还是有较大影响;并且由于请求数据大多具有重复文本,组成的数据长度可能会达到模型所能承载的上限,仅通过这两种操作对于数据的长度没办法做出较大改变;2、以往的超图建模方式在自然语言处理领域中主要以单词作为顶点,基于固定滑动窗口的大小来进行超边的划分来设计超边,然而,对于Web攻击检测任务来说,如果以单词作为顶点表示的话,因为HTTP数据的特殊性,会存在词表匹配度不高,影响模型的泛化性进而无法预测未知的数据等问题;同时对于这种超边设计方式,由于滑窗可分割的超边过多,会造成所占用的内存较大,消耗的资源太多等问题,进而影响模型的性能,对于轻量级模型来说是个巨大的弱点;3、以往超图网络分类器一般采用卷积或者注意力机制进行信息的融合和计算,这两种方式在以单词作为顶点的超图分类器中同样效果显著,但是在字符级的HTTP文本请求中由于字符所包含的语义信息没有单词的语义信息多,卷积和注意力机制这两种方式在其中的效果会大打折扣。

技术实现思路

[0005]因此,本专利技术要解决的技术问题在于克服现有技术中,传统的HTTP请求数据的处
理一般仅采用URL解码操作与规则替换操作,而且这两个处理方式主要集中在显性可观测的突出字段中,例如requests、body字段中,但是,较多噪声干扰依旧存在于其他heads的子字段中,仅通过URL解码与规则替换的处理数据在编码后无法对数据进行准确的过滤,对于分类精度还是有较大影响;并且由于请求数据大多具有重复文本,组成的数据长度可能会达到模型所能承载的上限,仅通过这两种操作对于数据的长度没办法做出较大改变;以往的超图建模方式在自然语言处理领域中主要以单词作为顶点,基于固定滑动窗口的大小来进行超边的划分来设计超边,然而,对于Web攻击检测任务来说,如果以单词作为顶点表示的话,因为HTTP数据的特殊性,会存在词表匹配度不高,影响模型的泛化性进而无法预测未知的数据等问题;同时对于这种超边设计方式,由于滑窗可分割的超边过多,会造成所占用的内存较大,消耗的资源太多等问题,进而影响模型的性能,对于轻量级模型来说是个巨大的弱点;以往超图网络分类器一般采用卷积或者注意力机制进行信息的融合和计算,这两种方式在以单词作为顶点的超图分类器中同样效果显著,但是在字符级的HTTP文本请求中由于字符所包含的语义信息没有单词的语义信息多,卷积和注意力机制这两种方式在其中的效果会大打折扣的问题,从而提供一种基于超图聚合网络的Web攻击检测方法及装置。
[0006]为解决上述技术问题,本专利技术公开实施例至少提供一种基于超图聚合网络的Web攻击检测方法及装置。
[0007]第一方面,本专利技术公开实施例提供了一种基于超图聚合网络的Web攻击检测方法,包括:获取HTTP请求文本数据;对所述HTTP请求文本数据进行预处理;将预处理后的HTTP请求文本数据转换为字符级顶点表示,以空格作为预处理后的HTTP请求文本数据的分隔符生成超边集合,根据所述超边集合和顶点表示得到关联矩阵;将所述顶点表示和关联矩阵输入预先训练的超图聚合网络模型,得到Web攻击检测结果,所述超图聚合网络模型中的每一层包括顶点聚合模块和超边聚合模块。
[0008]可选地,所述对所述HTTP请求文本数据进行预处理包括:采用两次应用层通用URL解码操作对HTTP请求文本数据进行解码;对解码后的HTTP请求文本数据中的requests和body字段进行正常网址的规则替换操作;去除各字段中的重复信息和字段键值以减小数据长度。
[0009]可选地,所述将预处理后的HTTP请求文本数据转换为字符级顶点表示包括:从UTF

8字符集中取前预设数量的常用字符作为词汇表,所述词汇表能够涵盖HTTP请求文本数据中90%的字符;对所述词汇表中预设数量的字符进行词嵌入表示,得到词向量,采用随机词嵌入的方式,并将字符的嵌入维度d设置为预设阈值;将预处理后的HTTP请求文本数据中的所有字符取出作为一个集合,集合大小为超图的顶点数目N,然后将集合中的每个字符经过所述词向量映射得到顶点的表示,式中set表示集合生成,embedding表示词向量映射,X表示http请求文本数据。
[0010]可选地,所述以空格作为预处理后的HTTP请求文本数据的分隔符生成超边集合,根据所述超边集合和顶点表示得到关联矩阵包括:用一个关联矩阵表示预处理后的HTTP请求文本数据中的超边的连接关系,其中N表示顶点数目和M表示超边数目,将关联矩阵A初始化为0;对于一个预处理后的HTTP请求文本数据,用空格分割出M个预处理后的HTTP请求文本数据的句子作为超边集合,一个句子由多个顶点组成,当超边与第i个顶点相关时,,否则,计算过程如公式所示,遍历所有超边则可计算出完整的关联矩阵A。
[0011]可选地,所述将所述顶点表示和关联矩阵输入预先训练的超图聚合网络模型,得到Web攻击检测结果包括:获取计算前的顶点表示,并通过关联矩阵A得到第j个超边,则根据公式与公式得到在第l层中的每条超边的表示;式中都为可训练矩阵,表示非线性激活函数,取Relu函数作为激活函数,mean表示取平均值函数,normalize表示归一化函数,通过公式计算顶点k的归纳表示,然后根据公式计算所有属于超边的顶点的归本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于超图聚合网络的Web攻击检测方法,其特征在于,包括:获取HTTP请求文本数据;对所述HTTP请求文本数据进行预处理;将预处理后的HTTP请求文本数据转换为字符级顶点表示,以空格作为预处理后的HTTP请求文本数据的分隔符生成超边集合,根据所述超边集合和顶点表示得到关联矩阵;将所述顶点表示和关联矩阵输入预先训练的超图聚合网络模型,得到Web攻击检测结果,所述超图聚合网络模型中的每一层包括顶点聚合模块和超边聚合模块。2.根据权利要求1所述的方法,其特征在于,所述对所述HTTP请求文本数据进行预处理包括:采用两次应用层通用URL解码操作对HTTP请求文本数据进行解码;对解码后的HTTP请求文本数据中的requests和body字段进行正常网址的规则替换操作;去除各字段中的重复信息和字段键值以减小数据长度。3.根据权利要求1所述的方法,其特征在于,所述将预处理后的HTTP请求文本数据转换为字符级顶点表示包括:从UTF

8字符集中取前预设数量的常用字符作为词汇表,所述词汇表能够涵盖HTTP请求文本数据中90%的字符;对所述词汇表中预设数量的字符进行词嵌入表示,得到词向量,采用随机词嵌入的方式,并将字符的嵌入维度d设置为预设阈值;将预处理后的HTTP请求文本数据中的所有字符取出作为一个集合,集合大小为超图的顶点数目N,然后将集合中的每个字符经过所述词向量映射得到顶点的表示,式中set表示集合生成,embedding表示词向量映射,X表示http请求文本数据。4.根据权利要求1所述的方法,其特征在于,所述以空格作为预处理后的HTTP请求文本数据的分隔符生成超边集合,根据所述超边集合和顶点表示得到关联矩阵包括:用一个关联矩阵表示预处理后的HTTP请求文本数据中的超边的连接关系,其中N表示顶点数目和M表示超边数目,将关联矩阵A初始化为0;对于一个预处理后的HTTP请求文本数据,用空格分割出M个预处理后的HTTP请求文本数据的句子作为超边集合,一个句子由多个顶点组成,当超边与第i个顶点相关时,,否则,计算过程如公式所示,遍历所有超边则可计算出完整的关联矩阵A。5.根据权利要求1所述的方法,其特征在于,所述将所述顶点表示和关联矩阵输入预先训练的超图聚合网络模型,得到Web攻击检测结果包括:获取计算前的顶点表示,并通过关联矩阵A得到第j个超边,则根据公式与公式得到在第
l层中的每条超边的表示;式中都为可训练矩阵,表示非线性激活函数,取Relu函数作为激活函数,mean表示取平均值函数,normalize表示归一化函数,通过公式计算顶点k的归纳表示,然后根据公式计算所有属于超边的顶点的归纳表示的和,得到第l层超边j的表示,通过对所有超边进行计算,则可得到超边表示;将关联矩阵...

【专利技术属性】
技术研发人员:黄惟康占英王青李芳芳刘志
申请(专利权)人:长沙市智为信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1