【技术实现步骤摘要】
一种基于Transformer模型的应用层恶意请求检测方法
本专利技术属于计算机信息处理
,涉及到一种基于Transformer模型的应用层恶意请求检测方法。
技术介绍
应用服务是应用服务提供商提供服务供用户使用的主要方式(如电子商务网站),与我们的现实生活息息相关。但是,不法分子常常通过构造应用层恶意请求进行攻击,谋取不正当利益。传统的应用层恶意请求检测方法采用与安全从业者编写的安全防护规则进行模式匹配的方式,该方法存在着规则库庞大、维护难、普适性差等问题。近些年来,随着人工智能的快速发展,研究人员开始将深度学习方法用于应用层恶意流量的检测。该方法能便捷地构造端到端的系统,并且能有效地适应海量的数据规模。但是现的基于深度学习的应用层恶意流量检测方法效果和效率有待进一步替提升。因此,有必要设计一种新的效果更好效率更高的应用层恶意流量检测方法。
技术实现思路
本专利技术所解决的技术问题是,针对现有技术的不足,提供一种基于Transformer模型的应用层恶意请求检测方法,效果好,效率高。本专利技术所提供的技术方案为:一种基于Transformer模型的应用层恶意请求检测方法,包括以下步骤:步骤1:构建应用层用户请求数据样本集合S,其中每个样本包括一条应用层用户请求数据及其真实类别标签,类别标签包括正常请求和恶意请求两种;步骤2:对应用层用户请求数据样本集合S中的每条应用层用户请求数据Ri,根据Ri文本中各个词元出现的频率对其进行向量化,得到矩阵Vi;步骤3:利用嵌入矩阵E对Vi进行数据嵌入,得到矩阵Pi;步骤4:利用位置矩阵U对Pi进行位置编码,得到特征矩 ...
【技术保护点】
1.一种基于Transformer模型的应用层恶意请求检测方法,其特征在于,包括以下步骤:步骤1:构建应用层用户请求数据样本集合S,其中每个样本包括一条应用层用户请求数据及其真实类别标签,类别标签包括正常请求和恶意请求两种;步骤2:对应用层用户请求数据样本集合S中的每条应用层用户请求数据Ri,根据Ri文本中各个词元出现的频率对其进行向量化,得到矩阵Vi;步骤3:利用嵌入矩阵E对Vi进行数据嵌入,得到矩阵Pi;步骤4:利用位置矩阵U对Pi进行位置编码,得到特征矩阵Ci;步骤5:将特征矩阵Ci输入基于Transformer模型的神经网络模型,预测相应的应用层用户请求数据的类别标签;步骤6:根据应用层用户请求数据样本的真实类别标签和预测类别标签计算损失函数值,并根据优化算法更新嵌入矩阵、位置矩阵和神经网络模型的参数;步骤7:重复步骤3~步骤6,直到满足训练结束条件,得到优化后的嵌入矩阵、位置矩阵和神经网络模型参数;步骤8:对于待检测的应用层用户请求数据,首先根据其文本中各个词元出现的频率对其进行向量化得到矩阵V,并利用优化后的嵌入矩阵E对V进行数据嵌入,得到矩阵P,利用优化后的位置矩阵U对P ...
【技术特征摘要】
1.一种基于Transformer模型的应用层恶意请求检测方法,其特征在于,包括以下步骤:步骤1:构建应用层用户请求数据样本集合S,其中每个样本包括一条应用层用户请求数据及其真实类别标签,类别标签包括正常请求和恶意请求两种;步骤2:对应用层用户请求数据样本集合S中的每条应用层用户请求数据Ri,根据Ri文本中各个词元出现的频率对其进行向量化,得到矩阵Vi;步骤3:利用嵌入矩阵E对Vi进行数据嵌入,得到矩阵Pi;步骤4:利用位置矩阵U对Pi进行位置编码,得到特征矩阵Ci;步骤5:将特征矩阵Ci输入基于Transformer模型的神经网络模型,预测相应的应用层用户请求数据的类别标签;步骤6:根据应用层用户请求数据样本的真实类别标签和预测类别标签计算损失函数值,并根据优化算法更新嵌入矩阵、位置矩阵和神经网络模型的参数;步骤7:重复步骤3~步骤6,直到满足训练结束条件,得到优化后的嵌入矩阵、位置矩阵和神经网络模型参数;步骤8:对于待检测的应用层用户请求数据,首先根据其文本中各个词元出现的频率对其进行向量化得到矩阵V,并利用优化后的嵌入矩阵E对V进行数据嵌入,得到矩阵P,利用优化后的位置矩阵U对P进行位置编码,得到特征矩阵C,再将特征矩阵C输入优化后的神经网络模型,预测该待检测的应用层用户请求数据的类别标签,从而实现应用层恶意请求检测。2.根据权利要求书1所述的基于Transformer模型的应用层恶意请求检测方法,其特征在于,所述步骤2中,首先,构造词典D,包括以下步骤:步骤2.1:设置词典长度为lv,单条用户请求的最大长度为lr;步骤2.2:对集合S中的每一条应用层用户请求数据Ri,分别根据其文本中词元以及特殊字符的构成,将其划分为一个词元序列;步骤2.3:根据步骤2.2中得到的所有词元序列,构造词典D={(index,token)},其中(index,token)表示词典D中的一个词,index表示该词在词典中的索引位置,token表示该词对应的词元,词典D中的总的词元数目为lv;词典D的具体构造方法为:设置词典的第1个词为(1,<UNK>),其中<UNK>表示未知词元;设置词典的第2个词为(2,<PAD>),其中<PAD>表示补全符号词元;根据步骤2.2中得到的所有词元序列中各个词元出现频率由高到低的顺序,设置词典的第3个到第lv个词;然后,对集合S中的每一条应用层用户请求数据Ri,按以下步骤对其进行向量化:步骤2.4:针对Ri由步骤2.2得到的词元序列进行补全、截取以及...
【专利技术属性】
技术研发人员:马小龙,赵颖,谢逸航,曹鸣佩,黄惟,康占英,陈文江,
申请(专利权)人:长沙市智为信息技术有限公司,
类型:发明
国别省市:湖南,43
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。