一种攻击检测方法、装置、设备及存储介质制造方法及图纸

技术编号:36808368 阅读:12 留言:0更新日期:2023-03-09 00:29
本申请公开了一种攻击检测方法、装置、设备及存储介质,涉及计算机技术领域,包括:获取待检测流量,并基于预设数据转换操作将所述待检测流量转换为文本数据;利用训练后BERT模型对所述文本数据执行特征提取操作,以得到特征向量矩阵;将所述特征向量矩阵输入至训练后TextCNN模型进行流量分类,以得到所述待检测流量的流量分类结果,并根据所述流量分类结果判断是否存在攻击流量。本申请通过使用训练后BERT模型和训练后TextCNN模型进行流量分类,从而得到对应的攻击判断结果,训练后的模型有效的识别了多种攻击类型,提升了攻击检测的检测精度的与检测效率,同时降低了误报率。同时降低了误报率。同时降低了误报率。

【技术实现步骤摘要】
一种攻击检测方法、装置、设备及存储介质


[0001]本专利技术涉及计算机
,特别涉及一种攻击检测方法、装置、设备及存储介质。

技术介绍

[0002]目前市面上Web(互联网总称)攻击检测的技术通常为正则匹配技术、语意分析技术、基于算法的检测技术以及异常行为检测技术。在进行传统Web攻击检测时,传统WAF(Web Application Firewall,web应用防火墙)主要采用基于正则匹配的检测机制,存在如下缺点:攻击类型众多且形式繁杂,正则匹配难以覆盖全部攻击,容易绕过;规则库庞大,维护成本高,如果开启规则过多会影响业务响应速率;难以防范未知攻击,有一定滞后性。传统的WAF机器学习方法存在如下缺陷:采用单一的机器学习模型,未对HTTP(HyperText Transfer Protocol,超文本传输协议)请求做细化的分类,精度不高;传统机器学习算法如KNN(k

NearestNeighbor,邻近算法)、SVM(Support Vector Machine,支持向量机)等算法,无法有效处理HTTP语句上下文以及词序关系;特殊字符如“#、+、&”等,在不同场景可能有多种含义,传统Word2Vec模型难以有效处理;针对特殊编码,如base64、十六进制编码,未做识别与解码。
[0003]虽然基于机器学习的Web攻击检测方法在一定程度上弥补了传统规则及方法的不足,但目前主流的WAF机器学习检测方法主要采用Word2vec作为词嵌入模型,无法有效处理一词多义的情况,在处理上下文信息和词序信息时表现不佳,容易产生误报并误判为攻击行为。

技术实现思路

[0004]有鉴于此,本专利技术的目的在于提供一种攻击检测方法、装置、设备和存储介质,能够有效的识别多种攻击类型,提升攻击检测的检测精度的与检测效率,同时降低误报率。其具体方案如下:
[0005]第一方面,本申请公开了一种攻击检测方法,包括:
[0006]获取待检测流量,并基于预设数据转换操作将所述待检测流量转换为文本数据;
[0007]利用训练后BERT模型对所述文本数据执行特征提取操作,以得到特征向量矩阵;
[0008]将所述特征向量矩阵输入至训练后TextCNN模型进行流量分类,以得到所述待检测流量的流量分类结果,并根据所述流量分类结果判断是否存在攻击流量。
[0009]可选的,所述获取待检测流量之前,还包括:
[0010]获取用于训练模型的训练文本数据;
[0011]利用所述训练文本数据训练原始BERT模型与原始TextCNN模型,以得到所述训练后BERT模型以及所述训练后TextCNN模型。
[0012]可选的,所述获取用于训练模型的训练文本数据之前,还包括:
[0013]收集训练流量数据集以及开源数据集;
[0014]通过云WAF团队对所述训练流量数据集进行预设数据脱敏操作,以得到脱敏后数据集;
[0015]通过预设数据处理方法对所述脱敏后数据集以及所述开源数据集进行去重与分类操作,以得到处理后数据。
[0016]可选的,所述通过预设数据处理方法对所述脱敏后数据集以及所述开源数据集进行去重与分类操作,以得到处理后数据之后,还包括:
[0017]通过预设数据规范化操作对所述处理后数据中的每一条语句进行规范处理,以得到规范语句集合;
[0018]按照预设向量转换方式将所述规范语句集合中的目标规范语句转换为目标句向量;
[0019]相应的,所述获取用于训练模型的训练文本数据,包括:
[0020]整合全部所述目标句向量,以得到所述训练文本数据。
[0021]可选的,所述整合全部所述目标句向量,以得到所述训练文本数据,包括:
[0022]获取句长低于预设句向量阈值的所述目标句向量,以得到第一句向量集合;其中,基于所述规范语句集合对应的句长分布图以及预设阈值确定方法确定所述预设句向量阈值;
[0023]基于所述预设句向量阈值并利用预设句向量补齐规则处理所述第一句向量集合中的每个句向量,以得到补齐后句向量集合;
[0024]获取句长高于所述预设句向量阈值的所述目标句向量,以得到第二句向量集合;
[0025]基于所述预设句向量阈值并利用预设句向量裁剪规则处理所述第二句向量集合中的每个所述句向量,以得到裁剪后句向量集合;
[0026]获取句长等于预设句向量阈值的所述目标句向量,以得到第三句向量集合;
[0027]整合所述补齐后句向量集合、所述裁剪后句向量集合以及所述第三句向量集合,以得到所述训练文本数据。
[0028]可选的,所述利用所述训练文本数据训练原始BERT模型与原始TextCNN模型,以得到所述训练后BERT模型以及所述训练后TextCNN模型,包括:
[0029]基于所述训练文本数据构建目标语料库;
[0030]利用所述目标语料库对所述原始BERT模型执行无监督的预训练操作,以得到所述训练后BERT模型;
[0031]利用所述训练文本数据训练所述原始TextCNN模型,以得到所述训练后TextCNN模型。
[0032]可选的,所述将所述特征向量矩阵输入至训练后TextCNN模型进行流量分类,以得到所述待检测流量的流量分类结果,并根据所述流量分类结果判断是否存在攻击流量,包括:
[0033]将所述特征向量与所述训练后TextCNN模型中卷积层中的不同卷积核进行预设卷积操作,以得到不同尺度的特征图;
[0034]在所述训练后TextCNN模型的最大池化层中,通过预设一维最大池化操作对所述不同尺度的特征图进行降维,以得到降维后特征图;
[0035]通过所述训练后TextCNN模型的全连接层对所述降维后特征图进行针对流量分类
的概率分布求解操作,以得到所述流量分类结果,并根据所述流量分类结果判断是否存在攻击流量。
[0036]第二方面,本申请公开了一种攻击检测装置,包括:
[0037]流量获取模块,用于获取待检测流量;
[0038]流量转换模块,用于基于预设数据转换操作将所述待检测流量转换为文本数据;
[0039]特征提取模块,用于利用训练后BERT模型对所述文本数据执行特征提取操作,以得到特征向量矩阵;
[0040]流量分类模块,用于将所述特征向量矩阵输入至训练后TextCNN模型进行流量分类,以得到所述待检测流量的流量分类结果,并根据所述流量分类结果判断是否存在攻击流量。
[0041]第三方面,本申请公开了一种电子设备,包括:
[0042]存储器,用于保存计算机程序;
[0043]处理器,用于执行所述计算机程序,以实现如前述公开的攻击检测方法的步骤。
[0044]第四方面,本申请公开了一种计算机可读存储介质,用于存储计算机程序;其中,所述计算机程序被处理器执行时实现如前述公开的攻击检测方法。
[0045]可见,本申请提本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种攻击检测方法,其特征在于,包括:获取待检测流量,并基于预设数据转换操作将所述待检测流量转换为文本数据;利用训练后BERT模型对所述文本数据执行特征提取操作,以得到特征向量矩阵;将所述特征向量矩阵输入至训练后TextCNN模型进行流量分类,以得到所述待检测流量的流量分类结果,并根据所述流量分类结果判断是否存在攻击流量。2.根据权利要求1所述的攻击检测方法,其特征在于,所述利用训练后BERT模型对所述文本数据执行特征提取操作之前,还包括:获取用于训练模型的训练文本数据;利用所述训练文本数据训练原始BERT模型与原始TextCNN模型,以得到所述训练后BERT模型以及所述训练后TextCNN模型。3.根据权利要求2所述的攻击检测方法,其特征在于,所述获取用于训练模型的训练文本数据之前,还包括:收集训练流量数据集以及开源数据集;通过云WAF团队对所述训练流量数据集进行预设数据脱敏操作,以得到脱敏后数据集;通过预设数据处理方法对所述脱敏后数据集以及所述开源数据集进行去重与分类操作,以得到处理后数据。4.根据权利要求3所述的攻击检测方法,其特征在于,所述通过预设数据处理方法对所述脱敏后数据集以及所述开源数据集进行去重与分类操作,以得到处理后数据之后,还包括:通过预设数据规范化操作对所述处理后数据中的每一条语句进行规范处理,以得到规范语句集合;按照预设向量转换方式将所述规范语句集合中的目标规范语句转换为目标句向量;相应的,所述获取用于训练模型的训练文本数据,包括:整合全部所述目标句向量,以得到所述训练文本数据。5.根据权利要求4所述的攻击检测方法,其特征在于,所述整合全部所述目标句向量,以得到所述训练文本数据,包括:获取句长低于预设句向量阈值的所述目标句向量,以得到第一句向量集合;其中,基于所述规范语句集合对应的句长分布图以及预设阈值确定方法确定所述预设句向量阈值;基于所述预设句向量阈值并利用预设句向量补齐规则处理所述第一句向量集合中的每个句向量,以得到补齐后句向量集合;获取句长高于所述预设句向量阈值的所述目标句向量,以得到第二句向量集合;基于所述预设句向量阈值并利用预设句向量裁剪规则处理所述第二句向量集合中的每个所述句向量,以得到裁剪后句向量集合;获取句...

【专利技术属性】
技术研发人员:毕云鹏杨勃
申请(专利权)人:杭州安恒信息技术股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1