【技术实现步骤摘要】
一种基于深度学习的跨站脚本攻击检测方法与系统
[0001]本专利技术涉及深度学习、脚本攻击检测领域,更具体地基于深度学习的跨站脚本攻击检测方法与系统。
技术介绍
[0002]随着信息科学技术的发展,人们的生产和生活都已经变的高度数字化和信息化,但是科技是把双刃剑在带来了生产力大发展的同时,也带来些负面影响。Web服务由于其便捷性和开放性,能让用户更好的享受到网络服务而成为主流的网络应用,目前针对Web应用的攻击频繁发生,造成了大量的信息泄露和财物损失,这主要是由于部分公司对于网络安全的重视不足,导致在处理URL(UniformResourceLocator)请求的服务端存在大量的漏洞,攻击者通过在URL中插入部分恶意代码便能获得敏感数据。跨站脚本攻击、SQL注入、文件遍历等都是常见的通过URL的攻击方式。
[0003]跨站脚本攻击是最为常见的Web攻击方式之一,在2013年和2017年开放式Web应用程序安全项目组织(OpenWebApplicationSecurityProject,OWASP)公布的Web应用前十 ...
【技术保护点】
【技术特征摘要】
1.一种基于深度学习的跨站脚本攻击检测方法,其特征在于:步骤S1、多渠道采集XSS样本数据;步骤S2、基于采集到的XSS样本数据和正常样本数据进行样本构造并对构造的样本进行预处理,生成样本数据集;步骤S3、基于深度学习方法,搭建将CNN和BiLSTM模型串联并结合注意力机制的改进型模型,提取样本数据集特征;步骤S4、提取样本数据集特征,引入BERT后的模型,利用BERT进行迁移学习得到的特征向量来加快模型的收敛,提高检测效率;步骤S5、部署将CNN和BiLSTM模型串联并结合注意力机制的改进型模型,进行跨站脚本攻击检测。2.根据权利要求1所述的一种基于深度学习的跨站脚本攻击检测方法,其特征在于,所述步骤S2中基于采集到的XSS样本数据和正常样本数据进行样本构造并对构造的样本进行预处理,所述预处理步骤包括:步骤S2.1、数据清洗,主要对数据中的噪声数据进行去除,对样本进行解码操作,经过数据清洗后的数据集将作为本文训练测试用的标准数据集,记为D1;步骤S2.2、将步骤S2.1处理后的数据集中的URL进行泛化操作,将样本中的数字转换为“0”,将汉字都替换去掉,将文本类的样本转换为词向量;步骤S2.3、将步骤S2.2处理后的样本进行数据向量化,通过TF
‑
IDF算法将文本数据转化为神经网络能够输入的向量形式。3.根据权利要求1所述的一种基于深度学习的跨站脚本攻击检测方法,其特征在于,在所述步骤S3中:所述将CNN和BiLSTM模型串联并结合注意力机制的改进型模型,首先为Input输入层,输入的内容为经过数据预处理后的样本数据,先经过Wordembedding层,通过Word2Vec转化词向量;然后将训练好的词向量输入1D
‑
CNN神经网络,包含1个卷积层,1个池化层,其中卷积层负责提取特征,池化层负责过滤信息及降维,1D
‑
CNN神经网络主要来提取样本的局部特征;接下来将学习到的特征图输入BiLSTM神经网络来学习样本上下文的序列特征,添加一个Droupt层防止模型过拟合并增强模型的泛化能力,使用Attention注意力机制来加强关键特征的权重,将此时的特征向量记为feature_cba;引入BERT预训练模型来计算每个词在特定上下文的transformer双向编码信息,经过一个全连接层后展平为特征向量记为feature_bert,将两个特征向量进行拼接操作,feature=concatenate(feature_cba,feature_bert),最后使用Softmax函数计算各类的概率完成二分类的操作。4.根据权利要求1所述的一种基于深度学习的跨站脚本攻击检测方法,其特征在于,在所述步骤S3中:所述注意力机制为利用Attention注意力机制将BiLSTM提取的双向序列的特征间的距离缩小为1,来解决长距离梯度消失的问题。5.根据权利要求1所述的一种基于深度学习的跨站脚本攻击检测方法,其特征在于,在所述步骤S4中:所述利用BERT进行迁移学习包括对样本中过长的文本进行截断处理,截断只取前512的字符,超过的字符被直接舍弃使用,从而使样本可接受,并采取BERT
‑
base
‑
uncased的预
训练模型,语言种类为英文,网络结构为12
‑
layer,768个hidden,12个heads,参数规模为110M。6.一种基于深度学习的跨站脚本攻击检测系统,其特征在于,所述检测系统包括:流量采集模块,用于Web应用流量的实时采集,解析出检测模型需要的XSS样本数据传递给数据处理模块;数据处理模块,用于将流量采集模块传递来的数据进行预处理,主要完成用户输入的URL的数据清洗、数据分词、数据向量化三个任务;流量实时检测模块,用于将数据处理模块转换后的数据实时传输到CNN和BiLSTM模型串联并结合注意力机制的改进型的深...
【专利技术属性】
技术研发人员:白万荣,马志程,张驯,党倩,魏峰,张蕾,王迪,赵金雄,王宝会,李子源,郑广远,
申请(专利权)人:国网甘肃省电力公司电力科学研究院,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。