The present invention discloses an unknown attack detection scheme based on deep self-encoder. Through definite semantic description of all attack types, semantic description is standardized semantic text extraction based on external text data, and natural language processing is carried out to form semantic feature description vectors. Semantic feature space is the semantic feature description vectors of all features, and ultimately through attack. Hit data sets to train the deep self-coding model of semantic features. The hidden layer output is obtained by self-coding model, i.e. the mapping model from training set data to semantic features. The new attack data features are obtained by self-coding model. Compared with the semantic feature space, the closest attack types are obtained by calculating the vector similarity, so as to predict the new attack. The invention is suitable for unknown attack detection, and can identify new attacks more accurately, so as to facilitate subsequent rapid detection and interception.
【技术实现步骤摘要】
一种基于深度自编码器的未知攻击识别方法
本专利技术涉及零样本机器学习,属于未知攻击处理和识别领域,尤其基于深度自编码器模型的识别方案。
技术介绍
在互联网时代的今天,网络在为人类带来便捷的同时,也存在着安全隐患。近年出现的网络攻击呈现体系化的趋势,攻击范围广、命中率高、潜伏时期长。网络攻击造成的经济、社会、军事、外交的损失是无可估量的。网络攻击的威胁尤其在大数据时代变得更加突出,数据愈加密集的安全隐患加上防御机制的疲态,使得遭受的攻击明显攀升,所以拥有准确识别未知攻击的能力能为及时处理攻击事件提供巨大的帮助。使用Zero-shotLearning(零样本机器学习)进行未知攻击的识别是入侵检测领域国内外研究热点之一,影响网络空间安全包含的政治安全、经济安全、军事安全、文化安全等各个方面,实现未知攻击的检测对网络空间安全的影响深远。Zero-shotLearning被应用于因训练样本不足而导致的模型出现欠缺的问题,传统的机器学习和深度学习要求海量的训练数据和反复地训练,而Zero-shotLearning的根本目的就是用来解决识别训练样本中从未出现过的样本,所以Zer ...
【技术保护点】
1.一种基于深度自编码器的未知攻击检测方案,包括下列步骤:攻击文本的收集:对各种攻击的描述资料的收集,确定攻击的特征属性进行详尽的描述,特征属性包括41种TCP连接、内容特征和网络流量统计特征,形成一个语义描述文本语料库Text;攻击语义矩阵生成:将攻击文本语料库Text建立词汇表V,V中的所有词汇按照次序初始化为一个K维向量V1=(v1,v2,v3,…vk),将单词woi的上下文窗口内的词向量输入CBOW模型,由隐层累加得到K维的中间向量Wnew;Wnew在哈夫曼树中沿着特定的路径到达叶子节点(即当前词woi),采用梯度下降法(SGD)调整路径中非叶结点的参数,以及最终上 ...
【技术特征摘要】
1.一种基于深度自编码器的未知攻击检测方案,包括下列步骤:攻击文本的收集:对各种攻击的描述资料的收集,确定攻击的特征属性进行详尽的描述,特征属性包括41种TCP连接、内容特征和网络流量统计特征,形成一个语义描述文本语料库Text;攻击语义矩阵生成:将攻击文本语料库Text建立词汇表V,V中的所有词汇按照次序初始化为一个K维向量V1=(v1,v2,v3,…vk),将单词woi的上下文窗口内的词向量输入CBOW模型,由隐层累加得到K维的中间向量Wnew;Wnew在哈夫曼树中沿着特定的路径到达叶子节点(即当前词woi),采用梯度下降法(SGD)调整路径中非叶结点的参数,以及最终上下文词的向量,使得实际路径向正确路径靠拢,经过n次迭代收敛后,即可得到每个词的向量表示;形成由词句向量组成的语义知识库S;S={{S11,S12,S13,S14…}{S21,S22,S23,S24…}…}∈RN深度自编码器构造:编码过程是将已有攻击的训练集中数据进行标准化和归一化操作数据预处理之后作为编码过程的输入L1层,进行特征中心化预处理过程,达到数据白化和降低维度的目的;通过PCA降维,得到L2层低维的输入,以去除数据噪声,并更明确显示攻击的重要特征;为了防止网络没有进行训练,而直接将数据传到L2隐层再到输出层的情况,因此加入高维度的L1惩罚项,P={P1,P2,P3,P4……P1000}∈RN即指权值向量w中各个元素的绝对值之和,通常表示为P=||w||1,数学表示为:其损失函数为:求解梯度:sing(w)是去w各个元素的正负号,L1正则化对梯度的是增添一项与wi同号的常数,通过足够大的α实现稀疏,即用于特征选择,使得权重只有部分有效值,强迫网络进行学习;训练这层收敛之后即可进入下一层的训练,令x不变,进行自编码,得到权重矩阵W1,并使用W1的转置W1T进行还原输入层L1的高维输入,并逐层训练;最后,加入最后一层,即加入语义特征空间向量作为约束,利用所有数据进行训练,得到权重W4,同时计入稀疏编码ρ,为了达到约束每个神经元的目的,ρ的取值在0附近;β是稀疏惩罚项的权重,计算其损失函数其中KL距离表示为j是隐含层神经元的平均激活值,节点输出平均值为前馈调整W1-W3的值,直至自编码器编码过程的网络收敛;解码的过程将L2层所得到的隐层输出转置作为L4层,即解码器的中间隐层,训练还原出L1层的原本攻击特征输入,将得到的权重的转置从L3层作为参数逐层还原隐层的输出,直至还原输出L5原攻击特征输入的L1层;最终分别得到由攻击特征到攻击语义描述向量的模型M1和由语义描述向量到还原攻击特征模型M2的两个模型;识别未知攻击:将未知的待识别攻击的特征预处理,再将其输入至深度自编码器模型M1中,得到隐含层输出的语义描述向量S′=(s1,s2,S3,…Sk)∈RN将S′与已有的语义知识库S={{S11,S12,S13,S14…}{S21,S22,S23,S24…}…}∈RN进行余弦相似度计算:通过结果对比得到S′最接近的语义知识库S中的某行语义向量Si,即判定该新型攻击所属攻击类型。2.如权利要求1所述的方法,其特征在于相对其他检测方法,实现了零样本机器学习训练得到的深度自...
【专利技术属性】
技术研发人员:刘启和,陈宇,周世杰,廖永建,
申请(专利权)人:电子科技大学,
类型:发明
国别省市:四川,51
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。