一种基于条件变分自编码器的未知网络攻击检测方法技术

技术编号:24590301 阅读:48 留言:0更新日期:2020-06-21 02:32
本发明专利技术公开了一种基于条件变分自编码器的未知网络攻击检测方法,将已知类别的分类与未知攻击检测问题分为两个阶段。第一阶段利用基于变分自编码器的分类器在实现将网络流量按照已知类别分类的基础上实现对网络流量的特征提取。第二阶段利用第一阶段训练的编码器获取网络流量的特征表达,利用解码器的重构误差校正第一阶段的检测结果,识别未知攻击。可见,本发明专利技术既能实现传统检测方法识别正常流量和异常流量的攻击类型的功能,又能实现未知攻击的检测。

An unknown network attack detection method based on conditional variational self encoder

【技术实现步骤摘要】
一种基于条件变分自编码器的未知网络攻击检测方法
本专利技术涉及计算机网络
,尤其涉及一种基于条件变分自编码器的未知网络攻击检测方法。
技术介绍
随着计算机技术和网络技术的飞速发展,网络攻击行为层出不穷,针对各种新型的网络协议、网络体系架构、网络应用的新型网络攻击严重困扰着信息系统的正常运行。传统的网络安全检测设备依靠静态攻击特征(如:IP黑名单)或者动态攻击特征(如:正则表达式)检测网络中的攻击行为。这种检测方法依赖于已知的攻击特征,而攻击特征通常需要通过人工手动提取,并且依赖于专业知识,需要大量的时间和人力,导致无法对未知攻击做出有效地、及时地响应。基于深度学习的网络安全检测是近几年被广泛研究的新型安全检测方法,可以分为无监督学习和有监督学习两大类方法。基于无监督的网络安全检测又称异常检测,异常检测只需要正常流量作为训练数据,对正常流量行为进行学习建模,若带测试网络流量的行为与正常流量的行为差距较大,则认为是异常流量,这种方法从一定程度上可以检测未知的入侵行为,但是无法对已知的网络攻击进行分类。基于有监督学习的安全检测方法利用正常和已知的攻击流量训练判别模型,待测流量直接输入该模型,即可识别待测流量的类型,这种方法可以对网络流量按照已知攻击类型进行分类,且一般具有较高的准确率,但是检测未知攻击的能力较差。
技术实现思路
本专利技术的目的是提供一种基于条件变分自编码器的未知网络攻击检测方法,对于网络流量的已知类别与未知攻击类别均具有较高的检测准确率。本专利技术的目的是通过以下技术方案实现的:一种基于条件变分自编码器的未知网络攻击检测方法,包括:利用已知类别的流量训练基于条件变分自编码器的分类器,并在此基础上训练未知攻击检测模型;基于条件变分自编码器的分类器包括先验编码器、后验编码器以及第一解码器,训练阶段后验编码器的输出作为先验编码器的监督信号;未知攻击检测模型包括:第二解码器,以及基于条件变分自编码器的分类器中后验编码器;对于待测流量通过先验编码器得到待测流量的特征第一解码器根据待测流量的特征计算属于各已知类别的概率,选择概率最大值对应的类别作为预测结果;通过后验编码器利用预测到的类别与待测流量得到待测流量的特征第二解码器利用待测流量的特征进行重构,得到待测流量关于类别的重构流量并通过比较重构流量与待测流量的误差大小来判断待测流量是否为未知攻击。由上述本专利技术提供的技术方案可以看出,将已知类别的分类与未知攻击检测问题分为两个阶段。第一阶段利用基于变分自编码器的分类器在实现将网络流量按照已知类别分类的基础上实现对网络流量的特征提取。第二阶段利用第一阶段训练的编码器获取网络流量的特征表达,利用解码器的重构误差校正第一阶段的检测结果,识别未知攻击。可见,本专利技术既能实现传统检测方法识别正常流量和异常流量的攻击类型的功能,又能实现未知攻击的检测。附图说明为了更清楚地说明本专利技术实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他附图。图1为本专利技术实施例提供的一种基于条件变分自编码器的未知网络攻击检测方法的框架图;图2为本专利技术实施例提供的基于条件变分自编码器的分类器的训练与测试示意图;图3为本专利技术实施例提供的未知攻击检测模型的训练与测试示意图;图4为本专利技术实施例提供的攻击检测举例示意图;图5为本专利技术实施例提供的已知类别分类与未知攻击检测结果示意图。具体实施方式下面结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术的保护范围。本专利技术实施例提供一种基于条件变分自编码器的未知网络攻击检测方法,如图1所示,主要包括:利用已知类别的流量训练基于条件变分自编码器的分类器(也即训练阶段的阶段一),并在此基础上训练未知攻击检测模型(也即训练阶段的阶段二);基于条件变分自编码器的分类器包括先验编码器、后验编码器以及第一解码器,训练阶段后验编码器的输出作为先验编码器的监督信号;未知攻击检测模型包括:第二解码器,以及基于条件变分自编码器的分类器中后验编码器。对于待测流量通过先验编码器得到待测流量的特征第一解码器根据待测流量的特征计算属于各已知类别的概率,选择概率最大值对应的类别作为预测结果(也即测试阶段的阶段一);通过后验编码器利用预测到的类别与待测流量得到待测流量的特征第二解码器利用待测流量的特征进行重构,得到待测流量关于类别的重构流量并通过比较重构流量与待测流量的误差大小来判断待测流量是否为未知攻击(也即测试阶段的阶段二)。下面针对基于条件变分自编码器的分类器、未知攻击检测模型的组成及其训练与测试过程进行介绍。一、训练与测试数据。本专利技术实施例中,将原始数据包按照源IP、目的IP、源端口、目的端口和协议五元组聚合成数据流,用数据流的行为特征网络流量。用于训练的网络流量表示为{(x1,y1),(x2,y2),...,(xn,yn)},其中xi∈Rd表示第i个流量样本的统计行为,具体用d维向量表示,向量的每个元素表示一个统计特征,yi∈{0,1,2,...,k}表示第i个样本的标签值,yi=0表示正常流量,yi>0表示攻击流量,且攻击类型为yi,k为已知攻击类别总数。测试样本表示为其中k+1表示未知攻击的标签值。二、基于条件变分自编码器的分类器。本专利技术实施例中,采用变分自动编码器的分类器学习已知类别而之间的分类边界,实现流量按照正常流量和已知攻击流量进行分类。变分自动编码器包含编码器和解码器两部分,编码器将输入流量样本映射到满足特定分布(通常是高斯分布)的特征空间上,然后通过重新参数化后输入解码器,解码器最终将特征映射为流量类别。原理:变分自动编码器首先将原始的高维网络流量向量映射为低维的流量特征,然后通过解码器将低维的特征映射为流量类别1、构建编码器。本专利技术实施例中,编码器包含先验编码器pα(z|x)与后验编码器qβ(z|x,y),两个编码器可以分别使用多层感知机构建。如图2所示,先验编码器pα(z|x),在给定原始网络流量x后,输出关于特征z满足高斯分布的均值与方差μα(x),二者均为关于原始网络流量x与编码器参数α的函数。如图2所示,后验编码器qβ(z|x,y),在给定原始网络流量x与对应的类别y后,输出关于特征z满足高斯分布的均值与方差μβ(x,y),diag(σβ2(x,y)),二者均为关于原始网络流量x和对应类别y以及编码器参数β的函数。为了使概率编码器pα(z|x)能够学习到流量样本和流量类型的对应关系,基于条件变分自编码器的分类器的训练阶段,使用后验编码器qβ本文档来自技高网...

【技术保护点】
1.一种基于条件变分自编码器的未知网络攻击检测方法,其特征在于,包括:/n利用已知类别的流量训练基于条件变分自编码器的分类器,并在此基础上训练未知攻击检测模型;基于条件变分自编码器的分类器包括先验编码器、后验编码器以及第一解码器,训练阶段后验编码器的输出作为先验编码器的监督信号;未知攻击检测模型包括:第二解码器,以及基于条件变分自编码器的分类器中后验编码器;/n对于待测流量

【技术特征摘要】
1.一种基于条件变分自编码器的未知网络攻击检测方法,其特征在于,包括:
利用已知类别的流量训练基于条件变分自编码器的分类器,并在此基础上训练未知攻击检测模型;基于条件变分自编码器的分类器包括先验编码器、后验编码器以及第一解码器,训练阶段后验编码器的输出作为先验编码器的监督信号;未知攻击检测模型包括:第二解码器,以及基于条件变分自编码器的分类器中后验编码器;
对于待测流量通过先验编码器得到待测流量的特征第一解码器根据待测流量的特征计算属于各已知类别的概率,选择概率最大值对应的类别作为预测结果;
通过后验编码器利用预测到的类别与待测流量得到待测流量的特征第二解码器利用待测流量的特征进行重构,得到待测流量关于类别的重构流量并通过比较重构流量与待测流量的误差大小来判断待测流量是否为未知攻击。


2.根据权利要求1所述的一种基于条件变分自编码器的未知网络攻击检测方法,其特征在于,
先验编码器pα(z|x),用于在给定原始网络流量x后,输出关于特征z满足高斯分布的均值与方差μα(x),二者均为关于原始网络流量x与编码器参数α的函数;
后验编码器qβ(z|x,y),用于在给定原始网络流量x与对应的类别y后,输出关于特征z满足高斯分布的均值与方差μβ(x,y),diag(τβ2(x,y)),二者均为关于原始网络流量x和对应类别y以及编码器参数β的函数;
基于条件变分自编码器的分类器的训练阶段,使用后验编码器qβ(z|x,y)的输出作为先验编码器pα(z|x)的监督信号,使得先验编码器pα(z|x)输出趋近后验编码器qβ(z|x,y)的输出;
基于后验编码器qβ(z|x,y)的输出,重参数化技术获得原始网络流量的特征z作为第一解码器pγ(y|z,x)的输入的一部分,重参数化过程首先从标准正态分布采样一个值ε,然后利用该采样值计算特征z:
z=μβ(x,y)+diag(σβ(x,y))*ε,ε~N(0,1)
第一解码器pγ(y|z,x)的输入还包含原始网络流量x,输出原始网络流量x对应的概率分布π=[π0,π1,...,πk],其中,πj表示原始网络流量x属于第j类的概率,j=0,1,...,k;j=0,类别y表示正常类别,j=1,...,k,表示已知攻击类别,j的数值对应了具体的类别,k为类已知攻击类别总数。


3.根据权利要求2所述的一种基于条件变分自编码器的未知网络攻击检测方法,其特征在于,对于先验编码器、后验编码器以及第一解码器中的参数α,β,γ,训练过程采用变分贝叶斯...

【专利技术属性】
技术研发人员:陈双武陈翔杨坚张勇东刘新民王玮
申请(专利权)人:北京中科研究院中国科学技术大学
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1