基于自监督掩码上下文重构的网络入侵检测方法和系统技术方案

技术编号:38331793 阅读:14 留言:0更新日期:2023-07-29 09:14
本发明专利技术公开了一种基于自监督掩码上下文重构的网络入侵检测方法和系统,本发明专利技术包括将入侵数据集划分上下文数据块,对其中数据样本进行多种数据转换得到多个转换后的上下文数据块;对每一个上下文数据块及其转换后的上下文数据块采用掩码机制生成掩码样本集和保留样本集;采用上下文数据块及其转换后的上下文数据块的掩码样本集、保留样本集训练神经网络;将待检测数据划分上下文数据块并转换得到多个转换后的上下文数据块,输入神经网络的编码器并计算数据样本的异常分数,若异常分数超过阈值则判定异常。本发明专利技术旨在解决现有无监督入侵检测方法中忽略了入侵数据特有的上下文时序特性和异常污染问题,能够提升网络入侵检测效果。测效果。测效果。

【技术实现步骤摘要】
基于自监督掩码上下文重构的网络入侵检测方法和系统


[0001]本专利技术涉及计算机网络安全领域,具体涉及一种基于自监督掩码上下文重构的网络入侵检测方法和系统。

技术介绍

[0002]随着互联网的广泛使用,网络安全的重要性与日俱增。网络入侵检测系统是检测恶意网络活动、增强网络安全的有效技术。由于深度学习的强大表征能力,有监督的网络入侵检测已经取得了很大的进展。然而,基于深度学习的有监督入侵检测方法需要大量的标记数据进行训练,而人工标记数据的代价和难度都很大,特别是针对零日攻击的标记。针对这个问题,学界和工业界提出了针对网络入侵检测的无监督方法。
[0003]基于深度学习的无监督方法因其能够检测新型攻击且检测效果较好而成为无监督检测方法中的主流。根据检测的方法的不同,无监督入侵检测方法分为基于重构的方法、基于聚类的方法和一分类方法。基于重构的方法假设异常值不能被有效地压缩或从低维映射空间重构,即与正常数据相比,异常值的重建成本较高。基于重构的方法通常通过自动编码器的输出和输入的差值判定异常的程度,但压缩数据会造成数据有效信息的损失。深度聚类的方法通过深度神经网络提取特征,并对特征进行聚类获得检测结果。基于一分类方法假设训练集中都是正常数据,学习正常数据的一个全包围边界,从而检测新数据是否异常,但一分类方法忽略了数据中异常污染的存在,会降低检测效果。
[0004]目前常用的基于深度学习的无监督入侵检测方法无法捕捉到入侵数据的特有特征,即上下文时序特征和异常污染。上下文时序特性区别于通常的时序特性,它强调上下文中的依赖关系。以DOS(分布式拒绝服务)攻击为例,通过持续地向目标主机发送大量数据包,延迟目标主机的处理速度,并阻止正常任务的处理。这种攻击行为的时间上下文特性从攻击开始才存在,而非存在于整个时间序列中,不同攻击之间不存在这种上下文关系。入侵数据的另一个重要特征是异常污染,入侵检测系统可以使用常见的无监督异常检测方法进行检测,这些方法假设所有未标记的数据都是正常数据。然而,实际的入侵情况通常会受到未知异常数据的污染,会导致入侵检测系统得到的决策边界存在偏差。

技术实现思路

[0005]本专利技术要解决的技术问题:针对现有技术的上述问题,提供一种基于自监督掩码上下文重构的网络入侵检测方法和系统,本专利技术旨在解决现有无监督入侵检测方法中忽略了入侵数据特有的上下文时序特性和异常污染问题,能够提升网络入侵检测效果。
[0006]为了解决上述技术问题,本专利技术采用的技术方案为:
[0007]一种基于自监督掩码上下文重构的网络入侵检测方法,包括:
[0008]S101,将入侵数据集划分为固定大小的上下文数据块;
[0009]S102,将每一个上下文数据块中的数据样本进行多种不同的数据转换,从而将每一个上下文数据块转换得到多个转换后的上下文数据块;
[0010]S103,对每一个原始的上下文数据块及其转换后的上下文数据块,采用掩码机制遮蔽相同的部分数据样本,将遮蔽的数据样本作为掩码样本集、剩余的数据样本作为保留样本集;
[0011]S104,采用每一个原始的上下文数据块及其转换后的上下文数据块的掩码样本集、保留样本集训练神经网络,所述神经网络包括编码器和解码器,且训练神经网络时包括利用编码器将每一个原始的上下文数据块及其转换后的上下文数据块的保留样本集编码为语义空间向量,并利用解码器对语义空间向量结合位置编码进行解码得到重构数据样本,并基于保留样本的确定对比损失函数与掩码样本的重构损失函数之和构成总损失函数来优化神经网络的网络参数直至完成对神经网络的训练;
[0012]S105,将待检测数据划分为固定大小的上下文数据块,将每一个上下文数据块中的数据样本进行多种不同的数据转换,从而将每一个上下文数据块转换得到多个转换后的上下文数据块;将原始的上下文数据块及其转换后的上下文数据块输入神经网络的编码器以计算语义空间向量,并计算各个数据样本的异常分数,若异常分数超过阈值则判定该数据样本异常。
[0013]可选地,步骤S101包括:对入侵数据集χ={x1,x2,

x
n
}中的样本,按照时间顺序划分包含C个数据样本的上下文数据块,若最后一个上下文数据块不足C个数据样本则将该上下文数据块丢弃以使得每一个上下文数据块均包含C个数据样本,最终得到个上下文数据块,其中为对n/C进行下取整,n为入侵数据集χ的数据样本总数量。
[0014]可选地,步骤S102中进行多种不同的数据转换是指采用K个可学习的转换器T1~T
K
进行不同的数据转换,且数据转换前后的数据样本的空间维度相同。
[0015]可选地,步骤S104中总损失函数的计算函数表达式为:
[0016]L=L
con
+αL
rec

[0017]上式中,L为总损失函数,L
con
表示保留样本的确定对比损失函数,α为权重,L
rec
为掩码样本的重构损失,且有:
[0018][0019]上式中,s(x
k
,x)为样本x与其转换样本x
k
的相似度,s(x
k
,x
l
)为样本x的转换样本x
k
与转换样本x
l
的相似度,且相似度的计算函数表达式为:
[0020]s(x
n
,x
m
)=exp(sim(f
φ
(T
n
(x)),f
φ
(T
m
(x)))/τ),
[0021]上式中,s(x
n
,xm)表示任意样本x
n
和x
m
之间的相似度,T
n
(x)为样本x
n
的转换样本,T
m
(x)为样本x
m
的转换样本,f
φ
表示transformer编码器,sim为计算两个数据的余弦相似度,τ为温度超参数;
[0022][0023]上式中,为重构数据样本,为重构数据样本对应的掩码样本。
[0024]可选地,步骤S105中对语义空间向量计算异常分数的函数表达式为:
[0025]S(x)=L
con
(x),
[0026]上式中,S(x)为数据样本x的异常分数,L
con
(x)表示数据样本x对应的保留样本的确定对比损失函数L
con

[0027]可选地,步骤S104中利用编码器将每一个原始的上下文数据块及其转换后的上下
文数据块的保留样本集编码为语义空间向量时,编码器的输入向量的函数表达式为:
[0028]z0=xE+E
pos

[0029]上式中,z0为编码器的输入向量,xE对输入的数据样本x进行线性变换,E本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于自监督掩码上下文重构的网络入侵检测方法,其特征在于,包括:S101,将入侵数据集划分为固定大小的上下文数据块;S102,将每一个上下文数据块中的数据样本进行多种不同的数据转换,从而将每一个上下文数据块转换得到多个转换后的上下文数据块;S103,对每一个原始的上下文数据块及其转换后的上下文数据块,采用掩码机制遮蔽相同的部分数据样本,将遮蔽的数据样本作为掩码样本集、剩余的数据样本作为保留样本集;S104,采用每一个原始的上下文数据块及其转换后的上下文数据块的掩码样本集、保留样本集训练神经网络,所述神经网络包括编码器和解码器,且训练神经网络时包括利用编码器将每一个原始的上下文数据块及其转换后的上下文数据块的保留样本集编码为语义空间向量,并利用解码器对语义空间向量结合位置编码进行解码得到重构数据样本,并基于保留样本的确定对比损失函数与掩码样本的重构损失函数之和构成总损失函数来优化神经网络的网络参数直至完成对神经网络的训练;S105,将待检测数据划分为固定大小的上下文数据块,将每一个上下文数据块中的数据样本进行多种不同的数据转换,从而将每一个上下文数据块转换得到多个转换后的上下文数据块;将原始的上下文数据块及其转换后的上下文数据块输入神经网络的编码器以计算语义空间向量,并计算各个数据样本的异常分数,若异常分数超过阈值则判定该数据样本异常。2.根据权利要求1所述的基于自监督掩码上下文重构的网络入侵检测方法,其特征在于,步骤S101包括:对入侵数据集中的样本,按照时间顺序划分包含C个数据样本的上下文数据块,若最后一个上下文数据块不足C个数据样本则将该上下文数据块丢弃以使得每一个上下文数据块均包含C个数据样本,最终得到个上下文数据块,其中为对n/C进行下取整,n为入侵数据集的数据样本总数量。3.根据权利要求1所述的基于自监督掩码上下文重构的网络入侵检测方法,其特征在于,步骤S102中进行多种不同的数据转换是指采用K个可学习的转换器T1~T
K
进行不同的数据转换,且数据转换前后的数据样本的空间维度相同。4.根据权利要求3所述的基于自监督掩码上下文重构的网络入侵检测方法,其特征在于,步骤S104中总损失函数的计算函数表达式为:L=L
con
+αL
rec
,上式中,L为总损失函数,L
con
表示保留样本的确定对比损失函数,α为权重,L
rec
为掩码样本的重构损失,且有:上式中,s(x
k
,x)为样本x与其转换样本x
k
的相似度,s(x
k
,x
l
)为样本x的转换样本x
k
与转换样本x
l
的相似度,且相似度的计算函数表达式为:s(x
n
,x
m
)=exp(sim(f
φ
(T
n
(x)),f
φ
(T
m
(x)))/τ),上式中,s(x
n
,x
m
)表示任意样本x
n
和x
m
之间的相似度,T
n
(x)为样本x
n
的转换样本,T
m
(x)为样本x
m
的转换样本,f
φ
表示transformer编码器,sim为计算两个数据的余弦相似度,τ为
温度超参数;上式中,为重构数据样本,为重构数据样本对应的掩码样本。5.根据权利要求4所述的基于自监督掩码上下文重构的网络入侵检测方法,其特征在于,步骤S105中对语义空间向量计算异常分数的函数表达式为:S(x)=L
con
(x),上式中,S(x)为数据样本x的异常...

【专利技术属性】
技术研发人员:蹇松雷王伟谭郁松黄辰林李宝董攀丁滟任怡王晓川张建锋谭霜郭勇王怡琦
申请(专利权)人:中国人民解放军国防科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1