一种基于增量学习的在线自适应入侵检测方法技术

技术编号:35104706 阅读:28 留言:0更新日期:2022-10-01 17:14
本发明专利技术公开了一种基于增量学习的在线自适应入侵检测方法,主要解决现有方法不能实时更新入侵检测模型、检测效果不佳的问题。其主要实现步骤为:1)在已知种类的数据集上对待扩展入侵检测分类模型进行训练得到初始模型;2)实时嗅探并处理当前网络中的数据并送入模型进行检测;3)当模型检测结果为未知种类的攻击数据时,选择部分已知种类的代表性样本与未知种类样本相结合作为增量样本集;4)利用增量学习对初始模型进行在线更新,同时实时判断当前网络中的数据流量再次训练模型;5)利用在线更新后模型完成实时入侵检测。本发明专利技术能够有效提升对已知类别和未知类别入侵行为检测的准确率,并能够在线实时地更新入侵检测模型。并能够在线实时地更新入侵检测模型。并能够在线实时地更新入侵检测模型。

【技术实现步骤摘要】
一种基于增量学习的在线自适应入侵检测方法


[0001]本专利技术属于网络安全
,进一步涉及入侵检测方法,具体为一种基于增量学习的在线自适应入侵检测方法,可用于实时检测网络中的攻击行为并在线更新入侵检测系统。

技术介绍

[0002]深度神经网络作为一种智能算法,在复杂数据分析方面充分展示了其优势所在,能够很好地应用在入侵检测领域,然而大部分深度神经网络只能针对已知类别的网络入侵进行良好的训练,即大部分神经网络模型是为一个封闭的环境所设计的。在现实生活中,已知类别的网络攻击并不能有效地涵盖所有攻击类别。增量学习是一类能够通过学习新增样本、扩展和更新现有模型的算法。它能够保存大部分在已知类别中学习的知识,并且不断地从新增类别中学习新的知识。增量学习算法的主要特征包括:具备从新增样本中学习新知识的能力;模型在训练过程中不需要或者仅需要部分原始数据集;模型对旧知识具有记忆的能力,不会出现灾难性遗忘的问题;模型能够对新增样本中可能出现的新类别进行自适应学习。虽然增量学习为处理新增类别提供了思路,但是目前用于入侵检测的增量学习算法仍不能实现在线实时地检测网络入侵行为,导致入侵检测技术缺乏自适应性,实时性以及可靠性。
[0003]中国专利申请CN108173708A公开了一种基于深度学习的异常流量检测方法,该方法包括获取用户端流量数据,利用流量检测分类其对流量进行异常检测,基于异常数据对流量检测分类器进行在线训练三个阶段。首先,利用嗅探器获取用户端的流量数据构建可训练数据集;其次,利用异常检测设备中预先构建的流量检测分类器对所述流量数据进行异常检测;当检测出异常数据时,基于所述异常数据,得到训练样本数据,并利用所述样本数据对所述流量检测分类器进行在线训练。然而,上述方法对全部的异常样本数据进行训练并不能达到非常完美的效果,且在增量过程中未对样本数据进行处理的问题均会影响模型分类准确率和训练效率。
[0004]在入侵检测领域,不管是因为需求的变化,还是新的入侵行为的出现,入侵检测模型都需要重新训练。当模型需要日日训练时,训练时间变得非常重要。现有相关工作大多只考虑静态环境中的入侵检测,很少考虑随时间变化的动态环境中的入侵检测,较少考虑入侵检测方法的自适应性,主要体现在以下三个方面:1)模型大部分都是离线的,不能在线实时地检测已知种类的网络入侵行为;2)现有入侵检测模型检测不出未知类别的入侵行为,当出现未知类别时,模型无法动态自适应地更新,需要全部重新训练;3)基于深度学习的入侵检测模型会产生大量的时间开销,导致模型效率不高。网络复杂程度的增加以及大量高维网络数据的出现也使得基于传统机器学习的入侵检测模型检测准确率不高;4)理论研究很少应用在真实场景中,在很多方面缺乏对真实场景的考量。
[0005]因此,现有技术需要一种提高已知类别和未知类别分类准确率的方法,来处理并解决识别问题,且需要一种专门针对入侵检测领域的增量学习方法,来提高增量学习分类
效率。

技术实现思路

[0006]本专利技术目的在于针对上述现有技术的不足,提出一种基于增量学习的在线自适应入侵检测方法,该方法可以有效地提升对已知类别和未知类别入侵行为检测的准确率,并且可以在线实时地更新入侵检测模型;在现有增量学习基础上进一步提高算法分类效率,从而保证入侵检测方法的实时性、可扩展性、可适应性和鲁棒性,为后续基于增量学习的入侵检测算法研究以及工程应用提供新的思路。
[0007]实现本专利技术的基本思路是:首先在已知种类的数据集上对待扩展入侵检测分类模型进行训练得到初始模型,接着实时嗅探并处理当前网络中的数据同时送入模型进行检测,当模型检测结果为未知种类的攻击数据时,选择部分已知种类的代表性样本与未知种类样本相结合作为增量样本集,利用增量学习对模型进行在线更新,同时实时判断当前网络中的数据流量,当数据流量小于阈值时利用全部数据重新训练待扩展模型。
[0008]本专利技术实现上述目的具体步骤如下:
[0009](1)获取数据集并进行预处理:
[0010]从网络中获取公开入侵检测数据集作为初始已知类别样本集,提取每条数据记录的特征和标签,去除部分无效数据,根据标签对剩余数据记录进行分类,并对字符型特征进行独热编码,制作包含数据、标签、列表的二进制文件样本集,将该文件样本集中的数据划分为初始已知类别训练集D
old
和验证集D
valid
两部分;
[0011]D
old
={X1,X2,...,X
n
},
[0012]D
valid
={T1,T2,...,T
n
},
[0013]其中,n为初始已知类别样本的类别数量,X
n
、T
n
分别表示所有第n类初始已知类别训练样本、验证样本;
[0014](2)搭建待扩展分类网络模型:
[0015]采用时空网络结构,以一维卷积神经网络和长短期记忆神经网络串接在一起作为网络结构,搭建依次由两个第一一维卷积神经网络层conv1d、第一最大池化层max_pooling_1、第二一维卷积神经网络层conv1d_2、第二最大池化层max_pooling_2、长短期记忆神经网络层lstm、暂退层dropout以及第一全连接层dense_1组成的待扩展分类网络模型,以18*1的一维矩阵作为输入,输出代表样本类型预测分数的1*1的矩阵;
[0016](3)利用初始已知类别样本训练集D
old
和交叉熵损失函数L
c
训练待扩展分类网络模型,获取可检测已知类别的入侵检测模型,同时利用初始已知类别验证集D
valid
在入侵检测模型训练过程中检验该模型的状态、收敛情况,并根据检验结果调整超参数实现训练效果优化,得到训练好的入侵检测模型
[0017](4)利用流量特征提取工具CICFlowMeter的实时提取模块Realtime实时捕获网络中的数据记录,去除部分无效数据记录,对有效数据记录进行分析得到50

80个数据特征并保存;
[0018](5)对步骤(4)得到的数据特征进行特征提取,根据提取到的特征组合得到在线入侵检测样本集D
online

[0019](6)实时入侵检测:
[0020]将在线入侵样本集D
online
放入步骤(3)中训练好的入侵检测模型中进行预测,根据模型预测结果判断在线入侵检测样本集D
online
中每一个样本的类型,具体如下:
[0021]若样本分类为正常的样本,则继续对样本集D
online
中其它样本进行实时入侵检测;
[0022]若样本分类为已知异常类别的样本,则将该样本反馈至管理员做进一步分析,同时继续对样本集D
online
中其它样本进行实时入侵检测;
[0023]若样本分类为未知类别的样本,则进行人工本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于增量学习的在线自适应入侵检测方法,包括如下步骤:(1)对原始数据集进行预处理:从网络中获取公开入侵检测数据集作为初始已知类别样本集,提取每条数据记录的特征和标签,去除部分无效数据,根据标签对剩余数据记录进行分类,并对字符型特征进行独热编码,制作包含数据、标签、列表的二进制文件样本集,将该文件样本集中的数据划分为初始已知类别训练集D
old
和验证集D
valid
两部分;D
old
={X1,X2,...,X
n
},D
valid
={T1,T2,...,T
n
},其中,n为初始已知类别样本的类别数量,X
n
、T
n
分别表示所有第n类初始已知类别训练样本、验证样本;(2)搭建待扩展分类网络模型:采用时空网络结构,将一维卷积神经网络和长短期记忆神经网络串接在一起作为网络结构,搭建依次由两个第一一维卷积神经网络层conv1d、第一最大池化层max_pooling_1、第二一维卷积神经网络层conv1d_2、第二最大池化层max_pooling_2、长短期记忆神经网络层lstm、暂退层dropout以及第一全连接层dense_1组成的待扩展分类网络模型,以18*1的一维矩阵作为输入,输出代表样本类型预测分数的1*1的矩阵;(3)利用初始已知类别样本训练集D
old
和交叉熵损失函数L
c
训练待扩展分类网络模型,获取可检测已知类别的入侵检测模型,同时利用初始已知类别验证集D
valid
在入侵检测模型训练过程中检验该模型的状态、收敛情况,并根据检验结果调整超参数实现训练效果优化,得到训练好的入侵检测模型(4)利用流量特征提取工具CICFlowMeter的实时提取模块Realtime实时捕获网络中的数据记录,去除部分无效数据记录,对有效数据记录进行分析得到50

80个数据特征并保存;(5)对步骤(4)得到的数据特征进行特征提取,根据提取到的特征组合得到在线入侵检测样本集D
online
;(6)实时入侵检测:将在线入侵样本集D
online
放入步骤(3)中训练好的入侵检测模型中进行预测,根据模型预测结果判断在线入侵检测样本集D
online
中每一个样本的类型,具体如下:若样本分类为正常的样本,则继续对样本集D
online
中其它样本进行实时入侵检测;若样本分类为已知异常类别的样本,则将该样本反馈至管理员做进一步分析,同时继续对样本集D
online
中其它样本进行实时入侵检测;若样本分类为未知类别的样本,则进行人工判断,确定该样本是否可用,如果判断为不可用,则继续对样本集D
online
中其它样本进行实时入侵检测;如果判断为可用,则执行步骤(7);(7)根据可用样本数据记录的信息,人工标注未知类别样本的标签,并构建未知类别样本集D
unknown
:D
unknown
={X1,X2,...,X
m
},其中m为未知类别样本的类别数量,X
m
为样本类别为m的所有未知样本集。
(8)在初始已知类别样本集中选取具有代表性的样本构建已知类别样本集D
known
:D
known
={D
t
,D
f
,D
r
},其中D
t
为在待扩展分类模型上分类正确且分数前1%高的数据样本集,D
f
为在待扩展分类模型上分类错误的全部数据样本集,D
r
为随机选择1%剩余已知类别样本的数据样本集;(9)构建用于后续在线更新模型的增量样本集D
ne...

【专利技术属性】
技术研发人员:王利娟张哲瑛
申请(专利权)人:西安电子科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1