基于数据增强的卷积双向长短期记忆网络入侵检测方法技术

技术编号:38902151 阅读:9 留言:0更新日期:2023-09-22 14:20
本发明专利技术公开了基于数据增强的卷积双向长短期记忆网络入侵检测方法,该方法包括:获取入侵检测数据集;通过改进的DBSCAN聚类算法与改进的WGAN对预处理后的入侵检测数据集进行样本扩充处理;通过随机森林算法结合皮尔逊相关系数分析对扩充后的入侵检测数据集进行特征选择处理后再进行特征提取处理;通过特征关注增强模型对入侵检测数据集的特征向量进行赋予权重处理;通过CNN

【技术实现步骤摘要】
基于数据增强的卷积双向长短期记忆网络入侵检测方法


[0001]本专利技术涉及信息安全
,尤其涉及基于数据增强的卷积双向长短期记忆网络入侵检测方法。

技术介绍

[0002]网络攻击已经成为当前互联网安全面临的一个重要问题,越来越多的组织和企业需要采取措施来保护自己的信息系统和网络资源不受攻击,入侵检测技术作为一种重要的网络安全技术,可以对网络中的异常流量进行实时监控和分析,帮助组织和企业及时发现和应对网络攻击事件;入侵检测技术的发展可以追溯到上世纪80年代,当时主要是基于规则的入侵检测技术。这种技术主要是通过预先定义一些规则来识别和报告攻击行为,但是这种技术只能检测到已知的攻击类型,对于未知的攻击行为无法有效应对;随着互联网用户数量急剧增加,促进了各类新兴互联网应用蓬勃发展,网络流量爆发式增长,使得当前网络环境变得复杂而多变,依靠传统方法规则更新数据仓库难以适应多变的网络环境,无法保障网络安全;
[0003]传统机器学习和深度学习是目前入侵检测领域中主要的两种技术手段,它们都可以用于分析网络流量和系统日志等数据,从而识别网络中的异常流量,发现潜在的攻击行为,传统机器学习技术通常采用一些经典的分类器算法,如KNN、贝叶斯网络模型、支持向量机、人工神经网络、随机森林和决策树算法等等,这些算法需要通过对历史数据进行训练,建立模型,并使用该模型来对新数据进行分类,在入侵检测中,这些算法通常需要使用数据预处理技术来提取网络流量和系统日志中的特征,如数据包的大小、协议类型、源地址等,通过这些特征,机器学习算法可以识别出正常和异常流量,并将异常流量分类为攻击或非攻击流量,然而,传统机器学习算法对于高维度和复杂数据的处理效果有限,且需要大量的手工特征工程,存在特征选取和模型泛化能力不足等问题,深度学习通过构建多层神经网络来学习复杂的特征表示,具有较强的自动化特征学习能力,在入侵检测中,深度学习可以直接处理原始的网络流量和系统日志数据,通过多层卷积神经网络、循环神经网络等模型进行学习和分类,识别出潜在的攻击行为,深度学习技术可以克服传统机器学习算法中需要手工设计特征的问题,大大降低了特征工程的复杂度和人工成本,不少研究人员就将其引入到入侵检测领域中,其中的模型主要包括循环神经网络、自编码器、深度神经网络、深度置信网络、卷积神经网络和长短期记忆等等,尽管使用深度学习在入侵检测领域取得了长足的进步,但现有的深度学习技术也存在以下问题,一是关于特征冗余,更多的特征维度不仅会增加模型的训练时间,还会降低模型的检测效果,二是用于评估模型有效性的数据集存在正负类样本不平衡的问题,三是当前模型单一,提取各类型攻击的特征困难,导致对于入侵的多分类检测准确率低的问题,四是对于稀有类攻击样本的检测准确率低的问题。

技术实现思路

[0004]为了解决上述技术问题,本专利技术的目的是提供基于数据增强的卷积双向长短期记
忆网络入侵检测方法,通过构建一种融合数据增强和卷积双向长短期记忆网络,提高模型的多分类的准确率和对于稀有类攻击样本的检测准确率。
[0005]本专利技术所采用的第一技术方案是:基于数据增强的卷积双向长短期记忆网络入侵检测方法,包括以下步骤:
[0006]获取入侵检测数据集,进行非数值特征转换为数值特征处理,并进行独热编码和最小最大值归一化处理,得到预处理后的入侵检测数据集;
[0007]通过改进的基于密度的噪声应用空间聚类算法与改进的生成对抗网络对预处理后的入侵检测数据集进行样本扩充处理,得到扩充后的入侵检测数据集;
[0008]通过随机森林算法结合皮尔逊相关系数分析对扩充后的入侵检测数据集进行特征选择处理后再进行特征提取处理,得到入侵检测数据集的特征向量;
[0009]引入改进的DBSCAN模块,通过特征关注增强模型对入侵检测数据集的特征向量进行赋予权重处理,得到赋予权重后的入侵检测数据集特征;
[0010]通过卷积双向长短期记忆网络对赋予权重后的入侵检测数据集特征进行分类处理,得到分类结果,所述分类结果包括正常流量样本与攻击类型流量样本。
[0011]进一步,所述通过改进的基于密度的噪声应用空间聚类算法与改进的生成对抗网络对预处理后的入侵检测数据集进行样本扩充处理,得到扩充后的入侵检测数据集这一步骤,其具体包括:
[0012]引入带权的曼哈顿距离,构建改进的基于密度的噪声应用空间聚类算法并对预处理后的入侵检测数据集进行计算处理,得到预处理后的入侵检测数据集对应的聚类簇和离群点;
[0013]所述预处理后的入侵检测数据集中的聚类簇包括少数类簇样本与多数类簇样本;
[0014]通过改进的生成对抗网络WGAN对预处理后的入侵检测数据集中的少数类簇样本进行过采样处理,通过Wasserstein距离度量WGAN中的生成器和判别器之间的距离,得到扩充的少数类簇样本;
[0015]将扩充的少数类簇样本添加至预处理后的入侵检测数据集,得到扩充后的入侵检测数据集。
[0016]进一步,所述引入带权的曼哈顿距离,构建改进的基于密度的噪声应用空间聚类算法并对预处理后的入侵检测数据集进行计算处理,得到预处理后的入侵检测数据集对应的聚类簇和离群点这一步骤,其具体包括:
[0017]对于预处理后的入侵检测数据集中的每一个特征,计算其与目标变量之间的Pearson相关系数,所述目标变量为攻击流量样本;
[0018]对获取到的Pearson相关系数进行最小

最大归一化处理并映射至[0,1]的范围内,得到归一化的相关系数;
[0019]将归一化的相关系数作为预处理后的入侵检测数据集中的特征权重;
[0020]基于预处理后的入侵检测数据集中的特征权重计算流量数据之间的加权曼哈顿距离,并对距离值大于预设阈值的流量数据进行舍弃,选取满足预设距离值的流量数据对应的距离值进行存储,得到距离矩阵;
[0021]确定邻域半径,计算距离矩阵中处于邻域半径内的流量数据样本个数,若计算得到的流量数据样本个数大于或等于预设数目,定义该流量数据样本为核心点;
[0022]循环上述确定核心点步骤,直至遍历所有流量数据样本,将得到的核心点进行归类处理,得到聚类簇;
[0023]对非核心点进行标记处理为噪声点,并归类为离群点。
[0024]进一步,所述通过随机森林算法结合皮尔逊相关系数分析对扩充后的入侵检测数据集进行特征选择处理后再进行特征提取处理,得到入侵检测数据集的特征向量这一步骤,其具体包括:
[0025]对扩充后的入侵检测数据集进行选取,得到特征集与目标变量;
[0026]计算特征集中每个特征与目标变量之间的皮尔逊系数,并按照取绝对值降序排序处理,得到排序序列;
[0027]根据排序序列选择与目标变量相关性最强的前K个特征作为候选特征集,其中所述K为人为预设条件数;
[0028]将候选特征集输入至随机森林模型进行训练,得到每个特征在随机森林模型中的重要性得分;
[0029]选取重要性得分本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于数据增强的卷积双向长短期记忆网络入侵检测方法,其特征在于,包括以下步骤:获取入侵检测数据集,进行非数值特征转换为数值特征处理,并进行独热编码和最小最大值归一化处理,得到预处理后的入侵检测数据集;通过改进的基于密度的噪声应用空间聚类算法与改进的生成对抗网络对预处理后的入侵检测数据集进行样本扩充处理,得到扩充后的入侵检测数据集;通过随机森林算法结合皮尔逊相关系数分析对扩充后的入侵检测数据集进行特征选择处理后再进行特征提取处理,得到入侵检测数据集的特征向量;引入改进的DBSCAN模块,通过特征关注增强模型对入侵检测数据集的特征向量进行赋予权重处理,得到赋予权重后的入侵检测数据集特征;通过卷积双向长短期记忆网络对赋予权重后的入侵检测数据集特征进行分类处理,得到分类结果,所述分类结果包括正常流量样本与攻击类型流量样本。2.根据权利要求1所述基于数据增强的卷积双向长短期记忆网络入侵检测方法,其特征在于,所述通过改进的基于密度的噪声应用空间聚类算法与改进的生成对抗网络对预处理后的入侵检测数据集进行样本扩充处理,得到扩充后的入侵检测数据集这一步骤,其具体包括:引入带权的曼哈顿距离,构建改进的基于密度的噪声应用空间聚类算法并对预处理后的入侵检测数据集进行计算处理,得到预处理后的入侵检测数据集对应的聚类簇和离群点;所述预处理后的入侵检测数据集中的聚类簇包括少数类簇样本与多数类簇样本;通过改进的生成对抗网络WGAN对预处理后的入侵检测数据集中的少数类簇样本进行过采样处理,通过Wasserstein距离度量WGAN中的生成器和判别器之间的距离,得到扩充的少数类簇样本;将扩充的少数类簇样本添加至预处理后的入侵检测数据集,得到扩充后的入侵检测数据集。3.根据权利要求2所述基于数据增强的卷积双向长短期记忆网络入侵检测方法,其特征在于,所述引入带权的曼哈顿距离,构建改进的基于密度的噪声应用空间聚类算法并对预处理后的入侵检测数据集进行计算处理,得到预处理后的入侵检测数据集对应的聚类簇和离群点这一步骤,其具体包括:对于预处理后的入侵检测数据集中的每一个特征,计算其与目标变量之间的Pearson相关系数,所述目标变量为攻击流量样本;对获取到的Pearson相关系数进行最小

最大归一化处理并映射至[0,1]的范围内,得到归一化的相关系数;将归一化的相关系数作为预处理后的入侵检测数据集中的特征权重;基于预处理后的入侵检测数据集中的特征权重计算流量数据之间的加权曼哈顿距离,并对距离值大于预设阈值的流量数据进行舍弃,选取满足预设距离值的流量数据对应的距离值进行存储,得到距离矩阵;确定邻域半径,计算距离矩阵中处于邻域半径内的流量数据样本个数,若计算得到的流量数据样本个数大于或等于预设数目,定义该流量数据样本为核心点;
循环上述确定核心点步骤,直至遍历所有流量数据样本,将得到的核心点进行归类处理,得到聚类簇;对非核心点进行标记处理为噪声点,并归类为离群点。4.根据权利要求3所述基于数据增强的卷积双向长短期记忆网络入侵检测方法,其特征在于,所述通过随机森林算法结合皮尔逊相关系数分析对扩充后的入侵检测数据集进行特征选择处理后再进行特征提取处理,得到入侵检测数据集的特征向量这一步骤,其具体包括:对扩充后的入侵检测数据集进行选取,得到特征集与目标变量;计算特征集中每个特征与目标变量之间的皮尔逊系数,并按照取绝对值降序排序处理,得到排序序列;根据排序序列选择与目标变量相关性最强的前K个特征作为候选特征集,其中所述K为人为预设条件数;将候选特征集输入至随机森林模型进行训练,得到每个特征在随机森林模型中的重要性得分;选取重要性得分中最高的前N个特征作为最终的特征集对随机森林模型进行训练,并评估训练后的随机森林模型的性能;若所述训...

【专利技术属性】
技术研发人员:柳毅刘东巫朝平谢嘉乐黎阳余家丽毕玲滢
申请(专利权)人:佳都科技集团股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1