基于数据增强的卷积双向长短期记忆网络入侵检测方法技术

技术编号：38902151 阅读：9 留言：0更新日期：2023-09-22 14:20

本发明专利技术公开了基于数据增强的卷积双向长短期记忆网络入侵检测方法，该方法包括：获取入侵检测数据集；通过改进的DBSCAN聚类算法与改进的WGAN对预处理后的入侵检测数据集进行样本扩充处理；通过随机森林算法结合皮尔逊相关系数分析对扩充后的入侵检测数据集进行特征选择处理后再进行特征提取处理；通过特征关注增强模型对入侵检测数据集的特征向量进行赋予权重处理；通过CNN

全部详细技术资料下载

【技术实现步骤摘要】
基于数据增强的卷积双向长短期记忆网络入侵检测方法

[0001]本专利技术涉及信息安全
，尤其涉及基于数据增强的卷积双向长短期记忆网络入侵检测方法。

技术介绍

[0002]网络攻击已经成为当前互联网安全面临的一个重要问题，越来越多的组织和企业需要采取措施来保护自己的信息系统和网络资源不受攻击，入侵检测技术作为一种重要的网络安全技术，可以对网络中的异常流量进行实时监控和分析，帮助组织和企业及时发现和应对网络攻击事件；入侵检测技术的发展可以追溯到上世纪80年代，当时主要是基于规则的入侵检测技术。这种技术主要是通过预先定义一些规则来识别和报告攻击行为，但是这种技术只能检测到已知的攻击类型，对于未知的攻击行为无法有效应对；随着互联网用户数量急剧增加，促进了各类新兴互联网应用蓬勃发展，网络流量爆发式增长，使得当前网络环境变得复杂而多变，依靠传统方法规则更新数据仓库难以适应多变的网络环境，无法保障网络安全；
[0003]传统机器学习和深度学习是目前入侵检测领域中主要的两种技术手段，它们都可以用于分析网络流量和系统日志等数据，从而识别网络中的异常流量，发现潜在的攻击行为，传统机器学习技术通常采用一些经典的分类器算法，如KNN、贝叶斯网络模型、支持向量机、人工神经网络、随机森林和决策树算法等等，这些算法需要通过对历史数据进行训练，建立模型，并使用该模型来对新数据进行分类，在入侵检测中，这些算法通常需要使用数据预处理技术来提取网络流量和系统日志中的特征，如数据包的大小、协议类型、源地址等，通过这些特征，机器学习算法可以识别...

【技术保护点】

【技术特征摘要】
1.基于数据增强的卷积双向长短期记忆网络入侵检测方法，其特征在于，包括以下步骤：获取入侵检测数据集，进行非数值特征转换为数值特征处理，并进行独热编码和最小最大值归一化处理，得到预处理后的入侵检测数据集；通过改进的基于密度的噪声应用空间聚类算法与改进的生成对抗网络对预处理后的入侵检测数据集进行样本扩充处理，得到扩充后的入侵检测数据集；通过随机森林算法结合皮尔逊相关系数分析对扩充后的入侵检测数据集进行特征选择处理后再进行特征提取处理，得到入侵检测数据集的特征向量；引入改进的DBSCAN模块，通过特征关注增强模型对入侵检测数据集的特征向量进行赋予权重处理，得到赋予权重后的入侵检测数据集特征；通过卷积双向长短期记忆网络对赋予权重后的入侵检测数据集特征进行分类处理，得到分类结果，所述分类结果包括正常流量样本与攻击类型流量样本。2.根据权利要求1所述基于数据增强的卷积双向长短期记忆网络入侵检测方法，其特征在于，所述通过改进的基于密度的噪声应用空间聚类算法与改进的生成对抗网络对预处理后的入侵检测数据集进行样本扩充处理，得到扩充后的入侵检测数据集这一步骤，其具体包括：引入带权的曼哈顿距离，构建改进的基于密度的噪声应用空间聚类算法并对预处理后的入侵检测数据集进行计算处理，得到预处理后的入侵检测数据集对应的聚类簇和离群点；所述预处理后的入侵检测数据集中的聚类簇包括少数类簇样本与多数类簇样本；通过改进的生成对抗网络WGAN对预处理后的入侵检测数据集中的少数类簇样本进行过采样处理，通过Wasserstein距离度量WGAN中的生成器和判别器之间的距离，得到扩充的少数类簇样本；将扩充的少数类簇样本添加至预处理后的入侵检测数据集，得到扩充后的入侵检测数据集。3.根据权利要求2所述基于数据增强的卷积双向长短期记忆网络入侵检测方法，其特征在于，所述引入带权的曼哈顿距离，构建改进的基于密度的噪声应用空间聚类算法并对预处理后的入侵检测数据集进行计算处理，得到预处理后的入侵检测数据集对应的聚类簇和离群点这一步骤，其具体包括：对于预处理后的入侵检测数据集中的每一个特征，计算其与目标变量之间的Pearson相关系数，所述目标变量为攻击流量样本；对获取到的Pearson相关系数进行最小
‑
最大归一化处理并映射至[0,1]的范围内，得到归一化的相关系数；将归一化的相关系数作为预处理后的入侵检测数据集中的特征权重；基于预处理后的入侵检测数据集中的特征权重计算流量数据之间的加权曼哈顿距离，并对距离值大于预设阈值的流量数据进行舍弃，选取满足预设距离值的流量数据对应的距离值进行存储，得到距离矩阵；确定邻域半径，计算距离矩阵中处于邻域半径内的流量数据样本个数，若计算得到的流量数据样本个数大于或等于预设数目，定义该流量数据样本为核心点；
循环上述确定核心点步骤，直至遍历所有流量数据样本，将得到的核心点进行归类处理，得到聚类簇；对非核心点进行标记处理为噪声点，并归类为离群点。4.根据权利要求3所述基于数据增强的卷积双向长短期记忆网络入侵检测方法，其特征在于，所述通过随机森林算法结合皮尔逊相关系数分析对扩充后的入侵检测数据集进行特征选择处理后再进行特征提取处理，得到入侵检测数据集的特征向量这一步骤，其具体包括：对扩充后的入侵检测数据集进行选取，得到特征集与目标变量；计算特征集中每个特征与目标变量之间的皮尔逊系数，并按照取绝对值降序排序处理，得到排序序列；根据排序序列选择与目标变量相关性最强的前K个特征作为候选特征集，其中所述K为人为预设条件数；将候选特征集输入至随机森林模型进行训练，得到每个特征在随机森林模型中的重要性得分；选取重要性得分中最高的前N个特征作为最终的特征集对随机森林模型进行训练，并评估训练后的随机森林模型的性能；若所述训...

【专利技术属性】
技术研发人员：柳毅，刘东，巫朝平，谢嘉乐，黎阳，余家丽，毕玲滢，
申请(专利权)人：佳都科技集团股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人