当前位置: 首页 > 专利查询>天津大学专利>正文

一种基于部分深度学习理论的入侵检测方法技术

技术编号:26690618 阅读:14 留言:0更新日期:2020-12-12 02:41
本发明专利技术涉及一种利用部分深度学习理论检测网络数据的入侵检测方法,包括以下步骤:准备数据集:选取经过预处理后的训练数据集和测试数据集;建立CNN并训练CNN,利用经过预处理后的训练数据集训练CNN;建立决策树DT,利用第一步的经过预处理后的训练数据集来训练DT,以实现对测试数据进行第一次二分类;主成分分析法PCA降维处理:对于DT分类后结果为正常数据的测试数据,引入PCA对数据进行降维处理;对经过PCA降维处理的正常数据的测试数据,再利用已经训练好的DNN进行第二次二分类。

【技术实现步骤摘要】
一种基于部分深度学习理论的入侵检测方法
本专利技术属于深度学习与网络安全领域,特别是涉及一种利用部分深度学习理论检测网络数据的入侵检测方法。
技术介绍
伴随着时代的不断进步,互联互通的网络使人们的生活更加便利,购物出行所需要的仅仅是一部可以联网的手机。这种便利的代价却是几乎每个人的身份信息、社会关系、个人财产都牢牢地与网络绑定在一起,在将网络作为社会交互的桥梁的同时所需要思考的一个问题就是“桥梁”的稳固性,也即网络的安全问题。通信系统与网络入口时时刻刻都面临着来自于外部甚至于其系统内部的网络攻击,且不似网络未成熟时期的单一攻击,如今的绝大多数入侵行为种类多样并且呈混合态势发展,防御起来愈发困难。当今入侵检测领域作为一个重要领域,虚警率高、检测率低、处理速度慢、特征维度高等问题在困扰着从事这一领域的专家学者。机器学习作为近几年非常热门的一种算法工具,理所应当的有专家学者尝试其在入侵检测方面的应用。Thaseen[1]等人提出利用主成分分析PCA降维后用支持向量机来检测入侵,虽然检测速度较快,但是整体准确率较差。丁龙斌[2]等人利用集成深度森林EDF来进行入侵检测,检测速度较快,但检测精度较低。刘敬浩[3]等人提出了一种基于独立成分分析ICA与深度神经网络DNN的入侵检测模型ICA-DNN,入侵检测与深度学习方法的结合赋予了该模型更好的特征学习能力和更精确的分类能力,但是该模型预测时间并未进行具体评估,模型实时性较差。考虑到上述方法中的检测精度与检测速度二者不可得兼的问题,本专利技术提出一种结合多种深度学习理论的入侵检测方法,能够在实现相对高的检测率的同时具有更加迅速的检测速度,有效解决了入侵检测的实时性问题。参考文献:[1]Thaseen,Sumaiya.ImprovingAccuracyofIntrusionDetec-tionModelUsingPCAandoptimizedSVM[J].JournalofComputingandInformationTechnology.2016,24:133-148[2]丁龙斌,伍忠东,苏佳丽.基于集成深度森林的入侵检测方法[J].计算机工程,2020,46(3):144-150[3]刘敬浩,毛思平,付晓梅.基于ICA算法与深度神经网络的入侵检测模型[J].信息网络安全,2019,(03):1-10
技术实现思路
本专利技术提供了一种基于部分深度学习理论的入侵检测方法,在保障检测准确率的基础上极大提升了训练以及检测速度,技术方案如下:一种利用部分深度学习理论检测网络数据的入侵检测方法,包括以下步骤:第一步,准备数据集:采用用于入侵检测的NSL-KDD数据集,数据包含41种特征,分为TCP连接基本特征、主机上的操作特征、基于时间的网络流量统计特征、基于主机的网络流量统计特征这四个大特征类,首先按照其数据集自带标签将其标定为入侵数据或者正常数据,其次将数据集的字符串值按照其特征转换为计算机可识别的离散值或连续值;之后进行数据集预处理,先将连续数据归一化,其次对离散取值的数据进行编码,离散取值的数据使用one-hot编码;选取经过预处理后的训练数据集和测试数据集;第二步,建立CNN并训练CNN,利用经过预处理后的训练数据集训练CNN,利用DNN反向传播算法计算出隐藏层与输出层的线性关系系数矩阵和偏倚向量后,完成DNN的训练,训练中采用神经网络计算过程的ReLU激活函数以及收敛速度更快的adam优化算法;第三步,建立决策树DT,利用第一步的经过预处理后的训练数据集来训练DT,以实现对测试数据进行第一次二分类,DT选用以信息增益为分裂特征的ID3算法,分类结果包括正常数据的测试数据和入侵数据的测试数据;用PCA降维后利用DNN二次分类,分类结果为入侵数据的数据直接判定为入侵数据;DT的深度不宜过深,以防止数据分类错误后影响最终准确率;第四步,主成分分析法PCA降维处理:对于DT分类后结果为正常数据的测试数据,引入PCA对数据进行降维处理,由此降低数据特征维度之间的相关性与数据冗余度,训练数据进行白化使其特征之间的相关性减低并且所有特征具有相同的方差;第五步,对经过PCA降维处理的正常数据的测试数据,再利用已经训练好的DNN进行第二次二分类。第六步,对测试数据进行检测:用训练过后的DT对预处理后的测试数据集初次分类,将易于筛选的数据筛选出来,DT检测为入侵的数据添加入侵标签并存入临时训练样本,检测为正常数据的测试数据进行降维处理,DNN对PCA降维处理后正常数据进行分类,分类结果不论是否为入侵,皆添加相应标签后存入临时训练样本,由于入侵检测过程是逐条数据进行的,在检测过程中将测试数据集的原本数据类型与所对应数据所添加标签的比对结果进行量化,量化值累积到设定阈值后利用刚才积累的数据对DT以及DNN做一次再训练微调。本专利技术首先利用决策树DT对数据初步分类以缩小整体数据量达到加快处理速度的目的,判别为入侵的数据存入临时样本集以优化DT以及深度神经网络DNN,判别为正常的数据用主成分分析PCA进行降低数据维度后DNN进行二次处理,实现相对高的检测率的同时具有更加迅速的检测速度的目标。附图说明图1为本专利技术提供的一种入侵检测方法的流程图图2为本专利技术测试结果与其他方法的检测精度与检测速度的对比图具体实施方式为使本专利技术的技术方案更加清楚,下面结合附图对本专利技术做进一步阐述。本专利技术提供了一种利用部分深度学习理论检测网络数据的入侵检测方法。具体实现步骤如下:第一步,准备数据集:(1)准备训练与测试所需数据。本专利技术所用数据集未经预处理的用于入侵检测的NSL-KDD数据集。数据集训练集共有125937条数据,测试集共有数据22544条。有41种特征,分为TCP连接基本特征、主机上的操作特征、基于时间的网络流量统计特征、基于主机的网络流量统计特征这四个大特征类。首先按照其数据集自带标签将其标定为入侵数据或者正常数据,其次将数据集的字符串值按照其特征转换为计算机可识别的离散值或连续值。(2)数据集预处理,先将连续数据归一化,其次对离散取值的数据进行编码。离散取值的数据使用one-hot编码后,数据维度由41上升至122。优选地,连续数据归一化采用如下具体形式:数据集中有条m数据,每条数据都有n维特征,则式中x为归一化前第i条数据的第j维特征值,min为归一化前这m条数据第j维特征中的最小值,max为归一化前这m条数据第j维特征中的最大值,x*为归一化后第i条数据的第j维特征值。第二步,模型训练:(1)建立决策树DT。用经过预处理后的训练数据集来训练DT。DT的功能是对测试数据进行第一次二分类,分类结果为正常数据的数据用PCA降维后利用DNN二次分类,分类结果为入侵数据的数据直接判定为入侵数据。由于DT的作用并不是尽可能多地识别出入侵数据,而是在尽可能少地将正常数据误判为入侵数据,所以选用浅层结构以防止过多正本文档来自技高网
...

【技术保护点】
1.一种利用部分深度学习理论检测网络数据的入侵检测方法,包括以下步骤:/n第一步,准备数据集:/n采用用于入侵检测的NSL-KDD数据集,数据包含41种特征,分为TCP连接基本特征、主机上的操作特征、基于时间的网络流量统计特征、基于主机的网络流量统计特征这四个大特征类,首先按照其数据集自带标签将其标定为入侵数据或者正常数据,其次将数据集的字符串值按照其特征转换为计算机可识别的离散值或连续值;之后进行数据集预处理,先将连续数据归一化,其次对离散取值的数据进行编码,离散取值的数据使用one-hot编码;选取经过预处理后的训练数据集和测试数据集;/n第二步,建立CNN并训练CNN,利用经过预处理后的训练数据集训练CNN,利用DNN反向传播算法计算出隐藏层与输出层的线性关系系数矩阵和偏倚向量后,完成DNN的训练,训练中采用神经网络计算过程的ReLU激活函数以及收敛速度更快的adam优化算法;/n第三步,建立决策树DT,利用第一步的经过预处理后的训练数据集来训练DT,以实现对测试数据进行第一次二分类,DT选用以信息增益为分裂特征的ID3算法,分类结果包括正常数据的测试数据和入侵数据的测试数据;用PCA降维后利用DNN二次分类,分类结果为入侵数据的数据直接判定为入侵数据;DT的深度不宜过深,以防止数据分类错误后影响最终准确率;/n第四步,主成分分析法PCA降维处理:对于DT分类后结果为正常数据的测试数据,引入PCA对数据进行降维处理,由此降低数据特征维度之间的相关性与数据冗余度,训练数据进行白化使其特征之间的相关性减低并且所有特征具有相同的方差;/n第五步,对经过PCA降维处理的正常数据的测试数据,再利用已经训练好的DNN进行第二次二分类。/n第六步,对测试数据进行检测:用训练过后的DT对预处理后的测试数据集初次分类,将易于筛选的数据筛选出来,DT检测为入侵的数据添加入侵标签并存入临时训练样本,检测为正常数据的测试数据进行降维处理,DNN对PCA降维处理后正常数据进行分类,分类结果不论是否为入侵,皆添加相应标签后存入临时训练样本,由于入侵检测过程是逐条数据进行的,在检测过程中将测试数据集的原本数据类型与所对应数据所添加标签的比对结果进行量化,量化值累积到设定阈值后利用刚才积累的数据对DT以及DNN做一次再训练微调。/n...

【技术特征摘要】
1.一种利用部分深度学习理论检测网络数据的入侵检测方法,包括以下步骤:
第一步,准备数据集:
采用用于入侵检测的NSL-KDD数据集,数据包含41种特征,分为TCP连接基本特征、主机上的操作特征、基于时间的网络流量统计特征、基于主机的网络流量统计特征这四个大特征类,首先按照其数据集自带标签将其标定为入侵数据或者正常数据,其次将数据集的字符串值按照其特征转换为计算机可识别的离散值或连续值;之后进行数据集预处理,先将连续数据归一化,其次对离散取值的数据进行编码,离散取值的数据使用one-hot编码;选取经过预处理后的训练数据集和测试数据集;
第二步,建立CNN并训练CNN,利用经过预处理后的训练数据集训练CNN,利用DNN反向传播算法计算出隐藏层与输出层的线性关系系数矩阵和偏倚向量后,完成DNN的训练,训练中采用神经网络计算过程的ReLU激活函数以及收敛速度更快的adam优化算法;
第三步,建立决策树DT,利用第一步的经过预处理后的训练数据集来训练DT,以实现对测试数据进行第一次二分类,DT选用以信息增益为分裂特征的ID3算法,分类结果包括正常数据...

【专利技术属性】
技术研发人员:武晓栋刘敬浩
申请(专利权)人:天津大学
类型:发明
国别省市:天津;12

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1