一种基于模糊度和集成学习的网络入侵检测方法技术

技术编号:20369883 阅读:27 留言:0更新日期:2019-02-16 20:03
本发明专利技术公开了一种基于模糊度和集成学习的网络入侵检测方法,包括以下步骤;S1、从原始流量数据中提取出能够反映流量特性的基本特征数据;S2、对提取的基本特征数据进行预处理;S3、将预处理后的基本特征数据作为训练样本集,并通过多次随机划分训练样本集,得到若干个训练样本子集;S4、根据每个训练样本子集中的数据,采用基于模糊度的半监督ELM算法构建并训练若干个基分类器;S5、采用集成算法对所有训练好的基分类器进行结合,得到最终的入侵检测模型,进行网络入侵检测。本发明专利技术方法解决了现有技术中构建模型的训练时间过长和无法很好地适应新类型的攻击检测等问题,本发明专利技术方法能够进行快速训练,提高对新类型攻击的识别能力。

A network intrusion detection method based on Fuzziness and ensemble learning

The invention discloses a network intrusion detection method based on Fuzziness and ensemble learning, which includes the following steps: S1, extracting basic characteristic data reflecting traffic characteristics from original traffic data; S2, preprocessing the extracted basic characteristic data; S3, taking the preprocessed basic characteristic data as training sample set, and dividing training samples randomly through multiple times. Fourthly, according to the data of each training sample subset, a semi-supervised ELM algorithm based on fuzziness is used to construct and train several base classifiers. Fifthly, all the trained base classifiers are combined with the ensemble algorithm to get the final intrusion detection model for network intrusion detection. The method of the invention solves the problems of too long training time for building models in the prior art and not being able to adapt well to the detection of new types of attacks. The method of the invention can carry out rapid training and improve the recognition ability of new types of attacks.

【技术实现步骤摘要】
一种基于模糊度和集成学习的网络入侵检测方法
本专利技术属于网络入侵检测
,具体涉及一种基于模糊度和集成学习的网络入侵检测方法。
技术介绍
互联网作为当代科技的代表产物,它的出现开启了人类社会的新时代。互联网的普及和应用也促进了人类生活各个方面的发展,比如金融,教育、医疗等等。随着互联网用户的日益增多,网络安全问题受到越来越多的关注,尤其是近年来各种网络攻击的频繁,使得建立一个安全可靠的网络环境显得尤为重要。为了有效地检测和防御网络攻击,人们提出了入侵检测系统(IDS)的概念。入侵检测系统通过实时地监视和分析网络中的相关信息,来检测是否存在异常的或者恶意的行为,从而提供主动预警和防护的功能。根据检测原理的不同,目前的网络入侵检测方法大体上分为两类:基于误用(misuse)的网络入侵检测和基于异常(anomaly)的网络入侵检测。基于误用的网络入侵检测通过收集已知攻击和异常行为的特征,建立相应的特征库,当网络中采集的数据与特征库中的数据匹配的时候,就将该行为判定为入侵。这种方法可以准确地识别已知攻击类型,但无法检测到新类型的攻击行为,缺乏良好的泛化能力。基于异常的网络入侵检测则是总结正常行为的特征,当检测到的网络行为与正常行为存在较大偏差的时候,就认为发生了入侵。尽管该方法在一定程度上能够检测到新类型的攻击,但误检率却比较高,且无法描述入侵行为的类别。随着人工智能的兴起,机器学习技术也逐渐应用到了入侵检测系统中。就模型的训练方式而言,使用较多的主要有监督学习(supervisedlearning)和无监督学习(unsupervisedlearning)两种。监督学习使用的训练样本全部是已标记样本,即输入与输出的关系是已知的,根据这种已知关系从而训练一个最优模型。无监督学习则恰好相反,它使用的训练样本均为未标记样本,由模型自身去挖掘数据中的关系。这两种学习方式都存在一定的缺陷:采用监督学习训练的模型无法很好的适应新类型的任务,且对样本进行标记需要耗费大量的精力;无监督学习对训练数据的分布要求比较苛刻,如果分布不平衡,所学习到的模型性能就会特别的差。为了克服上述学习方式的不足,半监督学习(semi-supervisedlearning)应运而生。顾名思义,半监督学习介于监督学习与无监督学习之间,它通过少量的标记样本和大量的未标记样本进行模型的训练,使用半监督学习既减少了标记样本的开销,也能带来比较高的准确性。在现有技术中,针对使用单个分类器进行入侵检测存在局限性的问题,已有相关研究利用集成学习(ensemblelearning)来提高入侵检测系统的精度。常用的集成学习算法包括Boosting和Bagging,其中Boosting先从初始训练集训练出一个基学习器,再根据基学习器的表现对训练样本分布进行调整,使得先前基学习器做错的训练样本在后续受到更多关注,然后基于调整后的样本分布来训练下一个基学习器,如此重复进行,直至基学习器数目达到预定义的值,最终将所有的基学习器进行加权结合;而Bagging则是通过对训练集进行多次采样生成多个不同的训练子集,然后由不同的子集训练生成不同的基学习器,最后使用诸如投票的策略对基学习器进行结合。上述现有技术的缺点在于,(1)利用Boosting构建的模型准确度一般都比较高,但是容易发生过拟合问题;而且由于基分类器是串行生成的,所以Boosting的时间复杂度通常会比较大,这与入侵检测系统所要求的高实时性和快速更新的原则不符。(2)对于Bagging构建的网络入侵检测系统,在基分类器结果的组合策略上使用较多的是多数投票(相对多数投票和绝对多数投票)和加权投票,这两种策略对基分类器的要求比较高,如果基分类器本身的性能就不好且基分类器之间的差异性不够大,那么就无法实现由弱分类器构建强分类器的集成效果。在实际应用中,获取高性能基学习器的成本较高,无法适用于大规模入侵检测系统的构建。
技术实现思路
针对现有技术中的上述不足,本专利技术提供的基于模糊度和集成学习的网络入侵检测方法解决了现有技术中构建模型的训练时间过长和无法很好的适应新类型的攻击检测的问题。为了达到上述专利技术目的,本专利技术采用的技术方案为:一种基于模糊度和集成学习的网络入侵检测方法,包括以下步骤;S1、从原始流量数据中提取出能够反映流量特性的基本特征数据;S2、对提取的基本特征数据进行预处理;S3、将预处理后的基本特征数据作为训练样本集,并通过多次随机划分训练样本集,得到若干个训练样本子集;S4、根据每个训练样本子集中的数据,采用基于模糊度的半监督ELM算法构建并训练若干个基分类器;S5、采用集成算法对所有训练好的基分类器进行结合,得到最终的入侵检测模型,进行网络入侵检测。进一步地,所述步骤S1中的基本特征数据包括TCP连接的基本特征数据、TCP连接的内容特征数据、基于时间的网络流量统计特征数据和基于主机的网络流量统计特征数据。进一步地,所述步骤S2中,提取的基本特征数据的特征类型包括连续数值型特征数据、离散数值型特征数据和符号型特征数据;所述TCP连接的基本特征数据、TCP连接的内容特征数据、基于时间的网络流量统计特征数据和基于主机的网络流量统计特征数据中的数据至少对应一种特征类型。其中,进行预处理包括特征数据类型转换和归一化处理。进一步地,所述步骤S3中通过设定多个不同的随机数种子,对训练样本集进行多次重复次划分,且每次划分后的训练样本子集中均包括10%的标记数据和90%的未标记数据。进一步地,所述步骤S4中半监督ELM算法实现的过程具体为:S41、随机生成隐藏层神经元的输入权重Wi和偏置bi;其中,i=1,2,…,L,L为隐层神经元的个数;S42、使用激活函数计算隐层神经元的输出矩阵H;S43、根据隐层神经元的输出矩阵H和期望输出矩阵O,确定输出权重矩阵β。进一步地,所述步骤S43中,确定输出权重矩阵β的公式为:β=(HTH)-1HTO其中,上标T为转置操作运算符;O为期望输出矩阵。进一步地,所述步骤S4中训练一个基分类器的方法具体为:A1、利用半监督ELM算法和标记数据训练一个初始分类模型;A2、将训练样本子集中的未标记数据输入到初始分类模型中,得到未标记数据的隶属度向量及其分类结果;A3、根据未标记数据的隶属度向量,确定未标记数据的模糊度;A4、设定一个模糊度阈值,并将模糊度大于模糊度阈值所对应的未标记数据及其对应的分类结果入加入到10%的标记数据中,形成该训练子集对应的新的训练集;将未标记数据的模糊度小于模糊度阈值未标记数据删除;A5、利用新的训练集对初始分类模型进行再训练,得到一个训练好的基分类器。进一步地,所述步骤S5中在对网络入侵进行检测时,入侵检测模型中只要有一个基分类器的判定结果为异常,则最终的判定结果就为异常。本专利技术的有益效果为:(1)基分类器采用ELM算法构建,ELM与传统的神经网络相比,尤其是单隐层前馈神经网络,在保证学习精度的前提下比传统的算法学习速度更快,这使得本专利技术所提出的网络入侵检测模型可以大大缩短训练时间。(2)本专利技术采用了基于模糊度的半监督学习方式,弥补了监督学习标记样本开销过大和无监督学习精度较低的不足,同时模糊度概念的引入增强了分类器的泛化性能,能有效检测出新类型的攻击。(3)与本文档来自技高网
...

【技术保护点】
1.一种基于模糊度和集成学习的网络入侵检测方法,其特征在于,包括以下步骤;S1、从原始流量数据中提取出能够反映流量特性的基本特征数据;S2、对提取的基本特征数据进行预处理;S3、将预处理后的基本特征数据作为训练样本集,并通过多次随机划分训练样本集,得到若干个训练样本子集;S4、根据每个训练样本子集中的数据,采用基于模糊度的半监督ELM算法构建并训练若干个基分类器;S5、采用集成算法对所有训练好的基分类器进行结合,得到最终的入侵检测模型,进行网络入侵检测。

【技术特征摘要】
1.一种基于模糊度和集成学习的网络入侵检测方法,其特征在于,包括以下步骤;S1、从原始流量数据中提取出能够反映流量特性的基本特征数据;S2、对提取的基本特征数据进行预处理;S3、将预处理后的基本特征数据作为训练样本集,并通过多次随机划分训练样本集,得到若干个训练样本子集;S4、根据每个训练样本子集中的数据,采用基于模糊度的半监督ELM算法构建并训练若干个基分类器;S5、采用集成算法对所有训练好的基分类器进行结合,得到最终的入侵检测模型,进行网络入侵检测。2.根据权利要求1所述的基于模糊度和集成学习的网络入侵检测方法,其特征在于,所述步骤S1中的基本特征数据包括TCP连接的基本特征数据、TCP连接的内容特征数据、基于时间的网络流量统计特征数据和基于主机的网络流量统计特征数据。3.根据权利要求2所述的基于模糊度和集成学习的网络入侵检测方法,其特征在于,所述步骤S2中,提取的基本特征数据的特征类型包括连续数值型特征数据、离散数值型特征数据和符号型特征数据;所述TCP连接的基本特征数据、TCP连接的内容特征数据、基于时间的网络流量统计特征数据和基于主机的网络流量统计特征数据中的数据至少对应一种特征类型。其中,进行预处理包括特征数据类型转换和归一化处理。4.根据权利要求1所述基于模糊度和集成学习的网络入侵检测方法,其特征在于,所述步骤S3中通过设定多个不同的随机数种子,对训练样本集进行多次重复次划分,且每次划分后的训练样本子集中均包括10%的标记数据和90%的未标记数据。5.根据权利要求4所述的...

【专利技术属性】
技术研发人员:廖丹陈锐张良嵩金海焱李慧
申请(专利权)人:电子科技大学电子科技大学成都研究院
类型:发明
国别省市:四川,51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1