当前位置: 首页 > 专利查询>长沙学院专利>正文

一种基于半监督学习的入侵检测方法技术

技术编号:16645167 阅读:91 留言:0更新日期:2017-11-26 18:11
本发明专利技术公开了一种基于半监督学习的入侵检测方法,实施步骤包括:选取初始包含带标签样本和待测试的未标记样本的混合样本集,计算特征空间中各个特征值的信息增益并完成基于信息熵的特征选择,然后基于信息熵的特征选择对带标签样本进行筛选,将筛选得到的新的训练数据用于基于LapSVM的分类器半监督训练,将完成训练的分类器对待测试的未标记样本进行分类,根据检测指标确定最佳的检测指标的评估值,并将最佳的检测指标的评估值对应的分类结果输出。本发明专利技术采用了特征选择的方法处理网络环境数据中容易出现的冗余现象,利用少量带标签样本与大量未标记的数据来创建半监督学习模型,在降低误报率、提高检测率的同时,能够减少数据冗余,提高检测效率。

An intrusion detection method based on semi supervised learning

The invention discloses a semi supervised intrusion detection method based on the implementation steps include: selecting the initial containing labeled samples and unlabeled samples to test the mixed sample set in the feature space, calculated the value of information gain and information entropy feature selection and feature selection based on information entropy of the labeled sample selection based on the new training data will be used for the LapSVM classifier based on semi supervised training, will complete the training classifier to test the unlabeled samples are classified according to the detection indicators to determine the optimal value of the evaluation indexes, and the evaluation indexes of optimal value corresponding to the classification result output. The invention adopts the feature selection algorithm is prone to the phenomenon of redundancy in the data processing of the network environment, to create a semi supervised learning model by using a small amount of labeled data and unlabeled data to reduce the false alarm rate and improve the detection rate and can reduce the data redundancy, improve the detection efficiency.

【技术实现步骤摘要】
一种基于半监督学习的入侵检测方法
本专利技术涉及网络安全领域的入侵检测技术,具体涉及一种基于半监督学习的入侵检测方法,用于完成对网络数据中的异常数据的分类识别
技术介绍
近年来,网络安全事件频发,网络安全问题引起了很多国家的高度关注。自1980年第一次公开的安全漏洞报告以来,网络攻击的方式和类型变得越来越复杂,使得网络攻击行为难以侦测。按照检测方法不同,入侵检测方法可以分为两类:基于误用的入侵检测和基于异常的入侵检测。经典的基于误用的检测方法依赖于攻击类型的已知特征,因此缺乏检测未知攻击的能力。相比之下,基于异常的方法建立系统正常状态的模型,通过对比系统状态的变化来实现入侵检测,因此能够实现对于未知攻击类型的检测。利用机器学习的技术实现入侵检测是一类有效的保护手段,并且越来越受到各个组织机构的重视。根据学习数据的类型,机器学习方法可以分为三类:监督学习,无监督学习和半监督学习。基于监督学习的入侵检测算法利用带标签样本构建正常状态和异常状态的模型,该方法的缺点是无法对先前未建模的行为进行分类,因此不能未知的攻击类型进行检测。并且,正确地标记大量的训练数据花费巨大,耗时严重。相比之下,无本文档来自技高网...
一种基于半监督学习的入侵检测方法

【技术保护点】
一种基于半监督学习的入侵检测方法,其特征在于实施步骤包括:1)选取初始包含带标签样本和待测试的未标记样本的混合样本集;2)针对混合样本集进行数据预处理,得到离散化的训练数据样本;3)基于离散化的训练数据样本计算特征空间中各个特征值的信息增益;4)对各个特征值的信息增益进行排序,根据预设的阈值将信息增益小于预设的阈值的特征将从特征空间中去除以完成信息熵的特征选择;5)基于信息熵的特征选择对带标签样本进行筛选,将筛选得到的新的训练数据用于基于LapSVM的分类器半监督训练;6)将完成半监督训练的分类器对待测试的未标记样本进行分类;7)计算入侵检测的检测指标的评估值;8)判断检测指标的评估值是否达到...

【技术特征摘要】
1.一种基于半监督学习的入侵检测方法,其特征在于实施步骤包括:1)选取初始包含带标签样本和待测试的未标记样本的混合样本集;2)针对混合样本集进行数据预处理,得到离散化的训练数据样本;3)基于离散化的训练数据样本计算特征空间中各个特征值的信息增益;4)对各个特征值的信息增益进行排序,根据预设的阈值将信息增益小于预设的阈值的特征将从特征空间中去除以完成信息熵的特征选择;5)基于信息熵的特征选择对带标签样本进行筛选,将筛选得到的新的训练数据用于基于LapSVM的分类器半监督训练;6)将完成半监督训练的分类器对待测试的未标记样本进行分类;7)计算入侵检测的检测指标的评估值;8)判断检测指标的评估值是否达到设定阈值,如果未达到设定阈值,则重新设定用于完成信息熵的特征选择的预设的阈值,跳转执行步骤4);否则,跳转执行步骤9);9)判断对对待测试的未标记样本进行分类的分类次数是否超出预设阈值,如果尚未预设阈值,则重新设定用于完成信息熵的特征选择的预设的阈值,跳转执行步骤4);否则,针对所有对待测试的未标记样本进行分类的检测指标确定最佳的检测指标的评估值,将最佳的检测指标的评估值对应的对带初始标签的训练数据样本进行分类的分类结果输出。2.根据权利要求1所述的基于半监督学习的入侵检测方法,其特征在于,步骤2)的详细步骤包括:2.1)针对混合样本集中的带标签样本,如果该带标签样本的网络连接记录是正常的网络连接记录则设网络连接记录的标签为1;否则如果是攻击类型则设网络连接记录的标签为-1;针对混合样本集中的未标记样本,设网络连接记录的标签为0;2.2)针对设置网络连接记录标签后的混合样本集,将所有样本的字符类型数据转换成数字类型,然后对于取值范围较大的数据类型进行归一化处理,最后将全部连续数据类型离散化处理,得到离散化的训练数据样本。3.根据权利要求1所述的基于半监督学习的入侵检测方法,其特征在于,步骤3)中计算各个特征值的信息增益的函数表达式如式(1)所示;式(1)中,IG(t)为特征值t的信息增益,m为特征总数,P(ci)为第i个特征值ci的出现频率,t和分别为特征值t的存在和不存在,P(t)为特征值t存在的概率,P(ci|t)为出现特征t时第i个特征值ci出现的概率,为特征值t不存在的概率,为不出现特征t时第i个特征值ci出现的概率。4.根据权利要求1所述的基于半监督学习的入侵检测方法,其特征在于,步骤5)的详细步骤包括:5.1)针对l个带标签样本、u个待测试的未标记样本,计算节点之间的欧氏距离,利用k最近邻方法构造l+u个节点的数据邻接图,数据邻接图中每一个节点xi分别通过边连接到它的k个最近邻,且边的权值Wij取值0或1;5.2)选择核函数K(x,y),利用核函数K(x,y)计算训练样本的格拉姆矩阵K;5.3)根据L=W-D计算拉普拉斯图的邻接图L,其中W为n维的邻接矩阵,D为n...

【专利技术属性】
技术研发人员:朱培栋张潇峰冯璐张毅刘欣刘光灿熊荫乔栾悉道陈威兵
申请(专利权)人:长沙学院
类型:发明
国别省市:湖南,43

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1