一种融合多分类器投票策略的主动学习方法技术

技术编号:34805328 阅读:39 留言:0更新日期:2022-09-03 20:12
本发明专利技术涉及入侵检测技术领域,具体是一种融合多分类器投票策略的主动学习方法。包括采用多分类器协同投票机制实现无标签样本的标注,将整个样本集分成带标签样本集L和无标签样本集U,利用K

【技术实现步骤摘要】
一种融合多分类器投票策略的主动学习方法


[0001]本专利技术涉及入侵检测
,具体是一种融合多分类器投票策略的主动学习方法。

技术介绍

[0002]入侵检测的本质是分类问题,其存在的问题有:一方面,各类算法自有其优缺点,如一些算法可能对某一攻击类型来说效果不错,但对其他类型攻击的检测效果不佳;另一方面,许多研究专注于提高整体的检测精度,而对小样本(攻击样本)的检测效果不佳。但实际上,考虑到攻击样本相对正常样本极端不平衡的情况,更应该关注入侵检测分类器对攻击样本的检测能力。而如何解决小样本情况下的入侵检测:通常有两种情况:情况一:正常样本远远大于攻击样本情况下的建模问题;情况二:有标签的样本数量非常稀少,而无标签的样本非常丰富,如何利用这两类样本建模。
[0003]①
半监督直推式支持向量机
[0004]直推式支持向量机(TransductiveSupportVectorMachine,TSVM)是基于低密度分割假设的最大间隔分类方法。与传统的支持向量机非常类似,它寻找具有最大间隔的分类超平面作为最优分类超平面,同时本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种融合多分类器投票策略的主动学习方法,其特征在于:包括采用多分类器协同投票机制实现无标签样本的标注,将整个样本集分成带标签样本集L和无标签样本集U,利用K

Means聚类算法对初始训练集进行聚类,选择需要标注的样本,将标注后的样本加入到对应的分类器中,并进一步迭代训练,确定迭代终止条件,最后基于多分类器协同标注的TSVM算法,得到最终分类器TSVM。2.根据权利要求1所述的融合多分类器投票策略的主动学习方法,其特征在于:其具体步骤为:步骤一:将带标签的样本集L采用K

Means算法进行聚类,并按照一定比例从每个聚类中抽取样本,构成n个子训练集,记为:L1,L2,L,L
n
;步骤二:采用SVM算法训练n个训练子集,得到n个初始分类器:C1,C2,L,C
n
;步骤三:将无标签样本输入C1,C2,L,C
n
,这n个初始分类器,得到n个输出结果:f
1i
,L,步骤四:对于任意无标签样本x
j
,若n个分类的分类结果满足公式(1)那么将其标注为正类;若n个分类的分类结果满足公式(2),那么将其标注为负类;步骤五:若当前xj的标注类别与前期标注的类别不一致,那么需要重置标注,并将其从对应的训练集中删除;若当前标注的类别与前期一致,的值与前期的不一致,那么将该样本加入到L
j
中;若前期没有对该样本进行标注,那么求满足的j,并把样本加入到L
j
中;否则停止迭代,并跳转到步骤八;步骤六:重复执行步骤四和步骤五,直到标注完所有无标签样本;步骤七:在得到新的训练子集后,重新训练这些新的子训练集,并得到新的分类器:C
1新
,C
2新
,L,C
n新
,若存在上一轮与这一轮子训练集没有改变的情况,那么对应的训练还需继续使用上一轮的分类器,然后跳转到步骤三;步骤八:汇总各个训练子集构成最终的训练集,然后重新训练样本集并得到最终的分类器。3.根据权利要求1所述的融合多分类器投票策略的主动学习方法,其特征在于:所述多分类器协同投票机制实现无标签样本的标注方法,具体包括:首先,对于有标签的样本集采用聚类后按照比例从每个簇中抽取一定数量的样本构成n(n为奇数,且大于1)个子样本集,作为训练集;其次,根据n个训练集训练得到n个初始分类器C1,C2,

,C
n
,然后利用这n个分类器对每个无标签样本进行预测,得到输出f1,f2,

,f
n...

【专利技术属性】
技术研发人员:郭东升杨挺韩宇佳樊继刚杨萍
申请(专利权)人:贵州华谊联盛科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1