一种基于渐进式学习的集成分类方法技术

技术编号:20045852 阅读:38 留言:0更新日期:2019-01-09 04:27
本发明专利技术公开了一种基于渐进式学习的集成分类方法,同时对带噪音标签的高维数据的样本维和属性维进行数据挖掘,并结合渐进式学习原理,解决了学习训练中加入新数据后原数据信息丢失的问题;具体步骤为:(1)输入样本数据集;(2)产生训练样本的bootstrap分支集合;(3)生成分类器;(4)对样本进行分类;(5)选择第一个分类器;(6)选择渐进式分类器;(7)得到预测结果和分类准确率。本发明专利技术对高维数据样本维度和属性维度同时挖掘,构建一个强大的集成分类器;利用带有线性判别分析算法的渐进式集成学习算法提高对带噪音数据的分类能力;并将集成学习与渐进式学习相结合,提高了集成分类方法的准确性、稳定性和鲁棒性。

【技术实现步骤摘要】
一种基于渐进式学习的集成分类方法
本专利技术涉及计算机人工智能领域,具体涉及对带噪音标签的高维数据的样本维和属性维进行深度数据挖掘的渐进式集成分类方法。
技术介绍
集成学习作为机器学习的一个重要分支,应用于数据挖掘、智能交通系统、生物信息学、模式识别等领域,获得了越来越多研究者的关注。相对于单一分类器,集成学习方法可以集成不同情况下的多个分类器,成为一个统一的分类器。这类集成分类器具有稳定性、鲁棒性和高准确率的特点。总而言之,集成分类器由于出色的表现,已经成功地运用在不用的领域中。但是,传统的集成学习方法主要是把样本维和属性维分开来进行研究,并没有对其进行整体的研究。例如,Bagging算法只对样本维进行研究,而randomsubspace算法只对属性维进行研究。这种只考虑样本维度或者只考虑属性维度的方法,不足以构建一个强大的集成分类器,并对带噪音的样本进行处理。例如,在某些数据集中,具有特征的样式存在某些属性维中,但对于其他数据集,同样的特征样式不能起到相同的效果。另一方面,在机器学习中,对于模式识别分类器,比较有效的方法是使用大量训练集来提高分类器的鲁棒性和准确率。在这个思想下,任务的结果非常依赖于训练样本的质量。但是在很多的实际任务中,获取大量的、高质量的样本是非常困难的。因此,对于该类不常见的样本,一段时间可能只可以获取部分的数据。在这种情况下,当新每获得新的训练样本时,非常需要在不改变原来的分类器的基础上加入新的训练样本,从而在不费劲的情况下提高系统的有效性。从知识管理(KnowledgeManagemen,KM)角度来看,在不修改之前模型的基础上加入新的数据进行运算,会出现常见的鲁棒性与可塑性的悖论:当使用新数据覆盖原来数据进行训练时,新的数据可能会缺失原有的一些模式。该理论指出了一个完全稳定的分类器会保持着现有的特性,但并不适用于新信息;一个完全可塑动态的系统会一直学习新的数据,但是丢失了之前原有的信息量。比较常见的方法是把原来的训练数据和新数据组成新的训练集,重新训练新的分类器,去掉原来的旧的分类器。比较常见的算法有:KohonenNetworks、WaveletNetworks、RadialBasisFunctionnetworks和MultilayerPerceptron。这种方法的优点是能够较好的提高系统的稳定性,但去掉了系统之前已获得的知识。该问题在学术界上称之为灾难性失忆(catastrophicforgetting)。进一步说,该方法在很多场景下并不适用。
技术实现思路
本专利技术的目的是针对传统集成学习在分类器训练和集成方面的不足,提出了一种基于渐进式学习的集成分类方法,对高维数据的样本维和属性维同时进行深入挖掘,并科学应用了渐进式分类器选择算法和权值优化算法,大大地提高了算法的有效性,在实际的分类任务中获得了更好的分类准确率。本专利技术实现上述目的的基本思路是:首先,将高维数据集分为训练集和测试集,将该数据集平均分成5份,使用5倍交叉验证(5-foldscross-validation)来进行实验,通过改变训练集和测试集来验证模型对于不同数据集的泛化能力;然后,对训练集使用bootstrap方法进行样本维采样,得到B个bootstrap分支,并使用LDA线性判别分析方法对B个bootstrap分支训练分类器,生成各自的分类器;紧接着,新建一个集成分类器集合Γ(P),初始化为空,并从所生成的分类器中选取准确率最高的分支分类器作为第一个被选择的分类器,加入到Γ(P)中,在剩下的分类器中逐步选取后续加入后未使分类准确率降低的分支分类器加入到Γ(P)中,直到选取的分支数目达到预先设定的集成分类器集合的分支数目G,停止选择,同时输出选择好的集成分类器集合及各分类器分支对应的权重;最后,利用集成分类器集合及各分类器分支对应的加权投票结果对测试样本进行分类,得出最后的预测结果和分类准确率。本专利技术的目的可以具体通过如下技术方案实现:一种基于渐进式学习的集成分类方法,所述方法包括以下步骤:(1)输入样本数据集1a)输入一个待分类的带噪音标签的数据集X;1b)将该数据集平均分成5份;1c)将其中一份作为测试数据集Pe,剩下4份作为训练数据集Pr;(2)产生训练样本的bootstrap分支集合2a)确定统一化随机变量,在固定采样率下对原始训练数据集Pr随机采取样本下标;2b)使用有放回的采样,直至采样值大于样本下标值;2c)使用不同的采样率重复步骤2a)和步骤2b),挑选B次,得到B个bootstrap分支集合;(3)生成分类器3a)依次选取采样后的bootstrap分支集合,提取其中的训练样本数据;3b)确定所选分支分类器的线性判别分析目标函数,重复B次,得到B个bootstrap分支分类器;(4)对样本进行分类4a)选择其中一个bootstrap分支分类器;4b)在相应分支训练数据集中选取标签预测样本;4c)通过步骤3b)的目标函数,计算所选样本的最小风险值;4d)根据最小风险值对所选样本进行分类;4e)循环步骤4b)到4d),将所选bootstrap分支集中的所有训练样本都进行分类,得到该分支训练样本的预测结果集Lt,并计算其相应的分类准确率;4f)对每个bootstrap分支分类器依次执行步骤4a)到4e),得到B个分类器的预测结果集;(5)选择第一个分类器5a)新建一个集成分类器集合Γ(P),初始化为空;5b)初始化所有样本的权重,令其中表示样本的权重,i=1、2......l,l表示样本的数量;5c)根据每个bootstrap分支分类器的分类准确率,选取准确率最高的分支分类器作为第一个被选择的分类器;5d)计算第一个被选择分类器的权重;5e)将第一个被选择的分类器加入到集成分类器集合Γ(P)中;5f)更新所有训练样本的权重;(6)选择渐进式分类器6a)根据分类器损失函数,计算未被选入Γ(P)的集成分类器分支的损失函数值;6b)对未被选入Γ(P)的分类器按损失函数值由小到大进行排序;6c)依次选取排序好的分支分类器加入到集成分类器集合Γ(P)中,直到所加入新的分类器后集成分类器集合的损失函数值不大于原集成分类器集合的损失函数值,取该分类器作为步骤6f)中加入集成分类器集合Γ(P)的分类器;6d)计算新的集成分类器每个分支的误分类样本的带权重总和误差;6e)更新当前新增的分类器权重;6f)把最新的分类器加入到已选择的分类器集合中,生成最新的集成分类器集合;6g)在新的集成分类器集合的基础上更新已选择分类器的权重;6h)重复步骤6a)到6g)直到选取的分分类器支数目达到预先设定的分支数目G,停止迭代;6i)输出选择好的集成分类器集合ΓG及对应的权重;(7)得到预测结果和分类准确率7a)将步骤1c)中分割出来的1份测试数据集Pe作为该分类器的输入数据的属性维;7b)选择其中一个输入测试数据xi进行标签类别预测;7c)使用各分支分类器对xi进行分类,得出每个分支对样本的预测标签;7d)对步骤7c)得到的各分支标签类别预测进行带权重的投票,获得最后的预测结果;7e)依次对测试集中的每个数据进行步骤7b)到7d)的标签类别预测,得到集成分类器集合对测试数据集的分类结果,即集成分类器集合的预测标签本文档来自技高网
...

【技术保护点】
1.一种基于渐进式学习的集成分类方法,其特征在于,所述方法包括以下步骤:(1)输入样本数据集1a)输入一个待分类的带噪音标签的数据集X;1b)将该数据集平均分成5份;1c)将其中一份作为测试数据集Pe,剩下4份作为训练数据集Pr;(2)产生训练样本的bootstrap分支集合2a)确定统一化随机变量,在固定采样率下对原始训练数据集Pr随机采取样本下标;2b)使用有放回的采样,直至采样值大于样本下标值;2c)使用不同的采样率重复步骤2a)和步骤2b),挑选B次,得到B个bootstrap分支集合;(3)生成分类器3a)依次选取采样后的bootstrap分支集合,提取其中的训练样本数据;3b)确定所选分支分类器的线性判别分析目标函数,重复B次,得到B个bootstrap分支分类器;(4)对样本进行分类4a)选择其中一个bootstrap分支分类器;4b)在相应分支训练数据集中选取标签预测样本;4c)通过步骤3b)的目标函数,计算所选样本的最小风险值;4d)根据最小风险值对所选样本进行分类;4e)循环步骤4b)到4d),将所选bootstrap分支集中的所有训练样本都进行分类,得到该分支训练样本的预测结果集Lt,并计算其相应的分类准确率;4f)对每个bootstrap分支分类器依次执行步骤4a)到4e),得到B个分类器的预测结果集;(5)选择第一个分类器5a)新建一个集成分类器集合Γ(P),初始化为空;5b)初始化所有样本的权重,令...

【技术特征摘要】
1.一种基于渐进式学习的集成分类方法,其特征在于,所述方法包括以下步骤:(1)输入样本数据集1a)输入一个待分类的带噪音标签的数据集X;1b)将该数据集平均分成5份;1c)将其中一份作为测试数据集Pe,剩下4份作为训练数据集Pr;(2)产生训练样本的bootstrap分支集合2a)确定统一化随机变量,在固定采样率下对原始训练数据集Pr随机采取样本下标;2b)使用有放回的采样,直至采样值大于样本下标值;2c)使用不同的采样率重复步骤2a)和步骤2b),挑选B次,得到B个bootstrap分支集合;(3)生成分类器3a)依次选取采样后的bootstrap分支集合,提取其中的训练样本数据;3b)确定所选分支分类器的线性判别分析目标函数,重复B次,得到B个bootstrap分支分类器;(4)对样本进行分类4a)选择其中一个bootstrap分支分类器;4b)在相应分支训练数据集中选取标签预测样本;4c)通过步骤3b)的目标函数,计算所选样本的最小风险值;4d)根据最小风险值对所选样本进行分类;4e)循环步骤4b)到4d),将所选bootstrap分支集中的所有训练样本都进行分类,得到该分支训练样本的预测结果集Lt,并计算其相应的分类准确率;4f)对每个bootstrap分支分类器依次执行步骤4a)到4e),得到B个分类器的预测结果集;(5)选择第一个分类器5a)新建一个集成分类器集合Γ(P),初始化为空;5b)初始化所有样本的权重,令其中表示样本的权重,i=1、2......l,l表示样本的数量;5c)根据每个bootstrap分支分类器的分类准确率,选取准确率最高的分支分类器作为第一个被选择的分类器;5d)计算第一个被选择分类器的权重;5e)将第一个被选择的分类器加入到集成分类器集合Γ(P)中;5f)更新所有训练样本的权重;(6)选择渐进式分类器6a)根据分类器损失函数,计算未被选入Γ(P)的集成分类器分支的损失函数值;6b)对未被选入Γ(P)的分类器按损失函数值由小到大进行排序;6c)依次选取排序好的分支分类器加入到集成分类器集合Γ(P)中,直到所加入新的分类器后集成分类器集合的损失函数值不大于原集成分类器集合的损失函数值,取该分类器作为步骤6f)中加入集成分类器集合Γ(P)的分类器;6d)计算新的集成分类器每个分支的误分类样本的带权重总和误差;6e)更新当前新增的分类器权重;6f)把最新的分类器加入到已选择的分类器集合中,生成最新的集成分类器集合;6g)在新的集成分类器集合的基础上更新已选择分类器的权重;6h)重复步骤6a)到6g)直到选取的分分类器支数目达到预先设定的分支数目G,停止迭代;6i)输出选择好的集成分类器集合Γc及对应的权重;(7)得到预测结果和分类准确率7a)将步骤1c)中分割出来的1份测试数据集Pe作为该分类器的输入数据的属性维;7b)选择其中一个输入测试数据xi进行标签类别预测;7c)使用各分支分类器对xi进行分类,得出每个分支对样本的预测标签;7d)对步骤7c)得到的各分支标签类别预测进行带权重的投票,获得最后的预测结果;7e)依次对测试集中的每个数据进行步骤7b)到7d)的标签类别预测,得到集成分类器集合对测试数据集的分类结果,即集成分类器集合的预测标签集Lensemble;7f)将集成分类器集合的预测标签集Lensemble与测试数据真实标签集Ltrue进行比较,计算相应的分类准确率。2.根据权利要求1所述的基于渐进式学习的集成分类方法,其特征在于,步骤2a)所描述的随机采取样本下标步骤是,每一轮bootstrap分支集合采样使用有放回的采样,共进行B次,每次挑选出个训练样本,其中采样率为有:τ1∈[0,1]为统一化随机变量,该方法根据训练样本pi下标来进行随机的一个一个样本抽取,具体的采样下标为:m=[1+τ2l]其中m为挑选出来的训练样本的下标,τ2∈[0,1]为统一化随机变量,l表示样本的数量。3.根据权利要求1所述的基于渐进式学习的集成分类方法,其特征在于,步骤3b)所描述的确定分支分类器的线性判别分析目标函数的步骤是,把步骤3a)中选择的每个bootstrap分支单独作为一个训练集,使用线性判别分析算法,通过寻找一个子空间,使得类内距离最小化,类间距离最大化,尽可能地保存标签信息,从而生成独立的分类器线性判别分析的目标函数为:Ξb表示目标函数,K表示标签的数目总和,Λ(k|pb)表示在bootstrap分支Ob中的样本pb的标签k的先验概率函数,γ(yb|k)为样本分类结果的损失函数,其中k为真实标签,yb为预测标签,并当样本被正确分类时,有γ(yb|k)=0,否则γ(yb|k)=1;目标函数中Λ(k|pb)的计算方式为:其中,上式中的和∑k分别为bootstrap分支Ob中每个标签k的均值与协方差矩阵,|∑k|与为∑k的行列式与逆矩阵,Λ(pb)为一个标准化的常数,Λ(k)为第k类训练样本数目与Ob分支中所有样本数目的比值。4.根据权利要求1所述的基于渐进式学习的集成分类方法,其特征在于,步骤5d)计算第一个被选择分类器的权重的步骤是,根据每个样本的初始权重和错误函数值,计算样本的带权重...

【专利技术属性】
技术研发人员:余志文陈伟宏赵卓雄
申请(专利权)人:华南理工大学
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1