递减子空间集成学习算法制造技术

技术编号:9765764 阅读:212 留言:0更新日期:2014-03-15 10:32
本发明专利技术提供了一种新的不断以子样本集进行进程学习的算法,属于数据挖掘领域。本发明专利技术是借鉴boosting算法思想产生的递减子空间集成学习算法。在一次分类过程中,本发明专利技术通过对原始数据进行筛选,使下一层分类器更好的排除一些不必要的训练数据特征,并将关键放在关键的训练数据上面从而获得较高的分类精度。本发明专利技术重点是解决现在提高单个分类器准确率的问题。?

【技术实现步骤摘要】

本专利技术属于数据挖掘
,具体涉及一种新的基于boosting的。
技术介绍
集成学习是使用一系列基分类器进行学习,并使用某种规则将基分类器的学习结果进行整合从而获得比单个分类器更优的学习效果的一种机器学习方法。由于能够显著提高学习系统的泛化性能,集成学习已成为模式识别和机器学习领域的研究热点。常用的集成学习方法包括 AdaBoost、Bagging、CVParameterSeIection> RandomSubSpace、RotationForest等。在这些方法中,Bagging与RandomSubSpace通过调整训练空间的样本来生成基分类器。Rotation Forest则对特征空间进行操作,通过对特征空间的随机划分与特征提取来生成基分类器。CVParameterSelection通过对参数的调整获得多样化的基分类器;而Adaboost以其简单、适应性强成为目前最为流行的一种集成学习方法。AdaBoost(AdaptiveBoosting)是对boosting算法的改进,它的核心思想是降低被准确分类的样本出现在下一轮迭代时训练集中的概率(权重)和提高错误分类的样本出现在训练集中的概率(权重)。通过这个思想,AdaBoost有效的实现了将识别率不高的弱分类器组合为识别率较高的强分类器。本文将借鉴Bagging与RandomSubSpace的思想,通过对训练样本空间的调整来生成一系列基分类器。而在样本调整方面则借鉴了 AdaBoost的思想,一个样本能否用于训练下一个分类器取决于当前分类器对它的置信度(confidence)。置信度较高,表明当前分类器有较大概率对其正确分类;反之,如果置信度较低,则表明当前分类器对该样本的分类没有把握。通过不断地把具有较高置信度的样本从训练集中移除,新生成的训练集都是迭代前训练集的子集,我们把该方法称为递减子空间集成学习方法。由于我们的方法借鉴了Bagging与AdaBoost的思想,我们先它们做简要的回顾。Bagging算法:给定一个弱分类器C和一个训练集队Bagging通过对D中样本的选取来生成多样化的模型。具体操作如下:从D中可重复随机选取若干样本构成训练集,训练集的规模通常与D的规模相当,这种选取方式使得某些样本可以在新的训练集中出现多次,而另一些样本则可能不出现;在新构造的训练集上训练分类器G得到分类模型。重复上述操作《次,则可以得到《个不同的分类模型。最终采用投票规则对《模型的预测结果进行综合。Bagging方法通过重新选取训练集增加了弱分类器集成的差异度,从而提高了泛化能力。Adaboost算法=AdaBoost方法是一种迭代方法,在每一轮迭代中加入一个新的弱分类器,直到达到某个预定的终止条件。在每次迭代中,每个训练样本都被赋予一个权重,表明它在训练集中分布的相对比例。如果某个样本已经被准确地分类,那么在构造下一个分类器时(即下一次迭代),它的权值被降低;相反,如果某个样本未能被准确分类,它的权重就相应提高。这种方式使得AdaBoost方法能“聚焦于”那些较难被分类的样本上。用Wk(J)表示第A次迭代时样本i的权重,&和分别表示第i个样本的特征与类标签,则AdaBoost的算法描述如下:1.初始化 Wi U) =l/n, i=l 2.k一0 3.do k 一 k+l 4.训练使用按照WkQ)采样的弱学习器Ck 5.Ek —测量的Ck的训练误差本文档来自技高网...

【技术保护点】
递减子空间集成学习算法,所述算法的输入包括训练集Dtrain,测试集Dtest,校验集Dvalid,输出包括一列分类器C0,?C1,…,Ck’以及相应的置信度阈值l0,?l1,…,lk’????其特征在于,通过对训练样本空间的调整来生成一系列基分类器,而在样本调整方面则借鉴了AdaBoost的思想,一个样本能否用于训练下一个分类器取决于当前分类器对它的置信度(confidence),置信度较高,表明当前分类器有较大概率对其正确分类;反之,如果置信度较低,则表明当前分类器对该样本的分类没有把握;通过不断地把具有较高置信度的样本从训练集中移除,新生成的训练集都是迭代前训练集的子集;所述步骤为:(1)把Dtrain作为D0输入;(2)把0赋值给k?;(3)循环开始,把k+1赋值给k;(4)在?Dk上训练,得到分类器?Ck;(5)用Ck测试Dk中每个样本的置信度,置信度如下定义:假设分类器C预测样本s属于类标签T1,T2,…,?Tm的概率分别为p1,?p2,…,?pm,?则分类器C对样本s预测的置信度定义为p1,?p2,…,?pm的最大值;设置最低的置信度水平lk,把置信度水平高于lk的样本从Dk中删除,得到Dk+1;(6)满足Dk中样本的个数Sizeof(Dk)<λ*Num(Feature)时循环结束,其中Num(Feature)指样本的特征个数,而λ为常数;(7)把迭代的次数赋值给n;(8)循环开始,k从0?到?n(9)计算使用分类器组C0,?C1,…,Ck在Dvalid上的错误率Ek,对于检验集或测试集中的样本,依次使用C0,?C1,…,Ck进行预测,若存在某个Ci预测的置信度高于li,则Ci的预测被采用,其后的分类器不需再使用;若不存在任何Ci预测的置信度高于li,则该样本采用Ck的预测;(10)保存最低的错误率E?’与k’(11)返回?k’,?C0,?C1,…,Ck’以及l0,?l1,…,lk’(12)算法结束。...

【技术特征摘要】
1.递减子空间集成学习算法,所述算法的输入包括训练集测试集久校验集Aww输出包括一列分类器c0,C1,…,ck’以及相应的置信度阈值10, I1,…,ik’ 其特征在于,通过对训练样本空间的调整来生成一系列基分类器,而在样本调整方面则借鉴了 AdaBoost的思想,一个样本能否用于训练下一个分类器取决于当前分类器对它的置信度(confidence),置信度较高,表明当前分类器有较大概率对其正确分类;反之,如果置信度较低,则表明当前分类器对该样本的分类没有把握;通过不断地把具有较高置信度的样本从训练集中移除,新生成的训练集都是迭代前训练集的子集;所述步骤为: (1)把作为D0输入; (2)把0赋值给左; (3)循环开始,把左丹赋值给左; (4)在&上训练,得到分类器Ck' (5)用G测试&中每个样本的置信度,置信度如下定义:假设分类器C预测样本^属于类标签/;,&,…,乙的概率分别为A,A,…,pm,则分类器C对样本S预测的置信度定义为A,A,…,A的最大值;设置最低的置信度水平厶,把置信度水平高于厶的样本从4中删除,得到4+1; (6)满足4中样本的个数Sizeof(Da) < A *Num(Feat...

【专利技术属性】
技术研发人员:陈科周羿
申请(专利权)人:天津工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1