【技术实现步骤摘要】
本专利技术属于数据挖掘
,具体涉及一种新的基于boosting的。
技术介绍
集成学习是使用一系列基分类器进行学习,并使用某种规则将基分类器的学习结果进行整合从而获得比单个分类器更优的学习效果的一种机器学习方法。由于能够显著提高学习系统的泛化性能,集成学习已成为模式识别和机器学习领域的研究热点。常用的集成学习方法包括 AdaBoost、Bagging、CVParameterSeIection> RandomSubSpace、RotationForest等。在这些方法中,Bagging与RandomSubSpace通过调整训练空间的样本来生成基分类器。Rotation Forest则对特征空间进行操作,通过对特征空间的随机划分与特征提取来生成基分类器。CVParameterSelection通过对参数的调整获得多样化的基分类器;而Adaboost以其简单、适应性强成为目前最为流行的一种集成学习方法。AdaBoost(AdaptiveBoosting)是对boosting算法的改进,它的核心思想是降低被准确分类的样本出现在下一轮迭代时训练集中的概率(权重)和提高错误分类的样本出现在训练集中的概率(权重)。通过这个思想,AdaBoost有效的实现了将识别率不高的弱分类器组合为识别率较高的强分类器。本文将借鉴Bagging与RandomSubSpace的思想,通过对训练样本空间的调整来生成一系列基分类器。而在样本调整方面则借鉴了 AdaBoost的思想,一个样本能否用于训练下一个分类器取决于当前分类器对它的置信度(confidence)。 ...
【技术保护点】
递减子空间集成学习算法,所述算法的输入包括训练集Dtrain,测试集Dtest,校验集Dvalid,输出包括一列分类器C0,?C1,…,Ck’以及相应的置信度阈值l0,?l1,…,lk’????其特征在于,通过对训练样本空间的调整来生成一系列基分类器,而在样本调整方面则借鉴了AdaBoost的思想,一个样本能否用于训练下一个分类器取决于当前分类器对它的置信度(confidence),置信度较高,表明当前分类器有较大概率对其正确分类;反之,如果置信度较低,则表明当前分类器对该样本的分类没有把握;通过不断地把具有较高置信度的样本从训练集中移除,新生成的训练集都是迭代前训练集的子集;所述步骤为:(1)把Dtrain作为D0输入;(2)把0赋值给k?;(3)循环开始,把k+1赋值给k;(4)在?Dk上训练,得到分类器?Ck;(5)用Ck测试Dk中每个样本的置信度,置信度如下定义:假设分类器C预测样本s属于类标签T1,T2,…,?Tm的概率分别为p1,?p2,…,?pm,?则分类器C对样本s预测的置信度定义为p1,?p2,…,?pm的最大值;设置最低的置信度水平lk,把置信度水平高于lk的样本从 ...
【技术特征摘要】
1.递减子空间集成学习算法,所述算法的输入包括训练集测试集久校验集Aww输出包括一列分类器c0,C1,…,ck’以及相应的置信度阈值10, I1,…,ik’ 其特征在于,通过对训练样本空间的调整来生成一系列基分类器,而在样本调整方面则借鉴了 AdaBoost的思想,一个样本能否用于训练下一个分类器取决于当前分类器对它的置信度(confidence),置信度较高,表明当前分类器有较大概率对其正确分类;反之,如果置信度较低,则表明当前分类器对该样本的分类没有把握;通过不断地把具有较高置信度的样本从训练集中移除,新生成的训练集都是迭代前训练集的子集;所述步骤为: (1)把作为D0输入; (2)把0赋值给左; (3)循环开始,把左丹赋值给左; (4)在&上训练,得到分类器Ck' (5)用G测试&中每个样本的置信度,置信度如下定义:假设分类器C预测样本^属于类标签/;,&,…,乙的概率分别为A,A,…,pm,则分类器C对样本S预测的置信度定义为A,A,…,A的最大值;设置最低的置信度水平厶,把置信度水平高于厶的样本从4中删除,得到4+1; (6)满足4中样本的个数Sizeof(Da) < A *Num(Feat...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。