当前位置: 首页 > 专利查询>翟云专利>正文

一种基于非平衡数据分布的多异质基分类器融合分类方法技术

技术编号:8366817 阅读:385 留言:0更新日期:2013-02-28 05:30
本发明专利技术公开了一种基于非平衡数据分布的多异质基分类器融合分类方法,它涉及数据挖掘领域中的非平衡数据分类技术;首先利用基于差异采样率的重采样算法对样本进行预处理,包括过采样和欠采样两个过程,从而为不同的基分类器分配不同的待分类样本;计算各基分类器的分类错误率,进而计算出对应的权重;由过采样专家和欠采样专家统计各自结果;根据分类决策函数融和最后预测结果得到样本所述类别;本发明专利技术利用基于多异质基分类器融合分类方法从海量数据中发现少数类样本重要的特性,可以有效提高少数类样本精度,进而达到提高数据集整体分类精度的目的。

【技术实现步骤摘要】

本专利技术所涉及数据挖掘的
,特别是涉及。
技术介绍
近年来,随着数据挖掘研究的日益深入与应用的不断扩展,越来越多的研究者愈发感受到在一些复杂数据环境下,传统数据挖掘技术已难以适应新形势的不断变化。其中,针对非平衡数据分布环境的数据挖掘方法,逐渐成为该领域中的热点问题。自NathalieJapkowicz全面提出面向非平衡数据集的学习后,基于非平衡数据分布环境的数据分类问题首次成了一个专门的研究主题和未来的研究重点之一。传统的分类方法着眼于提高数据集整体分类精度,倾向偏置多数类样本,忽略了少数类样本的精度,故已不适合非平衡数据的分类问题。·多分类器融合方法从系统论角度出发,不但融合多种重采样技术,而且能充分利用各基分类器的结果,故而能达到较好的精度,具有较稳定的鲁棒性。融合分类器不易出现过学习,同时具有较强的泛化能力。融合分类器本身具有的这种独特优势使其成为近年来数据挖掘领域中的研究热点。如在人脸识别及表情识别领域,不同分类器可以利用不同特征,采用某种组合策略,从而将多个分类器融合,使其优势互补,从而提高整体分类的准确率和鲁棒性。2000年Thomas G. Dietterich从统计因素、计算因素和表示因素等三个方面深入分析了融合学习的有效性。1996年和1995年Breiman,Freund分别介绍和讨论了 Bagging和Boosting这两种最典型的基分类器融合方法。Freund进而提出了 AdaBoost算法,该算法可以非常容易地应用到实际问题中。但这些方法仅适用于正常态数据集中,并不适应于非平衡数据集,就当前的研究进展来看,适用于非平衡数据分布环境的基分类器融合方法仍为鲜见,尤其是在算法的多样性与分类准确度尤其是在提高少数类样本精度方面仍面临着难以突破的瓶颈问题。
技术实现思路
本专利技术的目的在于克服现有技术的不足,提出了。为了实现上述专利技术目的,采用的技术方案如下—种基于非平衡数据分布的多异质基分类器融合分类方法,包括决策者利用基于差异采样率的重采样算法对样本进行预处理,包括过采样和欠采样两个过程;在基于差异采样率重采样算法中,在过采样和欠采样过程中均可为不同基分类器赋予不同的采样率,从而确保各基分类器拥有不同的样本数量;利用基于差异采样率重采样算法对Undersample专家和Oversample专家的N个基分类器分别赋予训练样本,然后使其分别独立生成新样本;计算各基分类器的分类错误率,进而计算出对应的权重;由Undersample专家和Oversample专家统计各自结果;融和最后预测结果。所述基于差异采样率重采样算法对样本进行预处理的过程(以过采样过程为例),具体为A、计算正类样本数量minsize和负类样本数量maxsize ;B、计算 maxsize 与 minsize 的差值 subsize ;C、计算采样因子samfactor=subsize/n,其中η为基分类器数量;D、计算各基分类器的样本数量minsamplesizei=minsize+samfasctor oversamratei,其中,oversamratei为第i个基分类器的过采样率;所述各基分类器分类错误率和对应权重的计算方法为计算基分类器ht:X—{-I, 1},该基分类器在分布Dt上的误差为权利要求1.,其特征在于,包括以下步骤 决策者利用基于差异采样率的重采样算法对样本进行预处理,包括过采样和欠采样两个过程;在基于差异采样率重采样算法中,在过采样和欠采样过程中均可为不同基分类器赋予不同的采样率,从而确保各基分类器拥有不同的样本数量; 利用基于差异采样率重采样算法对欠采样专家和过采样专家的N个基分类器分别赋予训练样本,然后使其分别独立生成新样本; 计算各基分类器的分类错误率,进而计算出对应的权重; 过采样专家和欠采样专家统计各自结果; 根据分类决策函数融和最后预测结果,判断样本所属类别。2.根据权利I所述的基于非平衡数据分布的多异质基分类器融合分类方法,其特征在于,各基分类器分类错误率和对应权重的计算方法为计算基分类器ht:X— {-I, 1},该基分类器在分布Dt上的误差为=gf = Pa (h, (Xi)* Vi) = K* ·¥ )。那么该基分类器的权重:3.根据权利I所述的基于非平衡数据分布的多异质基分类器融合分类方法,其特征在于,所述Undersample专家和Oversample专家统计结果的过程具体为对于10个样本子集,仅分别独立保留最后一次迭代时生成的基分类器ht (X),在Undersample生成的10个样本子集9i(OversampIe生成的10个样本子集gf)上皆生成相应的基分类器Iii (x), i =1,2...10;对在《 (9T)上的10个基分类器进行10交叉验证,分别计算各自错误率Si,令该基分类器的权重为,4.根据权利I所述的基于非平衡数据分布的多异质基分类器融合分类方法,其特征在于,Undersample专家和Oversample专家最后预测结果计算方法分别 为5.根据权利I所述的基于非平衡数据分布的多异质基分类器融合分类方法,其特征在于,融和最后预测结果计算方法为经过分类决策函数,输出分类结果Result 全文摘要本专利技术公开了,它涉及数据挖掘领域中的非平衡数据分类技术;首先利用基于差异采样率的重采样算法对样本进行预处理,包括过采样和欠采样两个过程,从而为不同的基分类器分配不同的待分类样本;计算各基分类器的分类错误率,进而计算出对应的权重;由过采样专家和欠采样专家统计各自结果;根据分类决策函数融和最后预测结果得到样本所述类别;本专利技术利用基于多异质基分类器融合分类方法从海量数据中发现少数类样本重要的特性,可以有效提高少数类样本精度,进而达到提高数据集整体分类精度的目的。文档编号G06F17/30GK102945280SQ20121046036公开日2013年2月27日 申请日期2012年11月15日 优先权日2012年11月15日专利技术者不公告专利技术人 申请人:翟云, 江澎本文档来自技高网
...

【技术保护点】
一种基于非平衡数据分布的多异质基分类器融合分类方法,其特征在于,包括以下步骤:决策者利用基于差异采样率的重采样算法对样本进行预处理,包括过采样和欠采样两个过程;在基于差异采样率重采样算法中,在过采样和欠采样过程中均可为不同基分类器赋予不同的采样率,从而确保各基分类器拥有不同的样本数量;利用基于差异采样率重采样算法对欠采样专家和过采样专家的N个基分类器分别赋予训练样本,然后使其分别独立生成新样本;计算各基分类器的分类错误率,进而计算出对应的权重;过采样专家和欠采样专家统计各自结果;根据分类决策函数融和最后预测结果,判断样本所属类别。

【技术特征摘要】

【专利技术属性】
技术研发人员:不公告发明人
申请(专利权)人:翟云江澎
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1