【技术实现步骤摘要】
本专利技术所涉及数据挖掘的
,特别是涉及。
技术介绍
近年来,随着数据挖掘研究的日益深入与应用的不断扩展,越来越多的研究者愈发感受到在一些复杂数据环境下,传统数据挖掘技术已难以适应新形势的不断变化。其中,针对非平衡数据分布环境的数据挖掘方法,逐渐成为该领域中的热点问题。自NathalieJapkowicz全面提出面向非平衡数据集的学习后,基于非平衡数据分布环境的数据分类问题首次成了一个专门的研究主题和未来的研究重点之一。传统的分类方法着眼于提高数据集整体分类精度,倾向偏置多数类样本,忽略了少数类样本的精度,故已不适合非平衡数据的分类问题。·多分类器融合方法从系统论角度出发,不但融合多种重采样技术,而且能充分利用各基分类器的结果,故而能达到较好的精度,具有较稳定的鲁棒性。融合分类器不易出现过学习,同时具有较强的泛化能力。融合分类器本身具有的这种独特优势使其成为近年来数据挖掘领域中的研究热点。如在人脸识别及表情识别领域,不同分类器可以利用不同特征,采用某种组合策略,从而将多个分类器融合,使其优势互补,从而提高整体分类的准确率和鲁棒性。2000年Thomas G ...
【技术保护点】
一种基于非平衡数据分布的多异质基分类器融合分类方法,其特征在于,包括以下步骤:决策者利用基于差异采样率的重采样算法对样本进行预处理,包括过采样和欠采样两个过程;在基于差异采样率重采样算法中,在过采样和欠采样过程中均可为不同基分类器赋予不同的采样率,从而确保各基分类器拥有不同的样本数量;利用基于差异采样率重采样算法对欠采样专家和过采样专家的N个基分类器分别赋予训练样本,然后使其分别独立生成新样本;计算各基分类器的分类错误率,进而计算出对应的权重;过采样专家和欠采样专家统计各自结果;根据分类决策函数融和最后预测结果,判断样本所属类别。
【技术特征摘要】
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。