【技术实现步骤摘要】
一种基于特征表示和噪声过滤的不平衡集成学习方法
[0001]本专利技术涉及的是数据挖掘
,具体涉及一种基于特征表示和噪声过滤的不平衡集成学习方法。
技术介绍
[0002]在现实生活中,数据通常具有不平衡特性,即某一类的样本数量要小于其他类的样本数量,且少数类的错分代价相对较大。比如在电信诈骗或者网络入侵检测中,诈骗分子或入侵分子相较于总体用户数量比例是非常小的,但所带来的损失是比较严重的。对于这类数据的识别分类问题,由于多数类和少数类在数量上的倾斜,加之优化目标使总体分类精度最大,有监督学习分类方法偏向于多数类而忽略少数类,造成多数类过拟合学习和少数类分类精度较低的结果。
[0003]对于类别不平衡数据的识别分类问题,一般的有监督学习分类方法会对多数类过拟合学习,现有解决不平衡数据分类技术大致分为重采样、重加权或更换评价指标这三种方法,其中重采样,通过数据预处理改变数据类别分布达到数据平衡的目的,如多数类降采样和少数类过采样;重加权,通过改变训练损失或加入数据权重达到重视少数类数据的目的;更换评价指标,通过改变 ...
【技术保护点】
【技术特征摘要】
1.一种基于特征表示和噪声过滤的不平衡集成学习方法,其特征在于,其步骤为:(1)初始化映射矩阵,随机采样训练基分类器;(2)特征表示学习,最近邻类别平均分类器和集成分类器同时参与训练,学习映射矩阵;(3)根据样本损失进行采样和模型训练集成;(4)噪声过滤,根据样本损失和特征空间距离确定噪声;(5)重复步骤(2)
‑
(4),输出训练模型。2.根据权利要求1所述的一种基于特征表示和噪声过滤的不平衡集成学习方法,其特征在于,所述步骤(1)初始化映射矩阵和分类器的具体步骤:
①
设样本集为O,样本特征数目为n,映射后特征数目为m,映射矩阵为W∈R
n
×
m
,矩阵元素默认均值为0,标准差为的正态分布随机值;
②
设少数类P,多数类Q,少数类P上采样倍数γ,少数类P随机上采样为数据集P',多数类Q随机下采样为数据集Q',有|P'|=γ|P|,|Q'|=|P'|;设训练的基分类器为BC,这些基分类器为SVM、LR、C4.5或NN基本模型,利用数据集P'和Q'训练BC,得到训练好的模型f,设分类器集成模型为F=f。3.根据权利要求1所述的一种基于特征表示和噪声过滤的不平衡集成学习方法,其特征在于,所述步骤(2)特征表示学习的具体步骤:
①
对于样本x∈O,经过特征映射矩阵W作用后为x
e
=xW,由这些样本组成的样本集为O
e
,采用两种分类器训练进行特征表示的学习;
②
基于最近邻思想,相同特征空间下类别一致的样本越相近,类别不一致的样本越相远,进而第一个分类器采用最近邻类别平均分类器(NCM),首先分别计算训练集上每个类P和Q的平均特征表示μ
P
和μ
Q
,即通过最大化目标函数通过最大化目标函数即d(x,y)=(x
‑
μ
y
)
T
(x
‑
μ
y
)来学习一个比较好的特征表示空间,使得类间距离变大,类内距离变小;
③
由于在特征表示学习的同时还要兼顾最终分类效果,所以第二个分类器采用集成模型F,计算并最大化似然对数函数型F,计算并最大化似然对数函数
④
为了使得两个分类器能同时参与训练,并且更侧重第一个分类器训练,最终的目标函数设为K=βG+(1
‑
β)H,通过最大化函数K学习出特征表示,即映射矩阵W。4.根据权利要求1所述的一种基于特征表示和噪声过滤的不平衡集成学习方法,其特征在于,所述步骤(3)采样模型学习的具体步骤:
①
设集成模型F在样本x∈O的损失为L
x
,计算多数类Q中的样本损失比率少数类P中的样本损失比率那么多数类Q根据损失比率r
L,x∈Q
加权下采样得到Q',少数类P根据权重r
L,x∈Q<...
【专利技术属性】
技术研发人员:孙从阳,徐明成,侯金鑫,张小虎,
申请(专利权)人:天翼电子商务有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。