【技术实现步骤摘要】
基于熵和置信度的不平衡数据欠采样方法
[0001]本专利技术涉及大数据处理
,尤其涉及基于熵和置信度的不平衡数据欠采样方法。
技术介绍
[0002]不平衡问题在大数据时代已经愈发常见了,例如访问安全问题、电子邮件过滤等。由于不平衡的样本可能会阻碍分类器学习正确的分布,因此不平衡问题给传统的分类方法带来了严峻的挑战。
[0003]尽管传统的集成方法不能处理不平衡问题,但是学者们提出了一系列基于重采样的集成方法,一般分为静态重采样方法和动态重采样两类。静态重采样方法在训练前进行重采样,并且独立于后续的分类器,因此,静态重采样方法更加灵活,能够适应大多数分类器。基本静态重采样方法随机选择少数或多数样本,以生成后续训练步骤的平衡子集;基于聚类的欠采样方法(USBC)旨在通过首先聚类主类,然后从每个聚类中选择样本,来呈现欠采样后多数样本的分布信息。Adaboost根据前一个基分类器的性能来调整样本分布的权重,以便将额外的权重添加到先前错误分类的样本中。属于这一类的经典方法包括RUS Adaboost(RUSBoost)、 ...
【技术保护点】
【技术特征摘要】
1.基于熵和置信度的不平衡数据欠采样方法,其特征在于,包括以下步骤,S1:定义不平衡数据集为X,其中包含N
n
个多数样本X
n
和N
p
个少数样本X
p
;S2:计算每个多数样本的熵S3:利用多数样本和少数样本,基于RUS训练第一个随机森林分类器f0(x);S4:基于置信度和熵,计算经过步骤S3训练后的集合中多数样本的最终秩Rank
i
;S5:用所有少数样本X
p
和具有最低秩的多数样本训练下一个随机森林分类器;S6:重复步骤S4和步骤S5,直到随机森林分类器f
l
(x)中的l大于L,得到由f
j
(x)(j=0,1,...,L)组成的集合,式中,l表示从一开始到现在累积的迭代次数,L为数据集增强迭代次数。2.根据权利要求1所述的基于熵和置信度的不平衡数据欠采样方法,其特征在于,步骤S2的具体操作包括以下步骤,S201:将x
i
∈X的模糊隶属熵定义为式中,k表示在欧几里得距离中最接近多数样本x
i
的样本数,表示最近的k个样本中多数样本的数量,表示最近的k个样本中少数样本的数量;S202:计算每个多数样本的类确定性熵Entropy
cer
和结构密度熵Entropy
str
;S203:计算每个多数样本的熵式中,norm为归一化系数,3.根据权利要求2所述的基于熵和置信度的不平衡数据欠采样方法,其特征在于,步骤S202中每个多数样本的类确定性熵Entropy
cer
的计算方法为式中,Entropy
max
=
‑
ln 0.5,4.根据权利要求3所述的基于...
【专利技术属性】
技术研发人员:冯钰舒,冯本勇,张越,张丽萍,冯钰珊,
申请(专利权)人:冯钰舒,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。