不平衡数据的分类方法技术

技术编号:30324443 阅读:19 留言:0更新日期:2021-10-10 00:00
本发明专利技术公开了一种不平衡数据的分类方法,属于机器学习技术领域,包括主动学习方法和过采样方法,不平衡数据包括有标记数据和无标记数据,具体为:对有标记数据进行预处理,通过计算距离特征得到初始训练集;对初始训练集进行训练,得到初始分类器;利用初始分类器计算无标记数据的不确定度;根据不确定度对无标记数据进行排序,并交由人工进行标记,以得到已标记数据集;对已标记数据集进行概率过采样,以得到平衡数据集;对平衡数据集进行训练得到分类器,用以对不平衡数据进行分类。本发明专利技术的不平衡数据的分类方法通过将主动学习和过采样方法相结合,减少了参加训练样本数量;同时,保证分类器对多数类和少数类的数据都具有较高的分类精度。的分类精度。的分类精度。

【技术实现步骤摘要】
不平衡数据的分类方法


[0001]本专利技术涉及一种不平衡数据的分类方法,属于机器学习领域。

技术介绍

[0002]目前,数据不平衡问题的研究主要在数据预处理层面、特征层面和分类算法层面展开,保证分类器对多数类和少数类的数据都具有较高的分类精度。在数据预处理层面,通过改变训练集样本分布降低或消除不平衡性,具体的方法是一系列的欠采样和过采样技术;在特征层面样本数量分布的不平衡往往伴随着特征属性的分布不平衡,利用特征选择方法去选择具有区分特性的特征,提高少数类的分类精度;在分类算法层面,根据算法在解决不平衡问题时的缺陷,结合不平衡数据的特点,通过合理地改进算法以提高少数类样本地识别率,典型的方法有集成学习,代价敏感学习,单类学习等。
[0003]主动学习的主要思想是在训练过程中引入交互能力,循环过程中主动选取最佳样本添加到训练集中,减少参加训练样本数量,节约运算消耗。根据学习进程来主动选择最佳候选样本进行学习,打破传统的从已知标识的样本集中进行被动学习的方法。这种学习算法不仅能有效减少所需评价样本数量,提高初始分类器的预测准确率,并且能主动筛选有用样本,保存了多数有用信息。主动学习可以避免大量的手工标记工作,并且可以较好解决训练集规模太大导致学习过程速度变慢,大量占用内存空间的问题。
[0004]主动学习的样例选择策略主要有:基于流的样例选择策略和基于池的样例选择。其中基于池的样例选择标准主要包括:不确定标准、版本空间缩减标准、泛化误差缩减标准等。基于不确定标准的样例选择主要为用概率表示不确定程度和用距离表示不确定程度。基于版本空间缩减的样例选择应使选出的样例能最大限度地缩减样本的版本空间,版本空间指的是一系列不同类型基准分类器的组合。委员会查询是基于该标准的典型算法。分类器的泛化误差是评价其鲁棒性的常用指标,基于泛化误差缩减标准样例选择的最终目标是降低分类器的泛化误差。
[0005]在机器学习中,样本不平衡问题指的是类别分布不均衡的现象。处理该问题时如果使用的为常规算法,分类结果往往会偏向多数类,导致少数类无法被正确识别。但是传统算法多数是基于整体正确率最大化来训练分类器,因此会忽略少数类样本影响,导致少数类的误分,从而影响传统分类器的分类结果。但是在许多实际问题中,少数类相对于多数类往往携带更多的信息量,具有更大的价值。不平衡数据分类问题广泛存在于生物医疗、金融、信息安全、工业、计算机视觉等诸多领域。

技术实现思路

[0006]本专利技术的目的在于提供一种不平衡数据的分类方法,该方法可以减少参加训练样本的数量,减少少数类的错分率,提升分类精度。
[0007]为实现上述目的,本专利技术提供一种不平衡数据的分类方法,包括主动学习方法和过采样方法,所述不平衡数据包括第一类数据和第二类数据,所述第一类数据和/或第二类
数据中包括有标记数据和无标记数据,具体步骤为:
[0008]步骤1、对有标记数据进行预处理,通过计算距离特征得到初始训练集;
[0009]步骤2、对所述初始训练集进行训练,得到初始分类器;
[0010]步骤3、利用所述初始分类器计算所述无标记数据的不确定度;
[0011]步骤4、根据所述不确定度对所述无标记数据进行排序,并交由人工进行标记,以得到已标记数据集;
[0012]步骤5、对所述已标记数据集使用过采样方法进行概率过采样,以得到平衡数据集;
[0013]步骤6、对所述平衡数据集进行训练得到分类器,用以对所述不平衡数据进行分类。
[0014]作为本专利技术的进一步改进,所述主动学习方法为基于不确定性采样策略的样本选择方式;所述过采样方法具体为:样本的特征包括离散型特征和连续型特征,对连续型特征的样本使用EM算法并利用AIC准则进行拟合,得到混合高斯分布模型P,并计算每个特征在其它特征下的条件分布函数,再通过Gibbs抽样得到的新的样本;对离散型特征的样本使用先统计第一类数据中每个离散特征出现的不同频率,然后根据相应的频率随机产生新的样本。
[0015]作为本专利技术的进一步改进,步骤1中的预处理为:计算有标记数据与无标记数据之间的内部距离,所述内部距离的计算公式如下:
[0016][0017]其中,n是数据维度,和分别表示无标记数据和有标记数据的第i维特征值。
[0018]作为本专利技术的进一步改进,所述内部距离的最小值为距离特征,对无标记数据和有标记数据的所有样本计算每个样本x所有的距离特征,并按照距离特征从小到大的顺序排列,选取所述距离特征最小的前t个样本与所述有标记数据构成所述初始训练集,所述距离特征的计算公式如下:
[0019]feature_dis(x)
x∈A
=min
z∈B Dis
inner
(x,z),x∈A;
[0020]其中,z为有标记数据的所有样本。
[0021]作为本专利技术的进一步改进,步骤2具体为:使用支持向量机对所述初始训练集进行训练,得到初始分类器。
[0022]作为本专利技术的进一步改进,步骤3具体为:使用所述初始分类器对所述无标记数据进行分类,得到样本x
i
属于类别y
i
的概率p(y
i
|x
i
),根据样本x
i
属于类别y
i
的概率p(y
i
|x
i
)计算得到信息熵,所述信息熵即为不确定度,所述信息熵的计算公式如下:
[0023][0024]作为本专利技术的进一步改进,根据最优标号和次优标号准则判断样本x
i
的分类结果,所述最优标号和次优标号准则的计算公式如下:
[0025][0026]其中,p(y
best
|x
i
)和p(y
second_best
|x
i
)分别是样本x
i
的最优分类概率和次优分类概
率。
[0027]作为本专利技术的进一步改进,步骤4具体为:将无标记数据按照所述不确定度从大到小的顺序进行排列,对不确定度最大的样本进行人工标注,并将标注后的样本添加到所述初始训练集中,以训练初始分类器,直到所述初始分类器达到阈值后停止训练,得到已标记数据集。
[0028]作为本专利技术的进一步改进,步骤5具体为:使用混合高斯模型将所述已标记数据集的真实分布进行表示,并进行概率过采样,得到平衡数据集,所述混合高斯模型的分布概率密度表达式为:
[0029][0030]其中,ω
l
=1,2,

,L是加权权重,且满足μ
l
为混合高斯模型的均值;σ
l
为混合高斯模型的方差;N(x|μ
l

l
)为第l个高斯概率分布,表达式为:
[0031][0032]作为本专利技术的进一步改进,所述概率过采样具体为:对所述已标记数据集中的样本循环使用所述过本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种不平衡数据的分类方法,其特征在于:包括主动学习方法和过采样方法,所述不平衡数据包括第一类数据和第二类数据,所述第一类数据和/或第二类数据中包括有标记数据和无标记数据,具体步骤为:步骤1、对有标记数据进行预处理,通过计算距离特征得到初始训练集;步骤2、对所述初始训练集进行训练,得到初始分类器;步骤3、利用所述初始分类器计算所述无标记数据的不确定度;步骤4、根据所述不确定度对所述无标记数据进行排序,并交由人工进行标记,以得到已标记数据集;步骤5、对所述已标记数据集使用过采样方法进行概率过采样,以得到平衡数据集;步骤6、对所述平衡数据集进行训练得到分类器,用以对所述不平衡数据进行分类。2.根据权利要求1所述的不平衡数据的分类方法,其特征在于:所述主动学习方法为基于不确定性采样策略的样本选择方式;所述过采样方法具体为:样本的特征包括离散型特征和连续型特征,对连续型特征的样本使用EM算法并利用AIC准则进行拟合,得到混合高斯分布模型P,并计算每个特征在其它特征下的条件分布函数,再通过Gibbs抽样得到的新的样本;对离散型特征的样本使用先统计第一类数据中每个离散特征出现的不同频率,然后根据相应的频率随机产生新的样本。3.根据权利要求1所述的不平衡数据的分类方法,其特征在于,步骤1中的预处理为:计算有标记数据与无标记数据之间的内部距离,所述内部距离的计算公式如下:其中,n是数据维度,和分别表示无标记数据和有标记数据的第i维特征值。4.根据权利要求3所述的不平衡数据的分类方法,其特征在于:所述内部距离的最小值为距离特征,对无标记数据和有标记数据的所有样本计算每个样本x所有的距离特征,并按照距离特征从小到大的顺序排列,选取所述距离特征最小的前t个样本与所述有标记数据构成所述初始训练集,所述距离特征的计算公式如下:feature_dis(x)
x∈A
=min
z∈B
Dis
inner
(x,z),x∈A;其中,z为有标记数据的所有样本。5.根据权利要求1所述的不平衡数据的分类方法,其特征在于,步骤2具体为:使用支持向量机对所述初始训练集进行训练,得到初始分类器。6.根据权利要求1所述的不平衡数据的分类方法,其特征在于,步骤3具体为:使用所述初始分类器对所述无标记数据进行分类,得到样本x
i
属于类别y
i
的概率p(y
i
|x
i
),根据样本x
i
属于类别y<...

【专利技术属性】
技术研发人员:赵正旦章韵
申请(专利权)人:南京邮电大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1