一种针对非均衡数据的层次化赋权分类方法及系统技术方案

技术编号：31023796 阅读：18 留言：0更新日期：2021-11-30 03:20

本发明专利技术提出了一种针对非均衡数据的层次化赋权分类方法及系统，包括：类内子概念簇权重学习步骤：对训练样本进行层次聚类，根据聚类结果中各簇包含的样本数量计算各簇的样本权重，以使各子概念簇的数量权重总和保持一致并计算各子概念簇的类内权重；全局权重归一化步骤：根据一定的类间权重比率，将类内权重归一化至全局权重，并以此构建带权重的支持向量机作为分类器，利用该分类器对输入的带识别的非均衡数据进行分类。该方法能够提高样本数量少以及距离分类面近的子概念的学习权重，从而既提高了少数类的召回率又减少了其假阳性率，保证整体的综合性能。保证整体的综合性能。保证整体的综合性能。

全部详细技术资料下载

【技术实现步骤摘要】
一种针对非均衡数据的层次化赋权分类方法及系统

[0001]本专利技术属于机器学习、模式识别等
，尤其涉及一种针对非均衡数据的层次化赋权分类方法及系统。

技术介绍

[0002]本部分的陈述仅仅是提供了与本专利技术相关的
技术介绍
信息，不必然构成在先技术。
[0003]类别非均衡现象在利用机器学习解决现实生活问题中十分常见，例如，在垃圾邮件识别中，垃圾邮件的数量远小于正常邮件的数量；在医疗诊断中，患者的数量远小于健康人的数量。很多传统分类方法假设各类别的训练数据是数量均衡的，令训练的分类器在面对非均衡数据时，分类结果更加偏向多样本类别。虽然从整体精度来看，效果比较好，例如一个数据集中90％为同一类别，如果分类器将全部样本分类为此类别，整体精度为90％，但是从少样本类角度来看，该分类器性能较差。并且，在许多应用问题中，人们更关注少样本类的识别结果，例如垃圾邮件、患某种疾病的人群等。因此，如何利用非均衡数据建立对各类别均衡的分类器，是机器学习领域一个重要的问题。
[0004]传统解决非均衡问题的方法可以分为两大方向：数据层面和算法层面。数据层面采用重采样方式，包括上采样和下采样，令不同类别的样本数量保持一致，常见的方法有合成少数类样本的过采样方法SMOTE以及自适应的合成采样方法ADASYN等。数据层面的方法改变了原有数据分布，下采样方法必然将损失一些可能对分类有用的信息量，上采样方法则易产生过拟合现象，造成在测试数据上的性能较差。算法层面主要采用样本赋予学习权重的方式使分类器均衡地对待不同类别，相关专利...

【技术保护点】

【技术特征摘要】
1.一种针对非均衡数据的层次化赋权分类方法，其特征是，包括：类内子概念簇权重学习步骤：对训练样本进行层次聚类，根据聚类结果中各簇包含的样本数量计算各簇的样本权重，以使各子概念簇的数量权重总和保持一致并计算各子概念簇的类内权重；全局权重归一化步骤：根据一定的类间权重比率，将类内权重归一化至全局权重，并以此构建带权重的支持向量机作为分类器，利用该分类器对输入的带识别的非均衡数据进行分类。2.如权利要求1所述的一种针对非均衡数据的层次化赋权分类方法，其特征是，对训练样本进行层次聚类，具体为：获取带标签的训练数据；针对每个类别，采用层次聚类方法进行类别无监督聚类，获得类别内子概念簇；基于各簇间的样本数量计算数量权重，基于各簇与对立类间距离计算距离权重；基于数量权重和距离权重计算子概念簇的类内权重。3.如权利要求1所述的一种针对非均衡数据的层次化赋权分类方法，其特征是，利用渐进式二分查找法确定最优的类间权重比率。4.如权利要求1所述的一种针对非均衡数据的层次化赋权分类方法，其特征是，所述子概念簇的类内权重计算过程为：在针对每个类别样本进行无监督层次聚类后，假设得到k个子概念簇，各簇的数量表示为n1,n2,
…
,n
k
；以簇为单位进行赋权，针对每个类别，子概念簇的类内权重表示为Wc1,Wc2,
…
,Wc
k
，每个子概念簇的权重与其所包含的样本数量和于对立类的距离相关，具体可表示为：Wc
i
＝Wn
i
·
Wd
i
其中，Wn
i
表示第i簇的数量权重，Wd
i
表示第i簇与对立类的距离权重。5.如权利要求1所述的一种针对非均衡数据的层次化赋权分...

【专利技术属性】
技术研发人员：杨晓东，陈益强，
申请(专利权)人：山东产业技术研究院智能计算研究院，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人