一种基于样本包络多层聚类的数据集平衡化学习方法技术

技术编号：32031483 阅读：21 留言：0更新日期：2022-01-27 13:04

本发明专利技术涉及人工智能技术领域，具体公开了一种基于样本包络多层聚类的数据集平衡化学习方法，包括步骤：选择不平衡训练集，该不平衡训练集由少数类样本和多数类样本组成；对少数类样本和多数类样本构造对应的包络化少数类样本和包络化多数类样本；对包络化少数类样本进行深度样本变换，得到对应的L层包络化少数类深度样本，L≥1；将包络化少数类样本与每层包络化少数类深度样本进行融合，得到样本数目与包络化多数类样本平衡的包络化少数类平衡样本；将包络化少数类平衡样本与包络化多数类样本融合，得到平衡训练集。本发明专利技术增加了少数类样本的多样性，提高了少数类样本的质量，从而增加了模型对少数类样本的学习能力，提升了其分类或预测的准确性。其分类或预测的准确性。其分类或预测的准确性。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于样本包络多层聚类的数据集平衡化学习方法

[0001]本专利技术涉及人工智能
，尤其涉及一种基于样本包络多层聚类的数据集平衡化学习方法。

技术介绍

[0002]在数据挖掘和机器学习研究中，一个潜在的严峻挑战是如何处理“不平衡类别”。一类可能包含大量样本，而另一类可能只有少数样本。当遇到类的不平衡时，标准及其学习算法的整体分类精度会过于关注多数类，而降低了少数类样本的分类性能，分类器可能会将少数类中的一些数据点视为离群值，从而产生极高的误分类错误率。因此，数据挖掘任务中的主要关注类通常是少数(或罕见)类，有必要提高少数类实例的识别精度。
[0003]现有的非平衡过采样算法中，大多数算法旨在解决类间不平衡问题，而忽略了类内不平衡问题，但基于SMOTE的过采样会导致产生噪声实例，因为它不能保证生成的实例分布更接近于原始实例分布。为了解决类内不平衡的问题，采用了聚类算法。在基于聚类的方法中，首先将数据集划分为几个较小的子群，然后在这些子群中使用抽样方法来维持类的平衡。聚类算法可以有效地解决类内不平衡的问题。/>[0004]然而本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于样本包络多层聚类的数据集平衡化学习方法，其特征在于，包括步骤：S1、选择不平衡训练集，该不平衡训练集由少数类样本和多数类样本组成；S2、对所述少数类样本和多数类样本通过相似性测度来计算最相似样本、合并原样本，构造对应的包络化少数类样本和包络化多数类样本；S3、采用深度样本包络网络对所述包络化少数类样本进行深度样本变换，得到对应的L层包络化少数类深度样本，L≥1；S4、将所述包络化少数类样本与每层所述包络化少数类深度样本进行融合，得到样本数目与所述包络化多数类样本平衡的包络化少数类平衡样本；S5、将所述包络化少数类平衡样本与所述包络化多数类样本融合，得到平衡训练集。2.根据权利要求1所述的一种基于样本包络多层聚类的数据集平衡化学习方法，其特征在于，所述步骤S3具体包括步骤：S31、基于多层模糊均值聚类及最大平均差异的最小层间差异机制构建深度样本包络网络，所述深度样本包络网络的层数由聚类前后的样本数确定；S32、采用所述深度样本包络网络对所述包络化少数类样本进行深度样本变换，得到每层网络空间的深度包络样本；S33、在目标函数收敛后，将所有深度包络样本输出则得到所述包络化少数类深度样本。3.根据权利要求2所述的一种基于样本包络多层聚类的数据集平衡化学习方法，其特征在于：在所述步骤S31中，若聚类后样本数为聚类前样本数的1/t，则根据计算所述深度样本包络网络的最小层数L，L≥1，其中，n1、n2分别表示所述少数类样本、所述多数类样本的样本数目。4.根据权利要求3所述的一种基于样本包络多层聚类的数据集平衡化学习方法，其特征在于，在所述步骤S32中，进行深度样本变换采用公式：其中，J1(U,V)表示目标函数，minJ1(U,V)表示最小化目标函数，c表示聚类的数目，u
ik
表示所述少数类样本X
min
中第k个样本...

【专利技术属性】
技术研发人员：李勇明，李帆，王品，张小恒，贾云健，李新科，颜芳，
申请(专利权)人：重庆大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人