不平衡数据的分类方法技术

技术编号：30324443 阅读：19 留言：0更新日期：2021-10-10 00:00

本发明专利技术公开了一种不平衡数据的分类方法，属于机器学习技术领域，包括主动学习方法和过采样方法，不平衡数据包括有标记数据和无标记数据，具体为：对有标记数据进行预处理，通过计算距离特征得到初始训练集；对初始训练集进行训练，得到初始分类器；利用初始分类器计算无标记数据的不确定度；根据不确定度对无标记数据进行排序，并交由人工进行标记，以得到已标记数据集；对已标记数据集进行概率过采样，以得到平衡数据集；对平衡数据集进行训练得到分类器，用以对不平衡数据进行分类。本发明专利技术的不平衡数据的分类方法通过将主动学习和过采样方法相结合，减少了参加训练样本数量；同时，保证分类器对多数类和少数类的数据都具有较高的分类精度。的分类精度。的分类精度。

全部详细技术资料下载

【技术实现步骤摘要】
不平衡数据的分类方法

[0001]本专利技术涉及一种不平衡数据的分类方法，属于机器学习领域。

技术介绍

[0002]目前，数据不平衡问题的研究主要在数据预处理层面、特征层面和分类算法层面展开，保证分类器对多数类和少数类的数据都具有较高的分类精度。在数据预处理层面，通过改变训练集样本分布降低或消除不平衡性，具体的方法是一系列的欠采样和过采样技术；在特征层面样本数量分布的不平衡往往伴随着特征属性的分布不平衡，利用特征选择方法去选择具有区分特性的特征，提高少数类的分类精度；在分类算法层面，根据算法在解决不平衡问题时的缺陷，结合不平衡数据的特点，通过合理地改进算法以提高少数类样本地识别率，典型的方法有集成学习，代价敏感学习，单类学习等。
[0003]主动学习的主要思想是在训练过程中引入交互能力，循环过程中主动选取最佳样本添加到训练集中，减少参加训练样本数量，节约运算消耗。根据学习进程来主动选择最佳候选样本进行学习，打破传统的从已知标识的样本集中进行被动学习的方法。这种学习算法不仅能有效减少所需评价样本数量，提高初始分类器的预测准确率，并且能主动筛选有用样本，保存了多数有用信息。主动学习可以避免大量的手工标记工作，并且可以较好解决训练集规模太大导致学习过程速度变慢，大量占用内存空间的问题。
[0004]主动学习的样例选择策略主要有：基于流的样例选择策略和基于池的样例选择。其中基于池的样例选择标准主要包括：不确定标准、版本空间缩减标准、泛化误差缩减标准等。基于不确定标准的样例选择主要为用概率表示不确定程度和用距离...

【技术保护点】

【技术特征摘要】
1.一种不平衡数据的分类方法，其特征在于：包括主动学习方法和过采样方法，所述不平衡数据包括第一类数据和第二类数据，所述第一类数据和/或第二类数据中包括有标记数据和无标记数据，具体步骤为：步骤1、对有标记数据进行预处理，通过计算距离特征得到初始训练集；步骤2、对所述初始训练集进行训练，得到初始分类器；步骤3、利用所述初始分类器计算所述无标记数据的不确定度；步骤4、根据所述不确定度对所述无标记数据进行排序，并交由人工进行标记，以得到已标记数据集；步骤5、对所述已标记数据集使用过采样方法进行概率过采样，以得到平衡数据集；步骤6、对所述平衡数据集进行训练得到分类器，用以对所述不平衡数据进行分类。2.根据权利要求1所述的不平衡数据的分类方法，其特征在于：所述主动学习方法为基于不确定性采样策略的样本选择方式；所述过采样方法具体为：样本的特征包括离散型特征和连续型特征，对连续型特征的样本使用EM算法并利用AIC准则进行拟合，得到混合高斯分布模型P，并计算每个特征在其它特征下的条件分布函数，再通过Gibbs抽样得到的新的样本；对离散型特征的样本使用先统计第一类数据中每个离散特征出现的不同频率，然后根据相应的频率随机产生新的样本。3.根据权利要求1所述的不平衡数据的分类方法，其特征在于，步骤1中的预处理为：计算有标记数据与无标记数据之间的内部距离，所述内部距离的计算公式如下：其中，n是数据维度，和分别表示无标记数据和有标记数据的第i维特征值。4.根据权利要求3所述的不平衡数据的分类方法，其特征在于：所述内部距离的最小值为距离特征，对无标记数据和有标记数据的所有样本计算每个样本x所有的距离特征，并按照距离特征从小到大的顺序排列，选取所述距离特征最小的前t个样本与所述有标记数据构成所述初始训练集，所述距离特征的计算公式如下：feature_dis(x)
x∈A
＝min
z∈B
Dis
inner
(x,z)，x∈A；其中，z为有标记数据的所有样本。5.根据权利要求1所述的不平衡数据的分类方法，其特征在于，步骤2具体为：使用支持向量机对所述初始训练集进行训练，得到初始分类器。6.根据权利要求1所述的不平衡数据的分类方法，其特征在于，步骤3具体为：使用所述初始分类器对所述无标记数据进行分类，得到样本x
i
属于类别y
i
的概率p(y
i
|x
i
)，根据样本x
i
属于类别y<...

【专利技术属性】
技术研发人员：赵正旦，章韵，
申请(专利权)人：南京邮电大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人