一种针对非平衡数据集的分类预测方法及分类预测器技术

技术编号：17615758 阅读：31 留言：0更新日期：2018-04-04 06:56

本发明专利技术公开一种针对非平衡数据集的分类预测方法及分类预测器，所述分类预测方法包括：获取非平衡数据集中的训练样本集以及所述训练样本集对应的最佳分类结果；基于当前目标函数对所述训练样本集进行分类，得到当前分类结果；判断所述当前分类结果与最佳分类结果是否一致；如果一致，则所述当前目标函数作为最优目标函数；否则，基于分类器评价指标对所述当前分类结果进行性能评价确定当前奖惩函数；根据当前奖惩函数对当前目标函数进行修正，获得当前修正目标函数，所述当前修正目标函数作为当前目标函数，重新分类。本发明专利技术引入奖惩函数，根据当前奖惩函数对当前目标函数不断进行修正，从而获得最优目标函数，实现对非平衡数据集的准确分类预测。

A classification prediction method and predictor for non balanced datasets

全部详细技术资料下载

【技术实现步骤摘要】
一种针对非平衡数据集的分类预测方法及分类预测器
本专利技术涉及非平衡数据集分类
，特别是涉及一种针对非平衡数据集的分类预测方法及分类预测器。
技术介绍
分类预测器是诸多行业用于预测某事件未来发展概率或可能性的一项重要的信息处理技术。对表征该事件的数据采用分类预测器进行分类预测可用于许多行业数据的分析，以预测其对应事件发生的可能性。但是，许多行业数据是典型的非平衡数据。以二分类问题为例，非平衡数据的特点是其中一类数据所占的比例远高于另一类，此处把所占比例高的数据称为多数类，所占比例低的数据称为少数类。少数类数据占的比例越低，不平衡率越高。但少数类数据的预测错误往往会带来更大的损失，如信用卡盗刷数据、矿井事故数据及脑卒中患者数据等都呈现非平衡分布特性。以脑卒中患者为例，如果将可能患病的脑卒中患者误判为正常，会导致延误病情，错过最佳治疗时间，严重时会付出生命代价。近年来，用于提高非平衡数据集少数类预测性能的预测方法主要包括重采样方法及基于代价敏感的方法。其中，重采样方法主要是通过改变所分析数据中两类数据所占的比例，以提高少数类数据所占比例，使预测器对少数类数据进行更充分的训练，从而使少数类数据的预测性能得到改善和提高。基于代价敏感的预测分类方法是通过添加代价敏感因子，使多数类数据和少数类数据的分类错误给予不同的代价敏感因子，通常少数类数据的分类错误给予较大的代价敏感因子，以提高少数类的分类性能。但这两种针对非平衡数据的方法：重采样方法及基于代价敏感的方法，其分类性能仍未达到理想效果。二者都不同程度会出现少数类的分类性能提高的同时，多数类的分类性能降低的现象...
一种针对非平衡数据集的分类预测方法及分类预测器

【技术保护点】
一种针对非平衡数据集的分类预测方法，其特征在于，所述分类预测方法包括：获取非平衡数据集中的训练样本集以及所述训练样本集对应的最佳分类结果；基于当前目标函数对所述训练样本集进行分类，得到当前分类结果；判断所述当前分类结果与最佳分类结果是否一致；如果一致，则所述当前目标函数作为最优目标函数，以对非平衡数据集中的测试样本集进行分类预测；否则，基于分类器评价指标对所述当前分类结果进行性能评价确定当前奖惩函数；根据当前奖惩函数对当前目标函数进行修正，获得当前修正目标函数，所述当前修正目标函数作为当前目标函数，重新分类。

【技术特征摘要】
1.一种针对非平衡数据集的分类预测方法，其特征在于，所述分类预测方法包括：获取非平衡数据集中的训练样本集以及所述训练样本集对应的最佳分类结果；基于当前目标函数对所述训练样本集进行分类，得到当前分类结果；判断所述当前分类结果与最佳分类结果是否一致；如果一致，则所述当前目标函数作为最优目标函数，以对非平衡数据集中的测试样本集进行分类预测；否则，基于分类器评价指标对所述当前分类结果进行性能评价确定当前奖惩函数；根据当前奖惩函数对当前目标函数进行修正，获得当前修正目标函数，所述当前修正目标函数作为当前目标函数，重新分类。2.根据权利要求1所述的针对非平衡数据集的分类预测方法，其特征在于，所述基于分类器评价指标对所述当前分类结果进行性能评价确定当前奖惩函数，具体包括：采用分类器评价指标对当前分类结果进行性能评价，确定各奖惩参数；根据各所述奖惩参数确定当前分类结果对应的当前奖惩函数。3.根据权利要求2所述的针对非平衡数据集的分类预测方法，其特征在于，各所述奖惩参数包括正类样本的分类效果、负类样本的分类效果、预测准确率及G均值指标。4.根据权利要求3所述的针对非平衡数据集的分类预测方法，其特征在于，根据各所述奖惩参数确定当前分类结果对应的当前奖惩函数，具体包括：根据正类样本的分类效果、负类样本的分类效果、预测准确率及G均值指标确定正类样本分类效果的奖惩函数RP(XP)及负类样本的奖惩函数RN(XN)；其中，X表示非平衡数据集中的训练样本集；为当前分裂节点的正类样本集；为当前分裂节点的负类样本集；根据所述正类样本分类效果的奖惩函数RP(XP)及负类样本的奖惩函数RN(XN)确定当前奖惩函数R(X)：R(X)＝RP(XP)RN(XN)。5.根据权利要求1所述的针对非平衡数据集的分类预测方法，其特征在于，根据以下公式确定所述当前修正目标函数：Oi′(X)＝Oi(X)·R(X)其中，X表示非平衡数据集中的训练样本集，Oi(X)表示当前目标函数，i≥0且为整数，O0(X)表示初始目标函数，R(X)为当前目标函数Oi(X)对应的奖惩函数，Oi′(X)表示对当前目标函数Oi...

【专利技术属性】
技术研发人员：李凤莲，张雪英，焦江丽，王灿，李坤奇，黄丽霞，孙颖，陈桂军，
申请(专利权)人：太原理工大学，
类型：发明
国别省市：山西,14

全部详细技术资料下载我是这个专利的主人