一种基于几何结构集成的不平衡数据分类系统技术方案

技术编号:20622554 阅读:21 留言:0更新日期:2019-03-20 14:25
本发明专利技术公开了一种基于几何结构集成的不平衡数据分类系统,该系统包括一下模块:输入模块,根据不平衡问题的具体描述,将采集到的样本转化得到向量形式的样本集合,其中,所述向量形式的样本集合包括少数类样本和多数类样本;训练模块,用于将向量形式的样本集合进行训练得到系统的少数类决策区域;测试模块,输入待判别的样本,判断待判别的样本是否在所述系统的少数类决策区域中,得到待判别样本所属的类别。在本发明专利技术中,利用支撑超平面原理设计了弱分类器,使得每个弱分类器都能识别不同的多数类样本,且弱分类器之间各有分工;通过其对应决策区域空间的组合,设计的集成策略能够有效的识别出少数类与多数类样本,从而有效地解决不平衡问题。

An Unbalanced Data Classification System Based on Geometric Structure Integration

The invention discloses an unbalanced data classification system based on geometric structure integration. The system includes the following modules: input module, according to the specific description of unbalanced problem, the collected samples are transformed into vector-form sample sets, in which the vector-form sample sets include a few samples and a majority of samples; training module, which is used to convert vector-form samples. The sample set is trained to get a few decision regions of the system; the test module inputs the samples to be judged, and determines whether the samples to be judged belong to the category of the samples to be judged in the minority decision regions of the system. In the present invention, a weak classifier is designed by using the principle of Supported Hyperplane, so that each weak classifier can recognize different samples of most classes, and each weak classifier has its own division of labor. Through the combination of corresponding decision region space, the designed integration strategy can effectively identify minority and majority classes of samples, thus effectively solving the imbalance problem.

【技术实现步骤摘要】
一种基于几何结构集成的不平衡数据分类系统
本专利技术涉及数据处理领域,尤其设计了一种基于样本分布几何结构的集成分类系统处理样本分布不平衡数据分类系统。
技术介绍
当今世界正在迎来新一轮科技发展与变革之中,人工智能将是推动其发展变革的重要力量。模式识别是研究利用计算机来模仿或实现人类或其它动物的识别能力,使得研究对象能完成自动识别的任务。众所周知,线性或向量空间的概念广泛存在于众多科学领域之中,我们在使用“空间”这一概念的同时,就已经与几何建立了密切的联系。在模式识别领域,很多算法也都是建立在空间投影映射上。传统的模式识别技术面临现在许多问题如医疗诊断,金融欺诈等实例时,其中一个突出的挑战来自不平衡数据处理问题。不平衡数据是这样一种数据,在其内部的许多类别中,一些类别的样本数量远小于其余类别的样本数量。不平衡数据的特点是数据分布呈现不平衡性,其在实际生产生活中广泛存在。造成不平衡问题的原因又很多。比如在医疗统计数据中,由于收集过程中会加入大量的人员数据,导致数据中健康的患者居,而真正病患占比例较小,如果在诊断过程中,将病患诊断为健康人员将会造成严重后果,所以我们在对健康人员和真正病患的分类过程中,我们要尽可能将真正病患分类正确。再者如金融欺诈案件中,往往大部分都是正常案件,而少部分是真正的欺诈案件,如果没有将欺诈案件区分出来会造成严重的后果,所以在分类问题中,我们也要尽力将欺诈案件区分出来。由于现实问题的多样性与复杂性及不断涌现的新问题等,不平衡数据学习遇到相当大的挑战,存在若干关键问题需要进一步研究。传统的模式分类方法在处理不平衡问题时,通常将多有数据一视同仁,导致决策时更偏向于多数类,然后在不平衡问题中,少数类更值得关注。为了解决不平衡问题,当前方法可以分为三类:第一类是基于采样的方法,在数据预处理环节,通过增加少数类样本或是减少多数类样本,使得样本数量趋向平衡。该类代表算法包括下采样算法(OneSideSelection)和少数类上采样算法(SyntheticMinorityOversamplingTechnique)等;第二类是基于代价敏感的方法,通过增加少数类样本的权重,使得在分类中将其误分的代价提高,从而纠正传统分类器决策时偏向于多数类的情况。该类代表算法主要以Cost-SensitiveLearning为主包括代价敏感局保投影算法(Cost-sensitivelocalitypreservingprojections)、代价敏感主成分分析算法(Cost-sensitiveprincipalcomponentanalysis)及代价敏感判别分析算法(Cost-sensitivelineardiscriminantanalysis)等;第三类是集成方法,设计识别能力弱的分类器,这种分类器称为弱分类器,通过将多个弱分类器集成获得强分类结果,通常与采样结合形成SMOTEBoost,RUSBoost等算法,与代价敏感结合形成AdaCost等算法。目前,三类方法都存在各自不足。第一类方法较易实现,但是对于增加或删除的样本是否合理需要进一步讨论,通常这样做会破环原始数据的分布。第二类方法需要调整大量参数以获取最优值,此外第二类方法计算代价,为了获取样本代价,需要遍历大多数样本,导致效率降低。第三类集成方法通常也要与采样或是代价敏感相结合,此外弱分类器的集成中,分类器数量难以确定,过少效果不佳,过多则过度复杂。但是集成学习,能供借鉴各种方法的优点,所以能获取更好的结果。若能设计出结构简洁,训练虚度快,且能很好矫正偏差的集成方法,将会进一步提高集成学习技术在不平衡问题上的处理能力。
技术实现思路
针对现有集成学习技术中,缺乏直观性,技术结构复杂,分类器之间缺乏差异性多样性以及难以确定弱分类器数量等问题。本专利技术提供了一种基于几何结构集成的不平衡数据分类系统。使用超圆的几何结构拟合多数类数据的分布,并依据支撑超平面原理设计出能识别超圆内多数类样本的分类边界,再通过分类边界的组合,设计了能识别部分多数类样本和全部少数类样本的弱分类器。通过对弱分类决策区域的交并操作获取少数类与多数类的决策区域。该策略由于在空间上进行操作,具有良好的直观性。弱分类器之间也分工不同,满足了多样性的设计要求。此外该方法无需预设弱分类器的数量,同时也具有相当高的学习效率。本专利技术解决其技术问题所采用的技术方案(以两类不平衡问题为例):首先根据不平衡问题的描述,将采集到的样本转化为后续算法可处理的向量模式。训练过程中,使用超圆的几何结构拟合部分多数类样本,并由此生成支撑超平面,保证每个弱分类器能在保证少数类全部划分正确的情况下,识别出部分多数类样本。然后将正确识别的多数类去除,在剩下的样本中,继续训练弱分类器,直到所有多数类被去除为止。将所有弱分类的少数类决策区域取交集,即获得集成后的少数类决策区域。为了克服过过拟合问题,该方法中将识别能力较差的弱分类器去除,并且将多数类样本划分子集进行训练,使得该系统对于识别少数类样本更又优势。测试过程中,只需要判断测试样本落入对应的决策区域即可。本专利技术解决其技术问题所采用的技术方案还可以进一步完善。所述训练过程中,弱分类器没有从全局角度出发,只是完成识别部分多数类并保证少数类分类正确的目的,多以缺乏全局性的考虑。另外,为了克服算法会存在的过拟合现象,本文设计的松弛策略,都是基于经验考虑,没有从算法上严格证明,后续正对松弛方法,可以进一步与准则函数结合,从而提高泛化性能。本专利技术有益的效果是:利用超圆的几何结构,以及决策空间的几何关系,设计出具有几何直观性的分类器。其弱分类器设计简单,快速。配合空间的交并关系,使得该分类方法具有良好的几何直观性。由于每个弱分类器都识别不同的多数类样本,所以天然地具有了多样性的特点。此外,由于该策略通过不断去除多数类来完成的,所以无需预设弱分类器的数量。附图说明图1是本专利技术应用于不平衡模式分类问题的系统框架;图2是本专利技术在训练步骤的详细描述;图3是本专利技术在测试步骤的流程图;具体实施方式下面结合附图和实施例对本专利技术作进一步介绍:本专利技术的方法共分三个模块。第一部分:输入模块输入数据为将现实中的不平衡问题数据转化,生成向量形式的数据集便于后续模块进行处理。对于一个输入样本i,其向量表示向量xi,向量的维度d,如下所示:xi=[xi,1,xi,2,...,xi,d]∈Rd该系统的输入中包含少数类与多数类样本的集合。对于少数类样本集合表示为其中nmin为少数类样本的数量。多数类样本集合表示为其中nmaj是多数类样本数量。第二部分:训练模块在这个模块中,采集到的少数类与多数类数据集输入专利技术的核心算法中进行训练。主要步骤如下:1)训练子集划分模块:由于在不平衡问题中,多数类样本远远多于少数类样本,为了更好地识别少数类样本,所以我们进一步地将多数类样本集Xmaj随机地地拆分成P个部分,然后每个部分与少数类进行结合形成新的训练子集Fi,其中i=1….P。2)弱分类器组训练模块包括训练集样本初始化,弱分类器训练和新训练集生成:a)训练集样本初始化:对于P个训练子集,其中第i个训练子集的弱分类器组训练集Fi,Fi初始值为整个训练子集;b)弱分类器训练:在第i个训练子集Fi中,取少数类样本的中心本文档来自技高网
...

【技术保护点】
1.一种基于几何结构集成的不平衡数据分类系统,其特征在于,1)输入模块,根据不平衡问题的具体描述,将采集到的样本转化得到向量形式的样本集合,其中,所述向量形式的样本集合包括少数类样本和多数类样本;2)训练模块,用于将向量形式的样本集合进行训练得到系统的少数类决策区域;3)测试模块,输入待判别的样本,判断待判别的样本是否在所述系统的少数类决策区域中,得到待判别样本所属的类别。

【技术特征摘要】
1.一种基于几何结构集成的不平衡数据分类系统,其特征在于,1)输入模块,根据不平衡问题的具体描述,将采集到的样本转化得到向量形式的样本集合,其中,所述向量形式的样本集合包括少数类样本和多数类样本;2)训练模块,用于将向量形式的样本集合进行训练得到系统的少数类决策区域;3)测试模块,输入待判别的样本,判断待判别的样本是否在所述系统的少数类决策区域中,得到待判别样本所属的类别。2.根据权利要求1所述的基于几何结构集成的不平衡数据分类系统,其特征在于:所述训练模块包括:训练子集划分模块,弱分类器组训练模块,决策区域集成模块,其中,1)训练子集划分模块,利用所述的向量形式的样本集合和输入参数P,划分得到P个训练子集;2)弱分类器组训练模块,利用训练子集中的训练样本,得到当前训练子集中弱分类器组和弱分类器组中每个弱分类器对应的少数类决策区域;3)决策区域集成模块,对于所述P个训练子集中,取每个训练子集的弱分类器组中每个弱分类器对应的少数类决策区域的交集,得到每个训练子集的少数类决策区域集合,将P个训练子集的少数类决策区域集合合并得到系统的少数类决策区域。3.根据权利要求2所述的基于几何结构集成的不平衡数据分类系统,其特征在于,训练子集划分模块的处理过程为:利用输入参数P,将所述向量形式的样本集合中多数类样本随机划分为P个子集,将P个多数样本子集分别和原始样本集合中少数类样本合并,形成P个训练子集。4.根据权利要求2所述的基于几何结构集成的不平衡数据分类系统,其特征在于,弱分类器组训练模块的训练过程为:1)训练集样本初始化:对于P个训练子集,其中第i个训练子集的弱分类器组训练集Fi,Fi初始值为整个训练子集;2)弱分类器训练:计算训练集Fi中所有少数类样本的中心点,将距离少数类样本中心点最远的那个多数类样本点作为一个超圆的质心,然后将距离所述质心最近的一个少数类样本点作为切点,得到一个包含多数类样本超圆,计算质心与切点的欧式距离作为超圆的半径,过切点做超圆的切线得到超圆的支撑超平面;将超圆内部的多数类样本,投影到质心向切点的方向向量上,将投影距离最大的点作为阈值点,然后将该超平面继续往质心方向平移,直到移动至阈值点;所述移动后的支撑超平面即为弱分类器的分类边界,分类边界表达式为:{x|wTx+θ≤0,x∈S}其中,S是所形成的超圆的支撑超平面,w是支撑超平面的法向量,θ是支撑超平面的阈值,使阈值点经过支撑超平面,...

【专利技术属性】
技术研发人员:王喆李冬冬朱宗海杜文莉
申请(专利权)人:华东理工大学
类型:发明
国别省市:上海,31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1