一种基于几何结构集成的不平衡数据分类系统技术方案

技术编号：20622554 阅读：21 留言：0更新日期：2019-03-20 14:25

本发明专利技术公开了一种基于几何结构集成的不平衡数据分类系统，该系统包括一下模块：输入模块，根据不平衡问题的具体描述，将采集到的样本转化得到向量形式的样本集合，其中，所述向量形式的样本集合包括少数类样本和多数类样本；训练模块，用于将向量形式的样本集合进行训练得到系统的少数类决策区域；测试模块，输入待判别的样本，判断待判别的样本是否在所述系统的少数类决策区域中，得到待判别样本所属的类别。在本发明专利技术中，利用支撑超平面原理设计了弱分类器，使得每个弱分类器都能识别不同的多数类样本，且弱分类器之间各有分工；通过其对应决策区域空间的组合，设计的集成策略能够有效的识别出少数类与多数类样本，从而有效地解决不平衡问题。

An Unbalanced Data Classification System Based on Geometric Structure Integration

The invention discloses an unbalanced data classification system based on geometric structure integration. The system includes the following modules: input module, according to the specific description of unbalanced problem, the collected samples are transformed into vector-form sample sets, in which the vector-form sample sets include a few samples and a majority of samples; training module, which is used to convert vector-form samples. The sample set is trained to get a few decision regions of the system; the test module inputs the samples to be judged, and determines whether the samples to be judged belong to the category of the samples to be judged in the minority decision regions of the system. In the present invention, a weak classifier is designed by using the principle of Supported Hyperplane, so that each weak classifier can recognize different samples of most classes, and each weak classifier has its own division of labor. Through the combination of corresponding decision region space, the designed integration strategy can effectively identify minority and majority classes of samples, thus effectively solving the imbalance problem.

全部详细技术资料下载

【技术实现步骤摘要】
一种基于几何结构集成的不平衡数据分类系统
本专利技术涉及数据处理领域，尤其设计了一种基于样本分布几何结构的集成分类系统处理样本分布不平衡数据分类系统。
技术介绍
当今世界正在迎来新一轮科技发展与变革之中，人工智能将是推动其发展变革的重要力量。模式识别是研究利用计算机来模仿或实现人类或其它动物的识别能力，使得研究对象能完成自动识别的任务。众所周知，线性或向量空间的概念广泛存在于众多科学领域之中，我们在使用“空间”这一概念的同时,就已经与几何建立了密切的联系。在模式识别领域，很多算法也都是建立在空间投影映射上。传统的模式识别技术面临现在许多问题如医疗诊断，金融欺诈等实例时，其中一个突出的挑战来自不平衡数据处理问题。不平衡数据是这样一种数据，在其内部的许多类别中，一些类别的样本数量远小于其余类别的样本数量。不平衡数据的特点是数据分布呈现不平衡性，其在实际生产生活中广泛存在。造成不平衡问题的原因又很多。比如在医疗统计数据中，由于收集过程中会加入大量的人员数据，导致数据中健康的患者居，而真正病患占比例较小，如果在诊断过程中，将病患诊断为健康人员将会造成严重后果，所以我们在对健康人员和真正病患的分类过程中，我们要尽可能将真正病患分类正确。再者如金融欺诈案件中，往往大部分都是正常案件，而少部分是真正的欺诈案件，如果没有将欺诈案件区分出来会造成严重的后果，所以在分类问题中，我们也要尽力将欺诈案件区分出来。由于现实问题的多样性与复杂性及不断涌现的新问题等，不平衡数据学习遇到相当大的挑战，存在若干关键问题需要进一步研究。传统的模式分类方法在处理不平衡问题时，通常将多有数据一视...

【技术保护点】
1.一种基于几何结构集成的不平衡数据分类系统，其特征在于，1)输入模块，根据不平衡问题的具体描述，将采集到的样本转化得到向量形式的样本集合，其中，所述向量形式的样本集合包括少数类样本和多数类样本；2)训练模块，用于将向量形式的样本集合进行训练得到系统的少数类决策区域；3)测试模块，输入待判别的样本，判断待判别的样本是否在所述系统的少数类决策区域中，得到待判别样本所属的类别。

【技术特征摘要】
1.一种基于几何结构集成的不平衡数据分类系统，其特征在于，1)输入模块，根据不平衡问题的具体描述，将采集到的样本转化得到向量形式的样本集合，其中，所述向量形式的样本集合包括少数类样本和多数类样本；2)训练模块，用于将向量形式的样本集合进行训练得到系统的少数类决策区域；3)测试模块，输入待判别的样本，判断待判别的样本是否在所述系统的少数类决策区域中，得到待判别样本所属的类别。2.根据权利要求1所述的基于几何结构集成的不平衡数据分类系统，其特征在于：所述训练模块包括：训练子集划分模块，弱分类器组训练模块，决策区域集成模块，其中，1)训练子集划分模块，利用所述的向量形式的样本集合和输入参数P，划分得到P个训练子集；2)弱分类器组训练模块，利用训练子集中的训练样本，得到当前训练子集中弱分类器组和弱分类器组中每个弱分类器对应的少数类决策区域；3)决策区域集成模块，对于所述P个训练子集中，取每个训练子集的弱分类器组中每个弱分类器对应的少数类决策区域的交集，得到每个训练子集的少数类决策区域集合，将P个训练子集的少数类决策区域集合合并得到系统的少数类决策区域。3.根据权利要求2所述的基于几何结构集成的不平衡数据分类系统，其特征在于，训练子集划分模块的处理过程为：利用输入参数P，将所述向量形式的样本集合中多数类样本随机划分为P个子集，将P个多数样本子集分别和原始样本集合中少数类样本合并，形成P个训练子集。4.根据权利要求2所述的基于几何结构集成的不平衡数据分类系统，其特征在于，弱分类器组训练模块的训练过程为：1)训练集样本初始化：对于P个训练子集，其中第i个训练子集的弱分类器组训练集Fi，Fi初始值为整个训练子集；2)弱分类器训练：计算训练集Fi中所有少数类样本的中心点，将距离少数类样本中心点最远的那个多数类样本点作为一个超圆的质心，然后将距离所述质心最近的一个少数类样本点作为切点，得到一个包含多数类样本超圆，计算质心与切点的欧式距离作为超圆的半径，过切点做超圆的切线得到超圆的支撑超平面；将超圆内部的多数类样本，投影到质心向切点的方向向量上，将投影距离最大的点作为阈值点，然后将该超平面继续往质心方向平移，直到移动至阈值点；所述移动后的支撑超平面即为弱分类器的分类边界，分类边界表达式为：{x|wTx+θ≤0,x∈S}其中，S是所形成的超圆的支撑超平面，w是支撑超平面的法向量，θ是支撑超平面的阈值，使阈值点经过支撑超平面，...

【专利技术属性】
技术研发人员：王喆，李冬冬，朱宗海，杜文莉，
申请(专利权)人：华东理工大学，
类型：发明
国别省市：上海,31

全部详细技术资料下载我是这个专利的主人