当前位置: 首页 > 专利查询>渤海大学专利>正文

一种基于凸多面体分类器的类别不平衡数据分类方法及系统技术方案

技术编号:26597940 阅读:60 留言:0更新日期:2020-12-04 21:20
本发明专利技术属于人工智能/信息科学技术领域,公开了一种基于凸多面体分类器的类别不平衡数据分类方法及系统,步骤如下:将类别不平衡数据集S划分为训练集T和测试集P,标记训练集T中的少数类样本X,标记训练集T中的多数样本Y;检测Y中落入X凸包中的样本并剔除,将Y中剩余样本的集合标记为Y';利用凸多面体构造算法在X和Y'之间训练凸多面体分类模型;利用获得的分类模型判别测试集P中每个样本的类别。本发明专利技术在解决类别不平衡数据分类问题时,充分考虑数据自然分布特性,不需要进行平衡预处理,也不需要调整过多的参数,实现简单,并适用于高维度数据,泛化能力较强。这也是首次将凸多面体分类器应用到不平衡数据分类领域,非常具有独创意义。

【技术实现步骤摘要】
一种基于凸多面体分类器的类别不平衡数据分类方法及系统
本专利技术属于人工智能/信息科学
,尤其涉及一种基于凸多面体分类器的类别不平衡数据分类方法及系统。
技术介绍
现有解决不平衡分类问题的方法主要是通过过采样、欠采样等数据重采样技术来改变训练样本的分布,从而降低数据的不平衡程度。然后,再把平衡后的数据喂给特定的分类器进行分类决策。过采样就是增加少数类中的样本,使少数类和多数类达到数量上的平衡。它通常利用K近邻和线性插值算法,在相距较近的两个少数类样本间合成不重复的新样本。但该方法容易造成分类边界处的数据重叠,使得分类器很难区分边界处的样本类别属性。即使强行把两类样本分开,但这种分类面势必会非常复杂,从而导致过学习。欠采样就是降低多数类样本数量到少数类的水平来维持平衡。它通常根据特定清理规则来删除或使用聚类来减少多数类样本。但对于清理来说,它可能会误删重要的样本数据,导致分类信息丢失;对于聚类来说,它使用聚类中心来决定样本的去留,因此重要的边界点信息可能会丢失。最近研究也表明一个由重采样技术形成的50%:50%的平衡本文档来自技高网...

【技术保护点】
1.一种基于凸多面体分类器的类别不平衡数据分类系统,其特征在于,所述基于凸多面体分类器的类别不平衡数据分类系统包括:/n有限不平衡数据集预处理模块,用于对于给定的有限不平衡数据集S,划分为训练集T和测试集P;然后标记训练集T中的少数类样本X以及标记训练集T中的多数类样本Y;/n样本空间的凸多面体分化模块,用于使用少数类集合X中样本的凸组合形式表示X的凸包,并提供两个样本集X和Y'凸多面体可分的判定;检测Y中不在X凸包里的样本,这些样本构成纯净样本集合Y',实现样本空间的凸多面体分化;/n分类模型构造模块,在X和Y'上运行凸多面体构造算法,获得一组线性判别函数的集合LDFs;根据集合LDFs构造...

【技术特征摘要】
1.一种基于凸多面体分类器的类别不平衡数据分类系统,其特征在于,所述基于凸多面体分类器的类别不平衡数据分类系统包括:
有限不平衡数据集预处理模块,用于对于给定的有限不平衡数据集S,划分为训练集T和测试集P;然后标记训练集T中的少数类样本X以及标记训练集T中的多数类样本Y;
样本空间的凸多面体分化模块,用于使用少数类集合X中样本的凸组合形式表示X的凸包,并提供两个样本集X和Y'凸多面体可分的判定;检测Y中不在X凸包里的样本,这些样本构成纯净样本集合Y',实现样本空间的凸多面体分化;
分类模型构造模块,在X和Y'上运行凸多面体构造算法,获得一组线性判别函数的集合LDFs;根据集合LDFs构造分类模型CPC(x);
分类决策模块,根据模型CPC(x)对测试集P中的样本进行分类决策,并输出分类结果。


2.一种基于凸多面体分类器的类别不平衡数据分类方法,其特征在于,所述基于凸多面体分类器的类别不平衡数据分类方法包括:
步骤1:对于给定的有限不平衡数据集S,以50%:50%比例划分为训练集T和测试集P;然后,标记训练集T中的少数类样本为X={xi,1≤i≤m},其中m为少数类样本的个数;标记训练集T中的多数类样本为Y={yj,1≤j≤n},其中n为多数类样本的个数;
步骤2:使用少数类集合X中样本的凸组合形式表示X的凸包,即CH(X)={x|x=∑1≤i≤mαixi,∑1≤i≤mαi=1,xi∈X,αi≥0},并提供两个样本集X和Y'凸多面体可分的判定准则:如果X的凸包与Y'的交集为空,表示为那么表明X相对于Y'是凸多面体可分的;然后,检测Y中不在X凸包里的样本,这些样本构成纯净样本集合Y',实现样本空间的凸多面体可分化;
步骤3:在X和Y'上运行凸多面体构造算法,获得一个线性判别函数的集合LDFs={fl(x),1≤l≤L},满足根据集合LDFs构造分类模型CPC(x),并表达为CPC(x)=+1,x∈X;CPC(x)=-1,x∈Y;
步骤4:根据模型CPC(x)对测试集P中的样本进行分类决策,并输出分类结果,评价指标包括准确率Precision、召回率Recall、特异率Specificity、F1度量F1-Score、G度量G-Mean。


3.如权利要求2所述的基于凸多面体分类器的类别不平衡数据分类方法,其特征在于,步骤2包括:
步骤2.1:设置初始纯净样本集合设置初始样本指示变量k=1;
步骤2.2:从多数...

【专利技术属性】
技术研发人员:冷强奎赵留洋李松宇
申请(专利权)人:渤海大学
类型:发明
国别省市:辽宁;21

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1