一种基于边界消解伪逆算法的不平衡数据分类系统技术方案

技术编号:16080522 阅读:56 留言:0更新日期:2017-08-25 15:46
本发明专利技术提供一种基于边界消解伪逆算法的不平衡数据分类系统,首先将采集的样本转为向量;用伪逆算法生成原始决策面,并构造平行于该决策面且分别过两类质心的两新决策面,保留位于新决策面间的样本作候选,去除其余样本;然后计算候选多数类样本到过该类质心超平面的距离,少数类作相同处理,构成该类距离向量;最后将测试样本点到两新决策面的距离,分别与两类距离向量比较并统计短于候选样本与平面的距离的数目。测试样本被预测为数目更多的那一类。相较于传统的分类技术,本发明专利技术通过两步训练,融合了基于边界的伪逆算法和基于非边界的启发式近邻算法,提高了分类精确度,并大大缩短调试时间。

【技术实现步骤摘要】
一种基于边界消解伪逆算法的不平衡数据分类系统
本专利技术涉及模式分类
,尤其涉及一种对不平衡数据集进行识别处理的边界消解伪逆方法与系统。
技术介绍
模式识别是研究利用计算机来模仿或实现人类或其它动物的识别能力,以便对研究对象完成自动识别的任务。近年来,模式识别技术已被广泛应用在人工智能、机器学习、计算机工程、机器人学、神经生物学、医学、侦探学以及考古学、地质勘探、宇航科学和武器技术等许多重要领域。可是,伴随应用领域的拓展,传统的模式识别技术面临新的挑战。其中一个突出的挑战来自不平衡数据处理问题。不平衡数据是这样一种数据,在其内部的许多类别中,一些类别的样本数量远小于其余类别的样本数量。为简便,称样本数少的类为少数类,称样本数多的类为多数类。实际应用中,少数类往往比多数类错分的代价大,例如医疗诊断时,误判一个潜在病患的代价比误判一个实际健康的人要大。同样地,在错误检测、软测量、融资预测、医疗探查等领域存在大量不平衡数据。传统的模式分类方法在处理不平衡问题时,由于多数类样本的影响,往往得到偏差较大的结果。为了解决不平衡问题,一些特定的方法被设计出来。目前,专门针对不平衡问题的方法可本文档来自技高网...
一种基于边界消解伪逆算法的不平衡数据分类系统

【技术保护点】
一种基于边界消解伪逆算法的不平衡数据分类系统,其特征在于:具体步骤是:1)、样本采集:后台根据具体的不平衡问题描述,将采集到的样本转化成可以供后续算法处理的向量模型;2)第一次训练,得到三个分类决策面:首先使用基于伪逆算法的分类策略对训练样本点划分出大致的分类决策面,并进一步生成平行于该分类决策面且过两类样本质心的两个新决策面;只有位于两个过质心决策面中间空间的样本被保留作为候选子集,其余样本被去除;3)第二次训练,获取两个距离向量:得到每个候选的多数类样本点距离过多数类质心决策面的距离,少数类作同样处理,两类各自样本的距离生成两个距离向量;4)测试阶段,计算测试样本点属于两类候选样本的概率,...

【技术特征摘要】
1.一种基于边界消解伪逆算法的不平衡数据分类系统,其特征在于:具体步骤是:1)、样本采集:后台根据具体的不平衡问题描述,将采集到的样本转化成可以供后续算法处理的向量模型;2)第一次训练,得到三个分类决策面:首先使用基于伪逆算法的分类策略对训练样本点划分出大致的分类决策面,并进一步生成平行于该分类决策面且过两类样本质心的两个新决策面;只有位于两个过质心决策面中间空间的样本被保留作为候选子集,其余样本被去除;3)第二次训练,获取两个距离向量:得到每个候选的多数类样本点距离过多数类质心决策面的距离,少数类作同样处理,两类各自样本的距离生成两个距离向量;4)测试阶段,计算测试样本点属于两类候选样本的概率,作出最终决策:得到当前测试样本点到两个过质心决策面的距离后,用这两个距离和训练模块生成的两类距离向量分别比较,通过判断测试样本点在哪一边的距离更接近质心决策面而作出最终决定。2.根据权利要求1所述的一种基于边界消解伪逆算法的不平衡数据分类系统,其特征在于:所述的第一次训练阶段,得到三个分类决策面的具体步骤包括:首先利用伪逆算法生成分类决策面ld;其次过两类训练样本质心,作平行于ld的两个分类面lpos与lneg;之后将位于lpos与lneg之间的训练样本留下作为候选子集C,其余样本去除;最后,为进一步简化...

【专利技术属性】
技术研发人员:王喆李冬冬朱昱锦高大启
申请(专利权)人:华东理工大学
类型:发明
国别省市:上海,31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1