一种基于不平衡数据集的PTM-WKNN分类方法和装置制造方法及图纸

技术编号:20426287 阅读:43 留言:0更新日期:2019-02-23 08:53
本发明专利技术公开了一种基于不平衡数据集的PTM‑WKNN分类方法和装置。其中所述方法包括:获取测试集样本的多个最近邻的训练集样本,分别计算训练集样本最佳局部k值并选择最大的所述训练集样本最佳局部k值作为测试集样本最佳局部k值;计算所述测试集样本与所述测试集样本最佳局部k值个最近邻所述训练集样本之间的欧式距离,根据所述欧式距离计算所述训练集样本所占的权重,根据所述权重计算正类邻居权重之和以及负类邻居权重之和;根据所述正类邻居权重之和以及所述负类邻居权重之和生成所述测试集样本的分类结果。该方法和装置考虑了待分类样本的局部特性,又考虑到了每个近邻样本与待测样本的距离对样本分类的影响,具有更好的技术效果。

【技术实现步骤摘要】
一种基于不平衡数据集的PTM-WKNN分类方法和装置
本专利技术涉及不平衡数据集二分类
,特别是指一种基于不平衡数据集的PTM-WKNN分类方法和装置。
技术介绍
在生活中,数据不平衡的现象很常见,比如搜索引擎的点击预测、医疗诊断以及垃圾邮件检测等。在大部分不平衡问题中,少数类是被关注的重点,少数类也即正类,多数类也即负类。但在传统的分类算法中,往往将所有的样本一视同仁,这样虽然能取得一个较好的整体性能,但无法保证对于少数类的分类效果,因此就有必要研究针对不平衡数据集的分类方法。对于不平衡数据集的分类,很多人致力于其研究并作出了相关工作,通常将已有的处理不平衡数据集的方法进行了归纳,将他们分为三类,即基于数据采样的方法、基于代价敏感的方法以及改进算法层面的方法。在算法层面,KNN(k-NearestNeighbor,邻近算法)是一种被简单且被广泛使用的分类方法,被应用于诸多领域,也包括对不平衡数据集进行分类。K最近邻分类算法是数据挖掘分类技术中最简单的方法之一,其核心思想是如果一个样本在特征空间中的k个最相邻的样本中的大多数都属于某一个类别,则判定该样本也属于这个类别。通常情况下,可以使用K折交叉验证来估计KNN算法中的k值,并将该k值用于全体样本。K折交叉验证将原始数据均分成K组,将每个子集数据分别做一次验证集,其余的K-1组子集数据作为训练集,这样会得到K个模型,用这K个模型最终的验证集的性能平均数作为此时分类器的性能指标。通过比较不同近邻个数下的KNN方法中的K折交叉验证性能,最终取到最佳性能下对应的k值,即最佳的近邻个数取值。传统的KNN存在一些不足,其中有一个问题就是该算法对所有的近邻都是分配的相等的权重,针对这个缺陷,WKNN在传统KNN的基础上进行了改进。对于每个测试集样本,WKNN考虑到了待测样本的k个邻居与待测样本的距离不同,造成的影响不同,越近的邻居造成的影响越大,越远的邻居影响越小,故引入权重随距离增大而减小的减函数作为权重函数,给更近的邻居分配更大的权重,而较远的邻居的权重相应减少,这就需要一个能把距离转换为权重的函数,如高斯函数,倒数函数等等,最后进行各类加权,将不同类别下的决策权重进行比较,得到各个样本的分类结果。除此之外,KNN分类器还存在一个问题,即如何寻找一个适当的k值。k值若太小,得到的近邻数过少,会降低分类精度,同时也会放大噪声数据的干扰;而k值若太大,如果待分类样本属于少数类,那么在选择k个近邻的时候,实际上并不相似的数据也被包含进来,造成噪声增加,从而导致分类效果降低。传统KNN的做法是,使用交叉验证获得一个k值用于全体样本,但事实上不同样本的情况有所不同,对于不同的样本使用不同k值,可能会提高k-NN的分类精度。Garciapedrajas(GarciapedrajasN,DelCastilloJA,CerruelagarciaG.AProposalforLocalkValuesfork-NearestNeighborRule.[J].IEEETransactionsonNeuralNetworks&LearningSystems,2017,28(2):470.)等人提出了PTM方法,PTM-KNN方法考虑到了每个样本的局部特性,为样本引入了局部k值。针对已知类别的训练集样本,评估在限定范围内每个k值的性能,并得到各个训练集样本的最优局部k值,然后将测试集样本和训练集样本进行关联,针对训练集样本的k值情况对测试集样本都给出了一个最优局部k值。最终通过实验证明,该方法无论是在标准的数据集还是不平衡数据集中,都有着优于传统方法的性能表现。但是,该方法没有考虑各个近邻样本与待测样本的不同距离所带来的影响差异。
技术实现思路
有鉴于此,本专利技术实施例的目的在于提出一种基于不平衡数据集的PTM-WKNN分类方法和装置,考虑了待分类样本的局部特性,又考虑到了每个近邻样本与待测样本的距离对样本分类的影响。基于上述目的本专利技术实施例提供的一种基于不平衡数据集的PTM-WKNN分类方法,包括:获取测试集样本的多个最近邻的训练集样本,分别计算训练集样本最佳局部k值并选择最大的所述训练集样本最佳局部k值作为测试集样本最佳局部k值;计算所述测试集样本与所述测试集样本最佳局部k值个最近邻所述训练集样本之间的欧式距离,根据所述欧式距离计算所述训练集样本所占的权重,根据所述权重计算正类邻居权重之和以及负类邻居权重之和;根据所述正类邻居权重之和以及所述负类邻居权重之和生成所述测试集样本的分类结果。可选的,所述计算训练集样本最佳局部k值包括:设置所述训练集样本最佳局部k值ki的初始值为1,其中ki∈[kmin,kmax]且ki为奇数;依次验证所述训练集样本最佳局部k值ki,若ki取某个k值时,根据所述训练集样本的k个最近邻训练集样本能够为所述训练集样本分类,则将当前的k值赋值给所述训练集样本最佳局部k值ki。可选的,所述欧式距离dist(xi,xj)的计算公式包括:可选的,所述权重Wj的计算公式包括:可选的,所述根据所述正类权重之和以及所述负类权重之和生成所述测试集样本的分类结果,包括:若所述正类邻居权重之和大于所述负类邻居权重之和,则所述测试集样本为正类;否则,为负类。本专利技术实施例还提供一种基于不平衡数据集的PTM-WKNN分类装置,包括:获取模块,用于获取测试集样本的多个最近邻的训练集样本,分别计算训练集样本最佳局部k值并选择最大的所述训练集样本最佳局部k值作为测试集样本最佳局部k值;计算模块,用于计算所述测试集样本与所述测试集样本最佳局部k值个最近邻所述训练集样本之间的欧式距离,根据所述欧式距离计算所述训练集样本所占的权重,根据所述权重计算正类邻居权重之和以及负类邻居权重之和;生成模块,用于根据所述正类邻居权重之和以及所述负类邻居权重之和生成所述测试集样本的分类结果。可选的,所述获取模块还用于实现:设置所述训练集样本最佳局部k值ki的初始值为1,其中ki∈[kmin,kmax]且ki为奇数;依次验证所述训练集样本最佳局部k值ki,若ki取某个k值时,根据所述训练集样本的k个最近邻训练集样本能够为所述训练集样本分类,则将当前的k值赋值给所述训练集样本最佳局部k值ki。可选的,所述欧式距离dist(xi,xj)的计算公式包括:可选的,所述权重Wj的计算公式包括:可选的,所述生成模块还用于实现:若所述正类邻居权重之和大于所述负类邻居权重之和,则所述测试集样本为正类;否则,为负类。从上面所述可以看出,本专利技术实施例提供的一种基于不平衡数据集的PTM-WKNN分类方法和装置,通过为不同样本选择不同近邻个数的基础上,融入了距离加权KNN的思想,考虑到对邻居与待测样本距离不同所带来的影响差异,引入了加权函数;该方法既考虑了待分类样本的局部特性,获取到每个样本对应的最优局部k值,又考虑到了每个近邻样本与待测样本的距离对样本分类的影响,通过赋予权值来衡量每个近邻样本的重要性,并计算不同类别下的权重之和对待分类样本进行分类。该方法可以应用于各类数据数量存在差异的二分类不平衡数据集,在兼顾整体分类效果的前提下,也将提高对少数类数据的分类性能。附图说明图1为本专利技术实施例一种基于不平衡数据集的PT本文档来自技高网
...

【技术保护点】
1.一种基于不平衡数据集的PTM‑WKNN分类方法,其特征在于,包括:获取测试集样本的多个最近邻的训练集样本,分别计算训练集样本最佳局部k值并选择最大的所述训练集样本最佳局部k值作为测试集样本最佳局部k值;计算所述测试集样本与所述测试集样本最佳局部k值个最近邻所述训练集样本之间的欧式距离,根据所述欧式距离计算所述训练集样本所占的权重,根据所述权重计算正类邻居权重之和以及负类邻居权重之和;根据所述正类邻居权重之和以及所述负类邻居权重之和生成所述测试集样本的分类结果。

【技术特征摘要】
1.一种基于不平衡数据集的PTM-WKNN分类方法,其特征在于,包括:获取测试集样本的多个最近邻的训练集样本,分别计算训练集样本最佳局部k值并选择最大的所述训练集样本最佳局部k值作为测试集样本最佳局部k值;计算所述测试集样本与所述测试集样本最佳局部k值个最近邻所述训练集样本之间的欧式距离,根据所述欧式距离计算所述训练集样本所占的权重,根据所述权重计算正类邻居权重之和以及负类邻居权重之和;根据所述正类邻居权重之和以及所述负类邻居权重之和生成所述测试集样本的分类结果。2.根据权利要求1所述的方法,其特征在于,所述计算训练集样本最佳局部k值包括:设置所述训练集样本最佳局部k值ki的初始值为1,其中ki∈[kmin,kmax]且ki为奇数;依次验证所述训练集样本最佳局部k值ki,若ki取某个k值时,根据所述训练集样本的k个最近邻训练集样本能够为所述训练集样本分类,则将当前的k值赋值给所述训练集样本最佳局部k值ki。3.根据权利要求1所述的方法,其特征在于,所述欧式距离dist(xi,xj)的计算公式包括:4.根据权利要求3所述的方法,其特征在于,所述权重Wj的计算公式包括:5.根据权利要求4所述的方法,其特征在于,所述根据所述正类权重之和以及所述负类权重之和生成所述测试集样本的分类结果,包括:若所述正类邻居权重之和大于所述负类邻居权重之和,则所述测试集样本为正类;否...

【专利技术属性】
技术研发人员:张华金正平秦素娟刘胜兰金学奇陈国恩张磊董宁段鹏任天宇
申请(专利权)人:北京邮电大学国网浙江省电力有限公司国网北京市电力公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1