【技术实现步骤摘要】
一种基于不平衡数据集的PTM-WKNN分类方法和装置
本专利技术涉及不平衡数据集二分类
,特别是指一种基于不平衡数据集的PTM-WKNN分类方法和装置。
技术介绍
在生活中,数据不平衡的现象很常见,比如搜索引擎的点击预测、医疗诊断以及垃圾邮件检测等。在大部分不平衡问题中,少数类是被关注的重点,少数类也即正类,多数类也即负类。但在传统的分类算法中,往往将所有的样本一视同仁,这样虽然能取得一个较好的整体性能,但无法保证对于少数类的分类效果,因此就有必要研究针对不平衡数据集的分类方法。对于不平衡数据集的分类,很多人致力于其研究并作出了相关工作,通常将已有的处理不平衡数据集的方法进行了归纳,将他们分为三类,即基于数据采样的方法、基于代价敏感的方法以及改进算法层面的方法。在算法层面,KNN(k-NearestNeighbor,邻近算法)是一种被简单且被广泛使用的分类方法,被应用于诸多领域,也包括对不平衡数据集进行分类。K最近邻分类算法是数据挖掘分类技术中最简单的方法之一,其核心思想是如果一个样本在特征空间中的k个最相邻的样本中的大多数都属于某一个类别,则判定该样本也属 ...
【技术保护点】
1.一种基于不平衡数据集的PTM‑WKNN分类方法,其特征在于,包括:获取测试集样本的多个最近邻的训练集样本,分别计算训练集样本最佳局部k值并选择最大的所述训练集样本最佳局部k值作为测试集样本最佳局部k值;计算所述测试集样本与所述测试集样本最佳局部k值个最近邻所述训练集样本之间的欧式距离,根据所述欧式距离计算所述训练集样本所占的权重,根据所述权重计算正类邻居权重之和以及负类邻居权重之和;根据所述正类邻居权重之和以及所述负类邻居权重之和生成所述测试集样本的分类结果。
【技术特征摘要】
1.一种基于不平衡数据集的PTM-WKNN分类方法,其特征在于,包括:获取测试集样本的多个最近邻的训练集样本,分别计算训练集样本最佳局部k值并选择最大的所述训练集样本最佳局部k值作为测试集样本最佳局部k值;计算所述测试集样本与所述测试集样本最佳局部k值个最近邻所述训练集样本之间的欧式距离,根据所述欧式距离计算所述训练集样本所占的权重,根据所述权重计算正类邻居权重之和以及负类邻居权重之和;根据所述正类邻居权重之和以及所述负类邻居权重之和生成所述测试集样本的分类结果。2.根据权利要求1所述的方法,其特征在于,所述计算训练集样本最佳局部k值包括:设置所述训练集样本最佳局部k值ki的初始值为1,其中ki∈[kmin,kmax]且ki为奇数;依次验证所述训练集样本最佳局部k值ki,若ki取某个k值时,根据所述训练集样本的k个最近邻训练集样本能够为所述训练集样本分类,则将当前的k值赋值给所述训练集样本最佳局部k值ki。3.根据权利要求1所述的方法,其特征在于,所述欧式距离dist(xi,xj)的计算公式包括:4.根据权利要求3所述的方法,其特征在于,所述权重Wj的计算公式包括:5.根据权利要求4所述的方法,其特征在于,所述根据所述正类权重之和以及所述负类权重之和生成所述测试集样本的分类结果,包括:若所述正类邻居权重之和大于所述负类邻居权重之和,则所述测试集样本为正类;否...
【专利技术属性】
技术研发人员:张华,金正平,秦素娟,刘胜兰,金学奇,陈国恩,张磊,董宁,段鹏,任天宇,
申请(专利权)人:北京邮电大学,国网浙江省电力有限公司,国网北京市电力公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。