一种基于聚类和相似度加权的kNN快速分类方法技术

技术编号：17655730 阅读：35 留言：0更新日期：2018-04-08 08:49

本发明专利技术实施例公开了一种基于聚类和相似度加权的kNN快速分类方法，基于聚类分析训练样本，产生数目较少的识别样本替代原训练样本进行分类，提高了kNN分类速度；在分类过程中，综合考虑最近邻识别样本的识别特性和待分类样本与最近邻识别样本的距离差异对分类的影响，提高了分类的准确度。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于聚类和相似度加权的kNN快速分类方法
本专利技术涉及数据处理
，尤其涉及一种基于聚类和相似度加权的kNN快速分类方法。
技术介绍
K最近邻(kNN,k-NearestNeighbor)分类方法是一种基于实例的学习方法，其基本思想是在训练样本中找到待分类样本的k个最近邻，然后根据这k个最近邻的类别来决定待分类样本的类别。kNN方法是一种简单、有效、非参数的分类算法，并在分类问题中得到广泛使用。但kNN分类在寻找最近邻样本的过程中，需要逐个计算待分类样本与每个训练样本的距离(或相似度)，其时间复杂度与训练样本数量成正比，在大数据样本情况下效率很低；同时，kNN分类过程没有考虑待分类样本与不同最近邻样本的距离大小，也忽略了最近邻样本与其他样本间的距离关系，影响了分类准确度。
技术实现思路
为解决上述技术问题，本专利技术实施例提供了一种基于聚类和相似度加权的kNN快速分类方法，以提高分类速度和分类准确度。为解决上述技术问题，本专利技术实施例提供了如下技术方案：一种基于聚类和相似度加权的kNN快速分类方法，所述方法包括：用聚类的方法分析训练样本，生成识别样本集；基于所述识别样本集，并基于相似度加权完成待分类样本最近邻分类。其中，所述用聚类的方法分析训练样本，生成识别样本集，具体包括：按照一定压缩比计算所得的聚类数，分别对每类训练样本进行聚类分析；将每类训练样本划分成若干个子类，以子类内所有训练样本的质心作为代表该子类的识别样本，并以识别样本与所代表的子类内所有训练样本的距离的算数平均值作为该识别样本的识别半径，并假定识别样本与所代表子类内所有训练样本的距离...
一种基于聚类和相似度加权的kNN快速分类方法

【技术保护点】
一种基于聚类和相似度加权的kNN快速分类方法，其特征在于，所述方法包括：用聚类的方法分析训练样本，生成识别样本集；基于所述识别样本集，并基于相似度加权完成待分类样本最近邻分类。

【技术特征摘要】
1.一种基于聚类和相似度加权的kNN快速分类方法，其特征在于，所述方法包括：用聚类的方法分析训练样本，生成识别样本集；基于所述识别样本集，并基于相似度加权完成待分类样本最近邻分类。2.根据权利要求1所述的方法，其特征在于，所述用聚类的方法分析训练样本，生成识别样本集，具体包括：按照一定压缩比计算所得的聚类数，分别对每类训练样本进行聚类分析；将每类训练样本划分成若干个子类，以子类内所有训练样本的质心作为代表该子类的识别样本，并以识别样本与所代表的子类内所有训练样本的距离的算数平均值作为该识别样本的识别半径，并假定识别样本与所代表子类内所有训练样本的距离满足高斯分布，计...

【专利技术属性】
技术研发人员：李中，张铁峰，郭利花，柏思瑶，
申请(专利权)人：华北电力大学保定，
类型：发明
国别省市：河北,13

全部详细技术资料下载我是这个专利的主人