一种基于聚类和相似度加权的kNN快速分类方法技术

技术编号:17655730 阅读:35 留言:0更新日期:2018-04-08 08:49
本发明专利技术实施例公开了一种基于聚类和相似度加权的kNN快速分类方法,基于聚类分析训练样本,产生数目较少的识别样本替代原训练样本进行分类,提高了kNN分类速度;在分类过程中,综合考虑最近邻识别样本的识别特性和待分类样本与最近邻识别样本的距离差异对分类的影响,提高了分类的准确度。

【技术实现步骤摘要】
一种基于聚类和相似度加权的kNN快速分类方法
本专利技术涉及数据处理
,尤其涉及一种基于聚类和相似度加权的kNN快速分类方法。
技术介绍
K最近邻(kNN,k-NearestNeighbor)分类方法是一种基于实例的学习方法,其基本思想是在训练样本中找到待分类样本的k个最近邻,然后根据这k个最近邻的类别来决定待分类样本的类别。kNN方法是一种简单、有效、非参数的分类算法,并在分类问题中得到广泛使用。但kNN分类在寻找最近邻样本的过程中,需要逐个计算待分类样本与每个训练样本的距离(或相似度),其时间复杂度与训练样本数量成正比,在大数据样本情况下效率很低;同时,kNN分类过程没有考虑待分类样本与不同最近邻样本的距离大小,也忽略了最近邻样本与其他样本间的距离关系,影响了分类准确度。
技术实现思路
为解决上述技术问题,本专利技术实施例提供了一种基于聚类和相似度加权的kNN快速分类方法,以提高分类速度和分类准确度。为解决上述技术问题,本专利技术实施例提供了如下技术方案:一种基于聚类和相似度加权的kNN快速分类方法,所述方法包括:用聚类的方法分析训练样本,生成识别样本集;基于所述识别样本集,并基于相似度加权完成待分类样本最近邻分类。其中,所述用聚类的方法分析训练样本,生成识别样本集,具体包括:按照一定压缩比计算所得的聚类数,分别对每类训练样本进行聚类分析;将每类训练样本划分成若干个子类,以子类内所有训练样本的质心作为代表该子类的识别样本,并以识别样本与所代表的子类内所有训练样本的距离的算数平均值作为该识别样本的识别半径,并假定识别样本与所代表子类内所有训练样本的距离满足高斯分布,计算得到其分布的期望值和标准差,用识别半径、期望值和标准差表征该识别样本的识别特性,然后把包含且仅包含所有识别样本的集合定义为识别样本集。其中,所述基于所述识别样本集,并基于相似度加权完成待分类样本最近邻分类,具体包括:计算待分类样本与所有识别样本的距离,根据距离计算结果从识别样本集中选取待分类样本的k个最近邻识别样本;根据k个最近邻识别样本的识别特性和待分类样本与k个最近邻识别样本的距离,分别计算待分类样本与k个最近邻识别样本的相似度;根据待分类样本与k个最近邻识别样本的相似度及其类别,判定待分类样本归属可能性最大的类别,完成分类。与现有技术相比,上述技术方案具有以下优点:本专利技术实施例所提供方法,通过聚类技术分析训练样本,产生数目较少的识别样本替代训练样本进行分类,大大减少了kNN分类时的计算次数,提高了kNN分类速度。同时,在分类过程中,根据最近邻识别样本的识别特性和待分类样本与最近邻识别样本的距离,计算待分类样本与最近邻识别样本的相似度,并根据相似度及最近邻识别样本的类别实现分类,使得kNN分类方法具有很高的分类准确度。本专利技术是一种基于聚类和相似度加权的kNN快速分类方法,基于聚类分析训练样本,产生数目较少的识别样本替代原训练样本进行分类,提高了kNN分类速度;在分类过程中,综合考虑最近邻识别样本的识别特性和待分类样本与最近邻识别样本的距离差异对分类的影响,提高了分类的准确度。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1为本专利技术实施例所提供的一种基于聚类和相似度加权的kNN快速分类方法的流程示意图。具体实施方式为了解决
技术介绍
部分所述的技术问题,本专利技术提供了一种基于聚类和相似度加权的kNN快速分类方法,基于聚类分析训练样本,产生数目较少的识别样本替代原训练样本进行分类,提高了kNN分类速度;在分类过程中,综合考虑最近邻识别样本的识别特性和待分类样本与最近邻识别样本的距离差异对分类的影响,提高了分类的准确度。首先,对说明书中出现的符号进行解释,各符号为:X为训练样本集,M为训练样本总个数,C所有类别的集合,μ为压缩比,R为识别样本集,yi为识别样本,ri为yi的识别半径,mui为yi的期望值,sigmai为yi的标准差,ci为yi对应的类别,N为识别样本的总个数,xs为待分类样本,Φ为待分类样本xs的k个最近邻识别样本,为第j个最近邻识别样本,为第j个最近邻识别样本的识别半径,为第j个最近邻识别样本对应的期望值,为第j个最近邻识别样本对应的标准差,为第j个最近邻识别样本对应的类别,j为最近邻识别样本的序号,为待分类样本与近邻识别样本的相似度,为分类样本xs与近邻识别样本的距离,cs为待分类样本xs的类别。下面具体介绍本专利技术提供的一种基于聚类和相似度加权的kNN快速分类方法。图1是本专利技术实施例提供的一种基于聚类和相似度加权的kNN快速分类方法对应的流程示意图,所述方法包括:用聚类的方法分析训练样本,生成识别样本集;然后基于所述识别样本集,并基于相似度加权完成待分类样本最近邻分类。可见,本专利技术实施例所提供方法,通过聚类技术分析训练样本,产生数目较少的识别样本替代训练样本进行分类,大大减少了kNN分类时的计算次数,提高了kNN分类速度。同时,在分类过程中,根据最近邻识别样本的识别特性和待分类样本与最近邻识别样本的距离,计算待分类样本与最近邻识别样本的相似度,并根据相似度及最近邻识别样本的类别实现分类,使得kNN分类方法具有很高的分类准确度。其中,所述用聚类的方法分析训练样本,生成识别样本集,具体包括:按照一定压缩比计算所得的聚类数,分别对每类训练样本进行聚类分析,将每类训练样本划分成若干个子类(子簇),以子类内所有训练样本的质心(训练样本值的算数平均值)作为代表该子类的识别样本,并以识别样本与所代表的子类内所有训练样本的距离的算数平均值作为该识别样本的识别半径,并假定识别样本与所代表子类内所有训练样本的距离满足高斯分布,计算得到其分布的期望值和标准差,用识别半径、期望值和标准差表征该识别样本的识别特性。然后把包含且仅包含所有识别样本的集合定义为识别样本集。可见,本专利技术实施例所提供方法,通过聚类技术分析训练样本,产生数目较少的识别样本替代训练样本进行分类,大大减少了kNN分类时的计算次数,提高了kNN分类速度。其中,所述基于所述识别样本集,并基于相似度加权完成待分类样本最近邻分类,具体包括:计算待分类样本与所有识别样本的距离,根据距离计算结果从识别样本集中选取待分类样本的k个最近邻识别样本;然后根据k个最近邻识别样本的识别特性和待分类样本与k个最近邻识别样本的距离,分别计算待分类样本与k个最近邻识别样本的相似度;最后,根据待分类样本与k个最近邻识别样本的相似度及其类别,判定待分类样本归属可能性最大的类别,完成分类。可见,本专利技术实施例所提供方法,在分类过程中,综合考虑最近邻识别样本的识别特性和待分类样本与最近邻识别样本的距离差异对分类的影响,提高了分类的准确度。即,根据最近邻识别样本的识别特性和待分类样本与最近邻识别样本的距离,计算待分类样本与最近邻识别样本的相似度,并根据相似度及最近邻识别样本的类别实现分类,使得kNN分类方法具有很高的分类准确度。下面举例介绍基于聚类和相似度加权的kNN快速分类方法,具体如下:步骤1:X=本文档来自技高网
...
一种基于聚类和相似度加权的kNN快速分类方法

【技术保护点】
一种基于聚类和相似度加权的kNN快速分类方法,其特征在于,所述方法包括:用聚类的方法分析训练样本,生成识别样本集;基于所述识别样本集,并基于相似度加权完成待分类样本最近邻分类。

【技术特征摘要】
1.一种基于聚类和相似度加权的kNN快速分类方法,其特征在于,所述方法包括:用聚类的方法分析训练样本,生成识别样本集;基于所述识别样本集,并基于相似度加权完成待分类样本最近邻分类。2.根据权利要求1所述的方法,其特征在于,所述用聚类的方法分析训练样本,生成识别样本集,具体包括:按照一定压缩比计算所得的聚类数,分别对每类训练样本进行聚类分析;将每类训练样本划分成若干个子类,以子类内所有训练样本的质心作为代表该子类的识别样本,并以识别样本与所代表的子类内所有训练样本的距离的算数平均值作为该识别样本的识别半径,并假定识别样本与所代表子类内所有训练样本的距离满足高斯分布,计...

【专利技术属性】
技术研发人员:李中张铁峰郭利花柏思瑶
申请(专利权)人:华北电力大学保定
类型:发明
国别省市:河北,13

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1