一种基于后校正的高熵KNN聚类方法、设备及介质技术

技术编号:38094819 阅读:8 留言:0更新日期:2023-07-06 09:08
本申请公开了一种基于后校正的高熵KNN聚类方法、设备及介质,涉及电数字数据处理领域,方法包括:确定需要进行聚类的样本集合,基于相似度相同的方式,为样本集合中的若干个指定样本进行初始化分类;选取与待分类样本距离最近的K个先验样本,作为对比样本;基于相似度相异的方式,得到待分类样本的类别标签;基于相似度相异的方式,将若干个先验样本进行重新分类。有效保证了先验样本的准确性,然后基于相似度相异的方式,有效实现类间同质、类内迥异的需求,最终再对先验样本进行后校正重新分类,即可实现对所有样本的高熵聚类过程,满足了对于高熵聚类的需求。了对于高熵聚类的需求。了对于高熵聚类的需求。

【技术实现步骤摘要】
一种基于后校正的高熵KNN聚类方法、设备及介质


[0001]本申请涉及电数字数据处理领域,具体涉及一种基于后校正的高熵KNN聚类方法、设备及介质。

技术介绍

[0002]K最邻近分类算法(K

NearestNeighbor,KNN)是一种监督学习算法,其能够根据K个最近的邻居的状态来决定样本的状态,常用于样本分类。通常来说,KNN算法能够呈现类间迥异、类内同质的特点,也就是能起到类间高熵、类内低熵的效果。
[0003]但是,随着技术的发展,出现一些类间同质、类内迥异的应用需求,比如,在对多类型产品或者多类型的数据进行分类时,只需要保证每个类别中,各类型的产品或者数据是符合一定比例的即可。此时在分类过程中,需要保证实现类间低熵、类内高熵的效果,通过传统的KNN算法是难以实现的。

技术实现思路

[0004]为了解决上述问题,本申请提出了一种基于后校正的高熵KNN聚类方法,包括:确定需要进行聚类的样本集合,并基于相似度相同的方式,为所述样本集合中的若干个指定样本进行初始化分类;将完成所述初始化分类的样本作为先验样本,并针对所述样本集合中,除所述先验样本以外剩余的待分类样本,选取与所述待分类样本距离最近的K个先验样本,作为对比样本;所述K为预先设置的正整数值;基于相似度相异的方式,以及所述对比样本在初始化分类中确定的类别标签,得到所述待分类样本的类别标签,直至对所有待分类样本完成分类;基于相似度相异的方式,将若干个先验样本进行重新分类。
[0005]另一方面,本申请还提出了一种基于后校正的高熵KNN聚类设备,包括:至少一个处理器;以及,与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如:确定需要进行聚类的样本集合,并基于相似度相同的方式,为所述样本集合中的若干个指定样本进行初始化分类;将完成所述初始化分类的样本作为先验样本,并针对所述样本集合中,除所述先验样本以外剩余的待分类样本,选取与所述待分类样本距离最近的K个先验样本,作为对比样本;所述K为预先设置的正整数值;基于相似度相异的方式,以及所述对比样本在初始化分类中确定的类别标签,得到所述待分类样本的类别标签,直至对所有待分类样本完成分类;基于相似度相异的方式,将若干个先验样本进行重新分类。
[0006]本申请还提出了一种非易失性计算机存储介质,存储有计算机可执行指令,所述计算机可执行指令设置为:确定需要进行聚类的样本集合,并基于相似度相同的方式,为所述样本集合中的若干个指定样本进行初始化分类;将完成所述初始化分类的样本作为先验样本,并针对所述样本集合中,除所述先验样本以外剩余的待分类样本,选取与所述待分类样本距离最近的K个先验样本,作为对比样本;所述K为预先设置的正整数值;基于相似度相异的方式,以及所述对比样本在初始化分类中确定的类别标签,得到所述待分类样本的类别标签,直至对所有待分类样本完成分类;基于相似度相异的方式,将若干个先验样本进行重新分类。
[0007]通过本申请提出基于后校正的高熵KNN聚类方法能够带来如下有益效果:通过传统的相似度相同的方式得到先验样本,有效保证了先验样本的准确性,然后基于相似度相异的方式,有效实现类间同质、类内迥异的需求,最终再对先验样本进行后校正重新分类,即可实现对所有样本的高熵聚类过程,满足了对于高熵聚类的需求。
附图说明
[0008]此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:图1为本申请实施例中基于后校正的高熵KNN聚类方法的流程示意图;图2为本申请实施例中初始化分类的示意图;图3为本申请实施例中传统KNN聚类算法的结果示意图;图4为本申请实施例中,第一种情况下对应的相似度相异的方式进行分类的示意图;图5为本申请实施例中,第二种情况下对应的相似度相异的方式进行分类的示意图;图6为本申请实施例中,第三种情况下对应的相似度相异的方式进行分类的示意图;图7为本申请实施例中相似度相异的方式的分类结果示意图;图8为本申请实施例中先验样本后校正的示意图;图9为本申请实施例中基于后校正的高熵KNN聚类设备的示意图。
具体实施方式
[0009]为使本申请的目的、技术方案和优点更加清楚,下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
[0010]以下结合附图,详细说明本申请各实施例提供的技术方案。
[0011]如图1所示,本申请实施例提供基于后校正的高熵KNN聚类方法,包括:S101:确定需要进行聚类的样本集合,并基于相似度相同的方式,为所述样本集合
中的若干个指定样本进行初始化分类。
[0012]与传统的KNN聚类不同的是,在本文中的高熵KNN聚类所要实现的目的不同。在预先获取的数据集合中,选取若干个数据,该数据里可以是产品数据、图像数据、音频数据等。
[0013]将若干个数据作为样本集合,以对样本集合进行聚类,此时,聚类的目的不再是将相同或相似类别的数据汇集在一个类簇中,而是在聚类结果的类簇中,不同类别的数据符合预设比例。比如,以产品数据为例,最终得到的每个类簇中,产品质量的比例符合预设比例,优品、良品、差品的比例符合5:3:2的比例,即可达到预先的目的。
[0014]在初始化分类时,在样本集合中,确定已经选取的若干个指定样本,此处的指定样本为具有可识别特点(也可以称作显著特点)的样本,比如,以产品数据为例,某些产品的质量非常优秀,或者具有非常明显的残次,则可以认为其具有可识别特点。或者,对图像数据进行识别时,图像中明显存在指定物品,或者明显不存在指定物品的,认为其具有可识别特点。通常来说选取的指定样本数量相比于样本集合为少量,针对每个指定样本,选取距离该指定样本最近的K个样本,并将K个样本中,出现次数最多的类别标签,作为该指定样本的类别标签。如图2所示,其中共选取了12个指定样本,共分为两类,在图中以不同的图标进行标识。此时,这些指定样本是通过相似度相同的方式得到的,其符合传统KNN聚类过程中的聚类过程和效果。
[0015]S102:将完成所述初始化分类的样本作为先验样本,并针对所述样本集合中,除所述先验样本以外剩余的待分类样本,选取与所述待分类样本距离最近的K个先验样本,作为对比样本;所述K为预先设置的正整数值。
[0016]K值的选取不宜过大或过小,通常来说,其与样本集合的样本容量相关。此时,确定样本集合对应的样本容量,根据样本容量确定分类过程中对应的K值以及指定样本的选取数量,其中,K值与样本容量的比值范围为[0.03,0.09]之内的正整数,且K值为奇数,当样本容量为100时,K值可以是3、5本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于后校正的高熵KNN聚类方法,其特征在于,包括:确定需要进行聚类的样本集合,并基于相似度相同的方式,为所述样本集合中的若干个指定样本进行初始化分类;将完成所述初始化分类的样本作为先验样本,并针对所述样本集合中,除所述先验样本以外剩余的待分类样本,选取与所述待分类样本距离最近的K个先验样本,作为对比样本;所述K为预先设置的正整数值;基于相似度相异的方式,以及所述对比样本在初始化分类中确定的类别标签,得到所述待分类样本的类别标签,直至对所有待分类样本完成分类;基于相似度相异的方式,将若干个先验样本进行重新分类。2.根据权利要求1所述的方法,其特征在于,基于相似度相同的方式,为所述样本集合中的若干个指定样本进行初始化分类,具体包括:在所述样本集合中,确定已经选取的若干个指定样本,所述指定样本为具有可识别特点的样本;针对每个指定样本,选取距离该指定样本最近的K个样本,并将所述K个样本中,出现次数最多的类别标签,作为该指定样本的类别标签。3.根据权利要求1所述的方法,其特征在于,基于相似度相异的方式,以及所述对比样本在初始化分类中确定的类别标签,得到所述待分类样本的类别标签,具体包括:确定所述对比样本中出现的类别标签,以及出现的各类别标签分别对应的出现次数;在所有类别标签中,选取出现次数最少的类别标签,作为所述待分类样本的类别标签。4.根据权利要求1所述的方法,其特征在于,基于相似度相异的方式,将若干个先验样本进行重新分类,具体包括:针对每个先验样本,在已经完成分类的待分类样本中,选取最近的K个先验样本,作为对比样本;确定所述对比样本中出现的类别标签,以及出现的各类别标签分别对应的出现次数;在所有类别标签中,选取出现次数最少的类别标签,作为所述先验样本重新分类后得到的类别标签。5.根据权利要求1所述的方法,其特征在于,确定需要进行聚类的样本集合之后,所述方法还包括:确定所述样本集合对应的样本容量;根据所述样本容量确定分类过程中对应的K值以及指定样本的选取数量,其中,所述K值与样本容量的比值范围为[0.03,0.09]之内的正整数,且K值为奇数,指定样本的选取数量高于K值选取范围的最大值。6.根据权利要求1所述的方法,其特征在于,选取与所述待分类样本距离最近的K个先验样本,作为对比样本,具体包括:根据所述样本集合中,各样本所包含的维度数量,计算所述待分类样本与其他所有先验样本之间的距离;选取距离最近的K个先验样本,作为对比样本。7.根据权利要求6所述的方法,其特征在于,计算所述...

【专利技术属性】
技术研发人员:徐同明鹿海洋魏代森谭宁宁祝静林卉孙帅马娉婷陈杰
申请(专利权)人:浪潮通用软件有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1