聚类方法及装置制造方法及图纸

技术编号：10893064 阅读：106 留言：0更新日期：2015-01-09 16:26

本公开实施例公开了一种聚类方法及装置，所述聚类方法将样本数据中类间Rank-Order距离DR(Ci,Cj)、类间归一化Rank-Order距离DN(Ci,Cj)和类间绝对距离d(Ci,Cj)符合条件的类进行迭代合并，其中，通过类间Rank-Order距离DR(Ci,Cj)和类间归一化Rank-Order距离DN(Ci,Cj)可以度量类与类之间的邻居关系，通过类间绝对距离d(Ci,Cj)度量类与类之间的绝对距离关系，根据类间绝对距离可以准确度量两个类直接的相似度，根据类间绝对距离将相似度较小的类划分出来，即确定出类中的离群点。从而实现在聚类过程中将相似度较小的离群点剔除掉，提高聚类结果的准确率。尤其，当样本数据中数据对象较多，但属于同一类的数据对象比较少时，聚类结果的准确比较高。

全部详细技术资料下载

【技术实现步骤摘要】
【专利摘要】本公开实施例公开了一种聚类方法及装置，所述聚类方法将样本数据中类间Rank-Order距离DR(Ci,Cj)、类间归一化Rank-Order距离DN(Ci,Cj)和类间绝对距离d(Ci,Cj)符合条件的类进行迭代合并，其中，通过类间Rank-Order距离DR(Ci,Cj)和类间归一化Rank-Order距离DN(Ci,Cj)可以度量类与类之间的邻居关系，通过类间绝对距离d(Ci,Cj)度量类与类之间的绝对距离关系，根据类间绝对距离可以准确度量两个类直接的相似度，根据类间绝对距离将相似度较小的类划分出来，即确定出类中的离群点。从而实现在聚类过程中将相似度较小的离群点剔除掉，提高聚类结果的准确率。尤其，当样本数据中数据对象较多，但属于同一类的数据对象比较少时，聚类结果的准确比较高。【专利说明】聚类方法及装置
本公开涉及计算机
，特别是涉及一种聚类方法及装置。
技术介绍
聚类是将物理或抽象对象的集合分成由类似的对象组成的多个类（簇）的过程，即将对象分类到不同的类的过程，同一个类中的对象有很大的相似性，不同类间的对象有很大的相异性。下文使用"类"的概念，需要说明的是，本文中"类"与"簇"的含义相同。例如，聚类方法用于人脸图片的分类时，将属于同一个人的图片分为一类，相关的聚类方法采用Rank-Order距离度量两张人脸之间的相似性，能够将同一个人的图片聚集在一起。但是，对于一堆图片中包含的人脸数量比较多，而包含每个人的人脸的图片数量比较少时，此种聚类方法的聚类结果准确率非常低。
技术实现思路
...

【技术保护点】
一种聚类方法，其特征在于，包括：获取样本数据中任意两个类Ci与Cj之间的类间Rank‑Order距离DR(Ci,Cj)、类间绝对距离d(Ci,Cj)及类间归一化Rank‑Order距离DN(Ci,Cj)；针对所述样本数据中的任意两个类Ci与Cj，根据所述类间Rank‑Order距离DR(Ci,Cj)、所述类间归一化Rank‑Order距离DN(Ci,Cj)和所述类间绝对距离d(Ci,Cj)，判断所述两个类Ci与Cj是否是候选合并类；当所述任意两个类Ci与Cj是候选合并类时，合并所述候选合并类，并更新类的数量；当更新后的类的数量比更新前的类的数量少时，返回执行获取任意两个类Ci与Cj之间的类间Rank‑Order距离DR(Ci,Cj)、类间绝对距离d(Ci,Cj)及类间归一化Rank‑Order距离DN(Ci,Cj)的步骤，直到更新后的类的数量与更新前的类的数量相同，得到聚类结果。

【技术特征摘要】

【专利技术属性】
技术研发人员：陈志军，张涛，龙飞，
申请(专利权)人：小米科技有限责任公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人