聚类方法及装置制造方法及图纸

技术编号:10893064 阅读:106 留言:0更新日期:2015-01-09 16:26
本公开实施例公开了一种聚类方法及装置,所述聚类方法将样本数据中类间Rank-Order距离DR(Ci,Cj)、类间归一化Rank-Order距离DN(Ci,Cj)和类间绝对距离d(Ci,Cj)符合条件的类进行迭代合并,其中,通过类间Rank-Order距离DR(Ci,Cj)和类间归一化Rank-Order距离DN(Ci,Cj)可以度量类与类之间的邻居关系,通过类间绝对距离d(Ci,Cj)度量类与类之间的绝对距离关系,根据类间绝对距离可以准确度量两个类直接的相似度,根据类间绝对距离将相似度较小的类划分出来,即确定出类中的离群点。从而实现在聚类过程中将相似度较小的离群点剔除掉,提高聚类结果的准确率。尤其,当样本数据中数据对象较多,但属于同一类的数据对象比较少时,聚类结果的准确比较高。

【技术实现步骤摘要】
【专利摘要】本公开实施例公开了一种聚类方法及装置,所述聚类方法将样本数据中类间Rank-Order距离DR(Ci,Cj)、类间归一化Rank-Order距离DN(Ci,Cj)和类间绝对距离d(Ci,Cj)符合条件的类进行迭代合并,其中,通过类间Rank-Order距离DR(Ci,Cj)和类间归一化Rank-Order距离DN(Ci,Cj)可以度量类与类之间的邻居关系,通过类间绝对距离d(Ci,Cj)度量类与类之间的绝对距离关系,根据类间绝对距离可以准确度量两个类直接的相似度,根据类间绝对距离将相似度较小的类划分出来,即确定出类中的离群点。从而实现在聚类过程中将相似度较小的离群点剔除掉,提高聚类结果的准确率。尤其,当样本数据中数据对象较多,但属于同一类的数据对象比较少时,聚类结果的准确比较高。【专利说明】聚类方法及装置
本公开涉及计算机
,特别是涉及一种聚类方法及装置。
技术介绍
聚类是将物理或抽象对象的集合分成由类似的对象组成的多个类(簇)的过程, 即将对象分类到不同的类的过程,同一个类中的对象有很大的相似性,不同类间的对象有 很大的相异性。下文使用"类"的概念,需要说明的是,本文中"类"与"簇"的含义相同。 例如,聚类方法用于人脸图片的分类时,将属于同一个人的图片分为一类,相关的 聚类方法采用Rank-Order距离度量两张人脸之间的相似性,能够将同一个人的图片聚集 在一起。但是,对于一堆图片中包含的人脸数量比较多,而包含每个人的人脸的图片数量比 较少时,此种聚类方法的聚类结果准确率非常低。
技术实现思路
为克服相关技术中存在的问题,本公开提供一种聚类方法及装置。 为了解决上述技术问题,本公开实施例公开了如下技术方案: 根据本公开实施例的第一方面,提供一种聚类方法,包括: 获取样本数据中任意两个类Ci与Cj之间的类间Rank-Order距离DK(Ci,Cj)、类间 绝对距离cKCi,Cj)及类间归一化Rank-Order距离D N(Ci,Cj); 针对所述样本数据中的任意两个类q与Cj,根据所述类间Rank-Order距离 DYC" ?.)、所述类间归一化Rank-Order距离DN(C" ?.)和所述类间绝对距离cKC" Cp,判断 所述两个类q与是否是候选合并类; 当所述任意两个类Q与&是候选合并类时,合并所述候选合并类,并更新类的数 量; 当更新后的类的数量比更新前的类的数量少时,返回执行获取任意两个类Ci与Cj 之间的类间Rank-Order距离DK(Ci,Cj)、类间绝对距离(KCi, Cj)及类间归一化Rank-Order 距离DN(Ci,?_)的步骤,直到更新后的类的数量与更新前的类的数量相同,得到聚类结果。 结合第一方面,在第一方面的第一种可能的实现方式中,所述针对任意两个类(; 与根据所述炉沁,Cp、所述DN(Ci,Cp和所述cKCi,?_),判断所述两个类Q与&是否是 候选合并类,采用如下方式: 判断所述类间Rank-Order距离DK(Ci,?_)是否小于第一距离阈值,且所述类间归 一化Rank-Order距离D N (Q,Cp是否小于1,且所述类间绝对距离d (Q,CJ是否小于第二距 离阈值; 当所述〇κ((;,?_)小于所述第一距离阈值,且所述0\(;,(^)小于1,且所述cKCpCj.) 小于所述第二距离阈值时,确定类Ci和类是候选合并类。 结合第一方面的第一种可能的实现方式,在第一方面的第二种可能的实现方式 中,所述方法还包括:当所述DYCpCj)不小于所述第一距离阈值,或者,所述? Ν((;,?_)不小 于1,或者,所述cKCpCj)不小于所述第二距离阈值时,判断所述样本数据中除已经判断过 的类之外的任意两个类是否是候选合并类,直到全部所述样本数据都完成判断。 结合第一方面、第一方面的第一种可能的实现方式或第一方面的第二种可能的实 现方式,在第一方面的第三种可能的实现方式中,所述类间绝对距离包括两个类之间的平 均距离或两个类之间的最小距离。 结合第一方面,在第一方面的第四种可能的实现方式中,所述当所述任意两个类 Ci与是候选合并类时,合并所述候选合并类,采用如下方式: 确定出所述样本数据中全部的候选合并类后,两两合并所述候选合并类,直到不 存在候选合并类。 根据本公开实施例的第二方面,提供一种聚类装置,包括: 第一获取单元,用于获取样本数据中任意两个类Ci与Cj之间的类间Rank-Order 距离 ; 第二获取单元,用于获取所述样本数据中任意两个类Ci与之间的类间绝对距离 cKC^Cj); 第三获取单元,用于获取所述样本数据中任意两个类Ci与之间的类间归一化 Rank-Order 距离 DYC^Cj); 第一判断单元,用于针对所述样本数据中的任意两个类(^与(^_,根据所述类间 Rank-Order距离DK(Ci,Cj)、所述类间归一化Rank-Order距离DN (Q,C』)和所述类间绝对距 离cKCi,cp,判断所述两个类Q与是否是候选合并类; 迭代合并单元,用于当所述任意两个类q与&是候选合并类时,合并所述候选合 并类,并更新类的数量,以及,当更新后的类的数量比更新前的类的数量少时,返回执行获 取任意两个类q与之间的类间Rank-Order距离D K(Ci,Cp、类间绝对距离cKCi,?_)及类 间归一化Rank-Order距离DN(Ci,?_)的步骤,直到更新后的类的数量与更新前的类的数量 相同,得到聚类结果。 结合第二方面,在第二方面的第一种可能的实现方式中,所述第一判断单元,包 括: 第一判断子单元,用于判断所述类间Rank-Order距离DK(Ci,Cp是否小于第一距 离阈值,且所述类间归一化Rank-Order距离D N(Ci,Cp是否小于1,且所述类间绝对距离 cKCi,cp是否小于第二距离阈值; 确定子单元,用于当所述DYCpCj)小于所述第一距离阈值,且所述0\(;,(^)小于 1,且所述cKCi,cp小于所述第二距离阈值时,确定类Q和类?.是候选合并类。 结合第二方面的第一种可能的实现方式,在第二方面的第二种可能的实现方式, 所述第一判断单元还包括: 第二判断子单元,用于当所述DK(Ci,Cp不小于所述第一距离阈值,或者,所述 不小于1,或者,所述cKCpCj)不小于所述第二距离阈值时,判断所述样本数据中 除已经判断过的类之外的任意两个类是否是候选合并类,直到全部所述样本数据都完成判 断。 结合第二方面,在第二方面的第三种可能的实现方式,所述迭代合并单元包括: 合并子单元,用于确定出所述样本数据中全部的候选合并类后,两两合并所述候 选合并类,直到不存在候选合并类。 根据本公开实施例的第三方面,提供一种终端,包括:处理器;用于存储处理器可 执行指令的存储器;其中,所述处理器被配置为: 获取样本数据中任意两个类与&之间的类间Rank-Order距离DK(Ci,?_)、类间 绝对距离cKCi,C」)及类间归一化Rank-Order距离D N(Ci本文档来自技高网...

【技术保护点】
一种聚类方法,其特征在于,包括:获取样本数据中任意两个类Ci与Cj之间的类间Rank‑Order距离DR(Ci,Cj)、类间绝对距离d(Ci,Cj)及类间归一化Rank‑Order距离DN(Ci,Cj);针对所述样本数据中的任意两个类Ci与Cj,根据所述类间Rank‑Order距离DR(Ci,Cj)、所述类间归一化Rank‑Order距离DN(Ci,Cj)和所述类间绝对距离d(Ci,Cj),判断所述两个类Ci与Cj是否是候选合并类;当所述任意两个类Ci与Cj是候选合并类时,合并所述候选合并类,并更新类的数量;当更新后的类的数量比更新前的类的数量少时,返回执行获取任意两个类Ci与Cj之间的类间Rank‑Order距离DR(Ci,Cj)、类间绝对距离d(Ci,Cj)及类间归一化Rank‑Order距离DN(Ci,Cj)的步骤,直到更新后的类的数量与更新前的类的数量相同,得到聚类结果。

【技术特征摘要】

【专利技术属性】
技术研发人员:陈志军张涛龙飞
申请(专利权)人:小米科技有限责任公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1