聚类方法及相关装置制造方法及图纸

技术编号:10215281 阅读:141 留言:0更新日期:2014-07-16 09:43
本发明专利技术公开了一种聚类方法及相关装置,所述聚类方法根据对象间的距离对应的权重系数获得类之间的权重距离,权重系数根据两个对象间的相似性确定,即对对象间的距离赋予权重;然后,合并权重距离符合合并条件的类,直到合并后的类的数量与合并前的类的数量相同时终止,得到聚类结果。由于所述权重距离与两个对象的相似性相关联,从而使不同的对象间距离的贡献不同,相似性越大对应的贡献也就越大,因此,提高了聚类结果的准确率。

【技术实现步骤摘要】
【专利摘要】本专利技术公开了一种聚类方法及相关装置,所述聚类方法根据对象间的距离对应的权重系数获得类之间的权重距离,权重系数根据两个对象间的相似性确定,即对对象间的距离赋予权重;然后,合并权重距离符合合并条件的类,直到合并后的类的数量与合并前的类的数量相同时终止,得到聚类结果。由于所述权重距离与两个对象的相似性相关联,从而使不同的对象间距离的贡献不同,相似性越大对应的贡献也就越大,因此,提高了聚类结果的准确率。【专利说明】聚类方法及相关装置
本公开涉及计算机
,特别是涉及一种聚类方法及相关装置。
技术介绍
聚类是将物理或抽象对象的集合分成由类似的对象组成的多个类的过程,即将对象分类到不同的类或者簇的过程,同一个类中的对象有很大的相似性,不同类中的对象有很大的相异性。层次聚类方法是对给定的对象进行层次分解,直到满足某种终止条件。凝聚的层次聚类方法是一种自底向上的策略,首先将每个对象看作一个类,然后合并这些类成为越来越大的类,直到满足某个终止条件。大部分层次聚类方法属于此类,只是类间相似度的定义不同。例如,当聚类方法用于图片的分类时,将属于同一个人的图片分为一类,相关的聚类方法仅采用类与类之间的距离度量两张人脸之间的相似度,各个对象间的距离对相似度度量的贡献基本相同,导致此种聚类方法的聚类结果准确率较低。
技术实现思路
为克服相关技术中存在的问题,本公开提供一种聚类方法及相关装置。为了解决上述技术问题,本公开实施例公开了如下技术方案:根据本公开实施例的第一方面,提供一种聚类方法,包括:针对全部待合并的类,根据对象间距离对应的权重系数得到两个类之间的权重距离,所述权重系数根据所述对象间距离对应的两个对象之间的相似性确定;根据两个类之间的权重距离及预设距离阈值,判断是否存在能合并的类;当存在能合并的类时,将全部能合并的类各自进行合并,并返回执行针对全部待合并的类,根据对象间距离对应的权重系数得到两个类之间的权重距离的步骤,直到合并后类的数量与合并前类的数量相同,得到聚类结果。结合第一方面,在第一方面的第一种可能的实现方式中,所述方法还包括:根据样本对象统计得到对象间距离与两个对象是否是同一对象的概率之间的对应关系;根据所述对应关系,确定所述对象间距离与权重系数之间的映射关系,所述权重系数根据所述概率确定。结合第一方面的第一种可能的实现方式,在第一方面的第二种可能的实现方式中,根据所述对应关系,确定所述对象间距离与权重系数之间的映射关系,采用如下方式:查询所述对应关系,获得所述对象间距离对应的两个对象是否是同一个对象的概率;确定所述概率为所述对象间距离对应的权重系数。结合第一方面或第一方面的第一种可能的实现方式,在第一方面的第三种可能的实现方式中,所述权重距离为第一类与第二类之间的权重距离;所述针对全部待合并的类,根据对象间距离对应的权重系数得到两个类之间的权重距离,采用如下方式:根据所述第一类的全部对象与所述第二类的全部对象之间的距离,及对应的权重系数,获得所述第一类到所述第二类的第一单向权重距离;获取所述第二类到所述第一类的第二单向权重距离;根据所述第一单向权重距离和所述第二单向权重距离,得到所述第一类与所述第二类的权重距离。结合第一方面的第三种可能的实现方式,在第一方面的第四种可能的实现方式中,根据所述第一类的全部对象与所述第二类的全部对象之间的距离及对应的权重系数,获得所述第一类到所述第二类的第一单向权重距离,采用如下方式:获取所述第一类内任一对象与所述第二类的全部对象之间相似性最大的距离,以及所述相似性最大的距离对应的第一权重系数;根据所述相似性最大的距离与对应的第一权重系数的乘积,得到所述第一类中的对象与所述第二类的全部对象之间的最小权重距离;获取所述第一类中的对象与所述第二类中除相似性最大的距离对应的对象之外的其它对象之间距离的平均权重距离;根据所述最小权重距离和所述平均权重距离得到所述第一类中的所述对象与所述第二类之间的权重距离;根据所述第一类中的全部对象与所述第二类之间的权重距离,以及所述权重距离对应的权重系数,获得所述第一类到所述第二类之间的第一单向权重距离。根据本公开实施例的第二方面,提供一种聚类装置,包括:获取单元,用于针对全部待合并的类,根据对象间距离对应的权重系数得到两个类之间的权重距离,所述权重系数根据所述对象间距离对应的两个对象间的相似性确定;判断单元,用于根据两个类之间的权重距离及预设距离阈值,判断是否存在能合并的类;合并单元,用于当存在能合并的类时,将全部能合并的类各自进行合并,所述获取单元执行针对全部待合并的类,根据对象间距离对应的权重系数得到两个类之间的权重距离的步骤,直到合并后类的数量与合并前类的数量相同,得到聚类结果。结合第二方面,在第二方面的第一种可能的实现方式中,所述装置还包括:统计单元,用于根据样本对象统计得到对象间距离与两个对象是否是同一对象的概率之间的对应关系;确定单元,用于根据所述对应关系,确定所述对象间距离与权重系数之间的映射关系,所述权重系数根据所述概率确定。结合第二方面的第一种可能的实现方式,在第二方面的第二种可能的实现方式中,所述确定单元包括:查询子单元,用于查询所述对应关系,获得所述对象间距离对应的两个对象是否是同一个人的概率;确定子单元,用于确定所述概率为所述对象间距离对应的权重系数。结合第二方面的第一种可能的实现方式或第二方面的第二种可能的实现方式,在第二方面的第三种可能的实现方式中,所述权重距离为第一类与第二类之间的权重距离,所述获取单元包括: 第一获取子单元,用于获取所述第一类内的任一对象与所述第二类内的全部对象之间相似性最大的距离,以及所述相似性最大的距离对应的第一权重系数;第二获取子单元,用于针对所述第一类的全部对象,根据所述相似性最大的距离及对应的第一权重系数,获得所述第一类到所述第二类的第一单向权重距离;第三获取子单元,用于获取所述第二类到所述第一类的第二单向权重距离;第四获取子单元,用于根据所述第一单向权重距离和所述第二单向权重距离,得到所述第一类与所述第二类的权重距离。结合第二方面的第三种可能的实现方式,在第二方面的第四种可能的实现方式中,所述第二获取子单元包括:第五获取子单元,获取所述第一类内任一对象与所述第二类的全部对象之间相似性最大的距离,以及所述相似性最大的距离对应的第一权重系数;第六获取子单元,用于根据所述相似性最大的距离与对应的第一权重系数的乘积,得到所述第一类中的对象与所述第二类的全部对象之间的最小权重距离;第七获取子单元,用于获取所述第一类中的对象与所述第二类中除相似性最大的距离对应的对象之外的其它对象之间距离的平均权重距离;第八获取子单元,用于根据所述最小权重距离和所述平均权重距离得到所述第一类中的所述对象与所述第二类之间的权重距离;第九获取子单元,用于根据所述第一类中的全部对象与所述第二类之间的权重距离,以及所述权重距离对应的权重系数,获得所述第一类到所述第二类之间的第一单向权重距离。根据本公开实施例的第三方面,提供一种终端设备,包括:处理器;用于存储处理器可执行指令的存储器;其中,所述处理器被配置为:针对全部待合并的类,根据对象间距离对应的权重系数得到两个类之间的权重距离,所述本文档来自技高网...
聚类方法及相关装置

【技术保护点】
一种聚类方法,其特征在于,包括:针对全部待合并的类,根据对象间距离对应的权重系数得到两个类之间的权重距离,所述权重系数根据所述对象间的相似性确定;根据两个类之间的权重距离及预设距离阈值,判断是否存在能合并的类;当存在能合并的类时,将全部能合并的类各自进行合并,并返回执行针对全部待合并的类,根据对象间距离对应的权重系数得到两个类之间的权重距离的步骤,直到合并后类的数量与合并前类的数量相同,得到聚类结果。

【技术特征摘要】

【专利技术属性】
技术研发人员:陈志军张波张涛王琳
申请(专利权)人:小米科技有限责任公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1