聚类方法和装置制造方法及图纸

技术编号:11323369 阅读:47 留言:0更新日期:2015-04-22 12:01
本公开是关于一种聚类方法和装置。所述方法包括:分别识别每个目标类中的噪声对象;根据第一目标类和第二目标类中的非噪声对象计算所述第一目标类和所述第二目标类之间的类距离;如果所述第一目标类和所述第二目标类之间的类距离满足预设的条件,则将所述第一目标类和所述第二目标类合并,以形成新的目标类。通过本公开的技术方案,可以提高聚类结果的准确度。

【技术实现步骤摘要】

本公开涉及数据处理
,尤其涉及一种聚类方法和装置
技术介绍
聚类是将物理或者抽象对象的集合分成由类似的对象组成的多个类的过程,由聚类所生成的类或者簇是一组数据对象的集合,这些对象与同一个类中的对象彼此相似,与其他类中的对象相异。相关技术中,可以采取层次聚类算法以实现聚类,在层次聚类算法中,通常是根据每个类中的所有对象以计算两个类之间的距离,进而会导致聚类结果的准确度较低。
技术实现思路
为克服相关技术中存在的问题,本公开提供一种聚类方法和装置,已解决相关技术中聚类结果的准确度较低的问题。根据本公开实施例的第一方面,提供一种聚类方法,包括:分别识别每个目标类中的噪声对象;根据第一目标类和第二目标类中的非噪声对象计算所述第一目标类和所述第二目标类之间的类距离;如果所述第一目标类和所述第二目标类之间的类距离满足预设的条件,则将所述第一目标类和所述第二目标类合并,以形成新的目标类。可选的,所述分别识别每个目标类中的噪声对象,包括:针对所述目标类中的每个对象,判断与目标对象的距离在预设距离内的对象的数量是否小于第一阈值;如果与所述目标对象的距离在预设距离内的对象的数量小于所述第一阈值,则确认所述目标对象为噪声对象。可选的,所述分别识别每个目标类中的噪声对象,包括:计算所述目标类的类中心;判断所述目标类中的目标对象距离所述类中心的距离是否大于第二阈值;如果所述目标对象距离所述类中心的距离大于所述第二阈值,则确认所述目标对象为噪声对象。可选的,在分别识别每个目标类中的噪声对象之前,还包括:根据预设的聚类算法对初始类进行扩展;判断扩展后的初始类中的对象的数量是否大于等于第三阈值;如果扩展后的初始类中对象的数量大于等于所述第三阈值,则确认所述扩展后的初始类为目标类。可选的,在将所述第一目标类和所述第二目标类进行合并之后,还包括:判断是否存在类距离满足所述预设的条件的两个目标类;如果存在类距离满足所述预设的条件的两个目标类,则将所述两个目标类进行合并。根据本公开实施例的第二方面,提供一种聚类装置,包括:噪声识别单元,用于分别识别每个目标类中的噪声对象;距离计算单元,用于根据第一目标类和第二目标类中的非噪声对象计算所述第一目标类和所述第二目标类之间的类距离;第一合并单元,用于在所述第一目标类和所述第二目标类之间的类距离满足预设的条件时,将所述第一目标类和所述第二目标类合并,以形成新的目标类。可选的,所述噪声识别单元包括:第一判断子单元,用于针对所述目标类中的每个对象,判断与目标对象的距离在预设距离内的对象的数量是否小于第一阈值;第一确认子单元,用于在与所述目标对象的距离在预设距离内的对象的数量小于所述第一阈值时,确认所述目标对象为噪声对象。可选的,所述噪声识别单元包括:中心计算子单元,用于计算所述目标类的类中心;第二判断子单元,用于判断所述目标类中的目标对象距离所述类中心的距离是否大于第二阈值;第二确认子单元,用于在所述目标对象距离所述类中心的距离大于所述第二阈值时,确认所述目标对象为噪声对象。可选的,还包括:初始扩展单元,用于根据预设的聚类算法对初始类进行扩展;数量判断单元,用于判断扩展后的初始类的中对象的数量是否大于等于第三阈值;目标确认单元,用于在扩展后的初始类中对象的数量大于等于所述第三阈值时,确认所述扩展后的初始类为目标类。可选的,还包括:距离判断单元,用于在将所述第一目标类和所述第二目标类进行合并之后,判断是否存在类距离满足所述预设的条件的两个目标类;第二合并单元,用于在存在类距离满足所述预设的条件的两个目标类时,将所述两个目标类合并。根据本公开实施例的第三方面,提供一种聚类装置,包括:处理器;用于存储处理器可执行指令的存储器;其中,所述处理器被配置为:分别识别每个目标类中的噪声对象;根据第一目标类和第二目标类中的非噪声对象计算所述第一目标类和所述第二目标类之间的类距离;如果所述第一目标类和所述第二目标类之间的类距离满足预设的条件,则将所述第一目标类和所述第二目标类合并,以形成新的目标类。本公开的实施例提供的技术方案可以包括以下有益效果:本公开通过识别每个目标类中的噪声对象,进而可以在计算第一目标类和第二目标类之间的类距离时排除噪声对象,根据所述第一目标类和所述第二目标类中的非噪声对象计算所述类距离,并在所述类距离满足条件时将所述第一目标类和所述第二目标类合并,从而提高聚类结果的准确度。本公开可以通过判断目标类中的目标对象是否为核心对象,进而在所述目标对象不是核心对象时,确认所述目标对象为噪声对象,提高噪声对象识别的准确度,进而提高聚类结果的准确度。本公开可以通过判断目标类中的目标对象与类中心的距离是否大于预设的第二阈值,进而在所述目标对象与类中心的距离大于所述第二阈值时,确认所述目标对象为噪声对象,提高噪声对象识别的准确度,进而提高聚类结果的准确度。应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本公开。【附图说明】此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本公开的实施例,并与说明书一起用于解释本公开的原理。图1是根据一示例性实施例示出的一种聚类方法的流程图。图2是根据一示例性实施例示出的另一种聚类方法的流程图。图3是根据一示例性实施例示出的一种识别目标类中的噪声对象的流程图。图4是根据一示例性实施例示出的另一种识别目标类中的噪声对象的流程图。图5是根据一示例性实施例示出的一种聚类装置的框图。图6是根据一示例性实施例示出的另一种聚类装置的框图。图7是根据一示例性实施例示出的另一种聚类装置的框图。图8是根据一示例性实施例示出的另一种聚类装置的框图。图9是根据一示例性实施例示出的另一种聚类装置的框图。图10是根据一示例性实施例示出的一种用于聚类装置的一结构示意图。【具体实施方式】这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。图1是根据一示例性实施例示出的一种聚类方法的流程图。如图1所示,所述聚类方法可以用于终端中,包括以下步骤:在步骤SlOl中,分别识别每个目标类中的噪声对象。所述每个目标类中通常包括有多个对象,在本步骤中,分别识别每个目标类中的噪声对象。比如:可以通过基于密度的聚类算法判断所述目标类中的目标对象是否为核心对象,如果所述目标对象不是核心对象,则可以确认所述目标对象为噪声对象。也可以通过判断所述目标类中的目标对象与类中心的距离是否大于阈值,如果所述目标对象与类中心的距离大于所述阈值,则可以确认所述目标对象为噪声对象。在步骤S102中,根据第一目标类和第二目标类中的非噪声对象计算所述第一目标类和所述第二目标类之间的类距离。在本实施例中,在计算所述第一目标类和所述第二目标类的类距离时,排除噪声对象,根据所第一目标类和所述第二目标类中的非噪声对象计算所述两个类的类距离。在步骤S103中,如果所当前第1页1 2 3 4 本文档来自技高网...

【技术保护点】
一种聚类方法,其特征在于,包括:分别识别每个目标类中的噪声对象;根据第一目标类和第二目标类中的非噪声对象计算所述第一目标类和所述第二目标类之间的类距离;如果所述第一目标类和所述第二目标类之间的类距离满足预设的条件,则将所述第一目标类和所述第二目标类合并,以形成新的目标类。

【技术特征摘要】

【专利技术属性】
技术研发人员:陈志军张涛关亚勇
申请(专利权)人:小米科技有限责任公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1