一种基于密度峰值的高效层次聚类方法技术

技术编号:14799744 阅读:67 留言:0更新日期:2017-03-14 21:51
本发明专利技术涉及一种基于密度峰值的高效层次聚类方法,属于数据处理技术领域。该方法包括以下步骤:步骤一:自动选取全体中心点并确定不同的层次上包含哪些中心;步骤二:根据各层次中心点,进行层次聚类,完成全部层次聚类结果的表示和输出,包括该层聚类的共识度指标。本方法能够自动进行中心点的选取,不需人工干预;可以识别出数据集中的多层聚类,并用“共识度”表示出不同聚类层次的差别,克服了DPClus只能返回划分聚类的局限性;该方法对于各种数据集形状(球形和非球形)具有鲁棒性。

【技术实现步骤摘要】

本专利技术属于数据处理
,涉及一种基于密度峰值的高效层次聚类方法
技术介绍
现实世界中随时随地发生着数据采集和数据生成。理解这些数据,揭示它们背后的模式和趋势是数据挖掘、机器学习和智能信息处理的主要任务。聚类是一种用于数据分析和解释的通用技术和算法框架,它依照对象之间的相似性把数据组织成“簇”(或者“类”)。根据聚类结果的结构区分,聚类可以分为扁平聚类(又称划分聚类)和层次聚类。扁平聚类得到的结果是一种对原数据集的划分,它只有一个层次。扁平聚类概念简单,运行高效,但存在一定的不足。其一,有些时候,聚类返回的结果包含很多类(例如>20类),根据Miller的“7±2”准则,人们其实不能将注意力很好地分配到9个以上的对象上,因此需要构建成层次结构,将相似性较大的几个类进一步合并成一个上层的类从而形成高层的聚类结果。其二,很多情况下,数据集中蕴含的概念本身就具有层次性,单一层次的扁平聚类就不能反应这一客观实际。为此,针对上述情况,有必要将扁平聚类改造成为层次聚类,以便在一次运行后,得到多层上的聚类结果。层次聚类比扁平聚类含有更丰富的信息。一般地,层次聚类根据构建层次的顺序(或者方向),可以分为拆分层次聚类(自顶向下)和聚合层次聚类(自底向上)。现有的层次聚类方法主要有两点局限:一是某些算法对数据集形状敏感,不能很好的解决非球形数据的聚类问题;二是某些算法效率较低,除了获得单层聚类,还需要花费至少O(m2)的代价来构建多个聚类层次。而在当前大数据的分析中,针对数据的多样性(variety)和高速性(velocity),鲁棒性和效率恰恰是数据分析需要重点考虑的指标。2014年6月,Rodriguez和Laio在《Science》杂志上发表了一种基于密度峰值的聚类方法(以下简称其为DPClus),它通过定义两个参数“局部密度”和“到更高密度最近邻的距离”来挑选出中心点,然后再将其他所有点按照一个向量NNeigh(NNeigh[i]=j表示第i个对象要划分到与j相同的类中)的指示,在O(n)的时间复杂度上把其余点指派到相应的聚类。DPClus具有思想简单,效率高,准确性高,对数据形状鲁棒等优点。但是它有两点不足:一是它属于扁平聚类,只返回一层聚类结果;二是它需要人工圈定中心点,这样虽然可以融入人类直觉,但是也带来了不便,特别是当很多数据子集需要迭代地调用DPClus的情况下,交互式地选取中心显然是不允许的;而且,人工选取中心点,甚至会产生不合理的中心点选取结果。
技术实现思路
有鉴于此,本专利技术的目的在于提供一种基于密度峰值的高效层次聚类方法,该方法可以自动选取聚类中心,确定聚类层次数,并计算各个聚类层次的置信度。为达到上述目的,本专利技术提供如下技术方案:一种基于密度峰值的高效层次聚类方法,包括以下步骤:步骤一:自动选取全体中心点并确定不同的层次上包含哪些中心;步骤二:根据各层次中心点,进行层次聚类,完成全部层次聚类结果的表示和输出,包括该层聚类的共识度指标。进一步,步骤一中,通过计算机程序分析降序排列的γ参数曲线,模拟人工选取中心点的行为,并定义一个共识度来刻画哪些中心点可能诱导一个合理的聚类层次。进一步,所述γ参数定义为:γi=ρi×δi,1≤i≤N,它刻画了一个数据点能够被选为中心的可能性,其取值在区间[0,+∞);用SortedGamma[N]存储降序排列的γ参数值,SortedGammaInd[N]存储与γ参数值降序排列对应的数据点的序号(或ID);从后往前观察降序排列的γ参数曲线,整个数据集中绝大多数非中心点的γ参数取值都很小,接近于零;然后到中心点的地方,γ参数值会突然增大,并且在全体的中心点集合内,各个中心点的γ参数取值也会出现明显的“台阶”;用类似于从整体中区分出中心点的方法,用判断增长比例的方式识别出中心点中的“台阶”,每个“台阶”就对应了层次聚类中的一个层次。进一步,在步骤二中,基于密度峰值的聚类(DPClus)的中间结果NNeigh,可以构建一棵树,该树中每个节点(根节点除外)所属的中心点与其父节点所属的中心相同;每个非根节点都由其父节点“引领”加入到父节点所属的簇。本专利技术的有益效果在于:1)自动进行中心点的选取,不需人工干预。使得DPClus能够被大规模迭代调用;2)可以识别出数据集中的多层聚类,并用“共识度”表示出不同聚类层次的差别,克服了DPClus只能返回划分聚类的局限性;3)对每个给定的中心点集合,计算其聚类结果的时间复杂度为O(m),m为中心点的个数。4)该聚类方法对于各种数据集形状(球形和非球形)具有鲁棒性。附图说明为了使本专利技术的目的、技术方案和有益效果更加清楚,本专利技术提供如下附图进行说明:图1为本专利技术的流程示意图;图2为实施例中的城市位置及引领树示意图;图3为实施例中运用DPClus对城市按位置聚类图;图4为实施例中引领树的存储结构图。具体实施方式下面将结合附图,对本专利技术的优选实施例进行详细的描述。本专利技术提供了一种基于密度峰值的高效层次聚类方法,该方法通过对γ参数曲线形状的自动分析代替了人工直觉对中心点进行选取。当数据集的聚类实质上呈现层次特征时,更可以进一步识别和构建相应的层次聚类结果,并且标示出每一个层次与人工识别的共识度。由于发现了DPClus中间结果的树形结构,使得对非中心点的指派过程转化为将每个中心点从其父节点断开,用子树表示聚类结果,从而大幅提高了聚类过程的效率。在本实施例中,基于密度峰值的聚类(DPClus)算法具体包括以下步骤,算法中的标记说明如下:第一步:计算P和Δ,产生一个决策图,选择“ρ和δ都格外大”的数据点,作为中心点;其中,{ρ1,ρ2,...,ρN本文档来自技高网
...

【技术保护点】
一种基于密度峰值的高效层次聚类方法,其特征在于:包括以下步骤:步骤一:自动选取全体中心点并确定不同的层次上包含哪些中心;步骤二:根据各层次中心点,进行层次聚类,完成全部层次聚类结果的表示和输出,包括该层聚类的共识度指标。

【技术特征摘要】
1.一种基于密度峰值的高效层次聚类方法,其特征在于:包括以下步骤:
步骤一:自动选取全体中心点并确定不同的层次上包含哪些中心;
步骤二:根据各层次中心点,进行层次聚类,完成全部层次聚类结果的表示和输出,包
括该层聚类的共识度指标。
2.根据权利要求1所述的一种基于密度峰值的高效层次聚类方法,其特征在于:在步骤
一中,通过计算机程序分析降序排列的γ参数曲线,模拟人工选取中心点的行为,并定义一
个共识度来刻画哪些中心点可能诱导一个合理的聚类层次。
3.根据权利要求2所述的一种基于密度峰值的高效层次聚类方法,其特征在于:所述γ
参数定义为:γi=ρi×δi,1≤i≤N,它刻画了一个数据点能够被选为中心的可能性,其取值
在区间[0,+∞);
用SortedGamma[N]存储降序排列的γ参数值,Sort...

【专利技术属性】
技术研发人员:王国胤徐计邓伟辉尚明生张学睿
申请(专利权)人:中国科学院重庆绿色智能技术研究院
类型:发明
国别省市:重庆;50

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1