一种基于密度峰值的高效层次聚类方法技术

技术编号：14799744 阅读：67 留言：0更新日期：2017-03-14 21:51

本发明专利技术涉及一种基于密度峰值的高效层次聚类方法，属于数据处理技术领域。该方法包括以下步骤：步骤一：自动选取全体中心点并确定不同的层次上包含哪些中心；步骤二：根据各层次中心点，进行层次聚类，完成全部层次聚类结果的表示和输出，包括该层聚类的共识度指标。本方法能够自动进行中心点的选取，不需人工干预；可以识别出数据集中的多层聚类，并用“共识度”表示出不同聚类层次的差别，克服了DPClus只能返回划分聚类的局限性；该方法对于各种数据集形状(球形和非球形)具有鲁棒性。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于数据处理
，涉及一种基于密度峰值的高效层次聚类方法。
技术介绍
现实世界中随时随地发生着数据采集和数据生成。理解这些数据，揭示它们背后的模式和趋势是数据挖掘、机器学习和智能信息处理的主要任务。聚类是一种用于数据分析和解释的通用技术和算法框架，它依照对象之间的相似性把数据组织成“簇”(或者“类”)。根据聚类结果的结构区分，聚类可以分为扁平聚类(又称划分聚类)和层次聚类。扁平聚类得到的结果是一种对原数据集的划分，它只有一个层次。扁平聚类概念简单，运行高效，但存在一定的不足。其一，有些时候，聚类返回的结果包含很多类(例如>20类)，根据Miller的“7±2”准则，人们其实不能将注意力很好地分配到9个以上的对象上，因此需要构建成层次结构，将相似性较大的几个类进一步合并成一个上层的类从而形成高层的聚类结果。其二，很多情况下，数据集中蕴含的概念本身就具有层次性，单一层次的扁平聚类就不能反应这一客观实际。为此，针对上述情况，有必要将扁平聚类改造成为层次聚类，以便在一次运行后，得到多层上的聚类结果。层次聚类比扁平聚类含有更丰富的信息。一般地，层次聚类根据构建层次的顺序(或者方向)，可以分为拆分层次聚类(自顶向下)和聚合层次聚类(自底向上)。现有的层次聚类方法主要有两点局限：一是某些算法对数据集形状敏感，不能很好的解决非球形数据的聚类问题；二是某些算法效率较低，除了获得单层聚类，还需要花费至少O...

【技术保护点】
一种基于密度峰值的高效层次聚类方法，其特征在于：包括以下步骤：步骤一：自动选取全体中心点并确定不同的层次上包含哪些中心；步骤二：根据各层次中心点，进行层次聚类，完成全部层次聚类结果的表示和输出，包括该层聚类的共识度指标。

【技术特征摘要】
1.一种基于密度峰值的高效层次聚类方法，其特征在于：包括以下步骤：
步骤一：自动选取全体中心点并确定不同的层次上包含哪些中心；
步骤二：根据各层次中心点，进行层次聚类，完成全部层次聚类结果的表示和输出，包
括该层聚类的共识度指标。
2.根据权利要求1所述的一种基于密度峰值的高效层次聚类方法，其特征在于：在步骤
一中，通过计算机程序分析降序排列的γ参数曲线，模拟人工选取中心点的行为，并定义一
个共识度来刻画哪些中心点可能诱导一个合理的聚类层次。
3.根据权利要求2所述的一种基于密度峰值的高效层次聚类方法，其特征在于：所述γ
参数定义为：γi＝ρi×δi,1≤i≤N,它刻画了一个数据点能够被选为中心的可能性，其取值
在区间[0,+∞)；
用SortedGamma[N]存储降序排列的γ参数值，Sort...

【专利技术属性】
技术研发人员：王国胤，徐计，邓伟辉，尚明生，张学睿，
申请(专利权)人：中国科学院重庆绿色智能技术研究院，
类型：发明
国别省市：重庆;50

全部详细技术资料下载我是这个专利的主人