一种基于局部密度和测地距离的分层谱聚类方法技术

技术编号：11731334 阅读：263 留言：0更新日期：2015-07-15 03:33

本发明专利技术公开了一种基于局部密度和测地距离的分层谱聚类方法。主要解决已有聚类技术很难对粘连数据集进行准确聚类的问题。实现过程为：(1)计算样本的局部密度，选择最近高密度点构造有向图；(2)对有向图进行剪枝并生成边缘点集合；(3)构造无向连通图：边缘点与其最近高密度点构造边，非边缘点之间的K个近邻点构造边；(4)根据无向连通图计算测地距离和相似度矩阵(5)计算度矩阵和规范化的拉普拉斯矩阵；(6)单位化谱矩阵，并采用K-means算法得出聚类结果。本发明专利技术与现有的聚类技术相比，在粘连数据集上能够获得更加真实的相似度矩阵，使得聚类结果更加准确。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于聚类分析
，涉及谱聚类中改进亲合矩阵的构造方法。具体地说是一种基于局部密度和测地距离的分层谱聚类方法，可用于图像分割、文本挖掘、机器学习等领域。
技术介绍
谱聚类算法主要是对数据对象进行分析处理，将其分为多个簇，同一个簇内具有较高的相似性，不同簇间具有较低的相似性。谱聚类算法是建立在谱图理论的基础上，其本质就是将传统的聚类问题转换为图的最优划分问题。首先根据给定的数据集，计算亲合矩阵(相似度矩阵)以描述数据点之间的相似性，并计算规范化的拉普拉斯矩阵的特征值和特征向量，通过选择合适的特征向量对不同的数据点进行聚类。传统的聚类分析方法(如k-means算法、EM算法等)，是建立在凸球形的样本空间，不适用于任意形状的样本空间聚类，算法容易陷入局部最优；而谱聚类算法只与样本的个数有关，与数据样本的维数无关，能够识别任意形状的样本空间且能收敛全局最优，因此被广泛应用于计算机视觉、图像分割、文本挖掘、VISI设计、语音识别、机器学习等领域。近年来，Shi和Malik根据谱图理论建立了基于2-way划分的规范割(Ncut)目标函数，设计用于图像分割的谱聚类算法。经Ng等人研究，发展成为k-way划分的NJW算法。这些算法中都是采用欧氏距离决定的高斯核函数作为相似度矩阵，其中核参数需要人工确定增加了算法的不确定性；同时采用欧氏距离的方法很难反应样本之间真实的相似关系，尤其是对具有复杂分布结构的任意形状的数据集...

【技术保护点】
一种基于局部密度和测地距离的分层谱聚类方法，包括如下步骤：(1)输入数据集X＝{x1,x2,...,xn}∈Rd，xn表示数据集中的第n个样本，n为样本个数，d为样本维数；(2)局部密度计算：令ρi为样本xi的局部密度，i＝1,2,…n。ρi=Σj=1n-1e(d(xi,xj)dc)2]]>其中n为样本总数，d(xi,xj)为样本xi与样本xj的欧式距离，dc为截断距离。(3)密度有向图的构造：(3a)计算样本点xi与局部密度高于ρi的点间最小距离：δi=minj:ρj>ρi(d(xi,xj))]]>(3b)定义集合Vall存放所有点的标号，数组Nneigh存放每个点的最近高密度点标号，根据式可以判断样本xi的最近高密度点标号为：Nneigh(xi)＝j其中局部密度最高的点，没有与其最近的高密度点。为了方便选择边缘点，局部密度最高点的最近高密度点为本身，若局部密度最高点为xq，则Nneigh(xq)＝q。(3c)构造密度有向图：每个点与其最近的高密度点构造有向图，方向为该点指向其最近的高密度点。(4)有向图剪枝和边缘点集合生成：Nneig...

【技术特征摘要】
1.一种基于局部密度和测地距离的分层谱聚类方法，包括如下步...

【专利技术属性】
技术研发人员：葛洪伟，张涛，苏树智，杨金龙，
申请(专利权)人：江南大学，
类型：发明
国别省市：江苏;32

全部详细技术资料下载我是这个专利的主人