当前位置: 首页 > 专利查询>江南大学专利>正文

一种基于局部密度和测地距离的分层谱聚类方法技术

技术编号:11731334 阅读:263 留言:0更新日期:2015-07-15 03:33
本发明专利技术公开了一种基于局部密度和测地距离的分层谱聚类方法。主要解决已有聚类技术很难对粘连数据集进行准确聚类的问题。实现过程为:(1)计算样本的局部密度,选择最近高密度点构造有向图;(2)对有向图进行剪枝并生成边缘点集合;(3)构造无向连通图:边缘点与其最近高密度点构造边,非边缘点之间的K个近邻点构造边;(4)根据无向连通图计算测地距离和相似度矩阵(5)计算度矩阵和规范化的拉普拉斯矩阵;(6)单位化谱矩阵,并采用K-means算法得出聚类结果。本发明专利技术与现有的聚类技术相比,在粘连数据集上能够获得更加真实的相似度矩阵,使得聚类结果更加准确。

【技术实现步骤摘要】

本专利技术属于聚类分析
,涉及谱聚类中改进亲合矩阵的构造方法。具体地说是一种基于局部密度和测地距离的分层谱聚类方法,可用于图像分割、文本挖掘、机器学习等领域。
技术介绍
谱聚类算法主要是对数据对象进行分析处理,将其分为多个簇,同一个簇内具有较高的相似性,不同簇间具有较低的相似性。谱聚类算法是建立在谱图理论的基础上,其本质就是将传统的聚类问题转换为图的最优划分问题。首先根据给定的数据集,计算亲合矩阵(相似度矩阵)以描述数据点之间的相似性,并计算规范化的拉普拉斯矩阵的特征值和特征向量,通过选择合适的特征向量对不同的数据点进行聚类。传统的聚类分析方法(如k-means算法、EM算法等),是建立在凸球形的样本空间,不适用于任意形状的样本空间聚类,算法容易陷入局部最优;而谱聚类算法只与样本的个数有关,与数据样本的维数无关,能够识别任意形状的样本空间且能收敛全局最优,因此被广泛应用于计算机视觉、图像分割、文本挖掘、VISI设计、语音识别、机器学习等领域。近年来,Shi和Malik根据谱图理论建立了基于2-way划分的规范割(Ncut)目标函数,设计用于图像分割的谱聚类算法。经Ng等人研究,发展成为k-way划分的NJW算法。这些算法中都是采用欧氏距离决定的高斯核函数作为相似度矩阵,其中核参数需要人工确定增加了算法的不确定性;同时采用欧氏距离的方法很难反应样本之间真实的相似关系,尤其是对具有复杂分布结构的任意形状的数据集而言,无法有效的表示类内和类间的相似性。在相似度方面的研究,目前出现了许多改进的方法,如自调节的谱聚类方法(简称STSC,参见:Zelnik-Manor L,Perona P.《Self-tuning spectral clustering》,Advances in neural information processing systems.2004:1601-1608)、基于流行排序定义亲和图的方法(简称ROM-MSC,参见:Xia T,Cao J,Zhang Y,et al.《On defining affinity graph for spectral clustering through ranking on manifolds》.Neurocomputing,2009,72(13):3203-3211)。2014年Yan等人提出了基于密度敏感距离测度和欧氏距离的相似函数,其中需要计算最短路径的密度敏感距离测度相似性函数的谱聚类方法(简称DSSC,参见:Yan J,Cheng D,Zong M,et al.《Improved Spectral Clustering Algorithm Based on Similarity Measure》,Advanced Data Mining and Applications.Springer International Publishing,2014:641-654)通过放大不同高密度区域内数据点间距离,同时缩短同一高密度区域内数据点间距离,发现复杂数据分布的空间特征;这些方法虽然在一定程度上改善了谱聚类方法的聚类性能,但并未能解决粘连数据集如何构造相似度矩阵问题。传统的测地距离采用K近邻图计算方法,当K值较小的时候,将原来流形结构分为多个不连通的子流形结构;K值过大又会导致不同类间具有较强连通性。所以当样本点的K个近邻点大部分是同类内的点,测地距离可以更好的反映样本的分布;当存在样本点的K个近邻点中大部分属于不同类的时候,测地距离无法有效的反映不同类间的真实关系。因此,在解决粘连数据集聚类问题时,基于传统测地距离计算的谱聚类(Spectral clustering based on geodesic distance,简称GSC)和DSSC等谱聚类方法都无法获取良好的效果。
技术实现思路
本专利技术的目的在于克服上述
技术介绍
中存在的问题,提出一种基于局部密度和测地距离的分层谱聚类方法,通过对局部密度有向图剪枝生成的边缘点和非边缘点构造无向连通图,并计算测地距离和相似度矩阵,使得聚类结果更加准确。尤其针对粘连数据集时,其优势更加明显。实现本专利技术的技术关键是:一种基于局部密度和测地距离的分层谱聚类方法。具体实现步骤包括如下:(1)输入数据集X={x1,x2,...,xn本文档来自技高网
...

【技术保护点】
一种基于局部密度和测地距离的分层谱聚类方法,包括如下步骤:(1)输入数据集X={x1,x2,...,xn}∈Rd,xn表示数据集中的第n个样本,n为样本个数,d为样本维数;(2)局部密度计算:令ρi为样本xi的局部密度,i=1,2,…n。ρi=Σj=1n-1e(d(xi,xj)dc)2]]>其中n为样本总数,d(xi,xj)为样本xi与样本xj的欧式距离,dc为截断距离。(3)密度有向图的构造:(3a)计算样本点xi与局部密度高于ρi的点间最小距离:δi=minj:ρj>ρi(d(xi,xj))]]>(3b)定义集合Vall存放所有点的标号,数组Nneigh存放每个点的最近高密度点标号,根据式可以判断样本xi的最近高密度点标号为:Nneigh(xi)=j其中局部密度最高的点,没有与其最近的高密度点。为了方便选择边缘点,局部密度最高点的最近高密度点为本身,若局部密度最高点为xq,则Nneigh(xq)=q。(3c)构造密度有向图:每个点与其最近的高密度点构造有向图,方向为该点指向其最近的高密度点。(4)有向图剪枝和边缘点集合生成:Nneigh存放每个点的最近高密度点的标号,在Nneigh中没有出现标号的点即是边缘点,与边缘点连接的边需要进行剪枝。在对有向图进行一次剪枝后,将边缘点加入集合Vmarg。此时,有向图中又会出现边缘点,对其进行二次剪枝,将剪枝后边缘点再次加入集合Vmarg。经过二次剪枝后,剩下的点称为非边缘点,用集合V表示,满足Vmarg∪V=Vall。(5)无向连通图构造:(5a)非边缘点集合V中的点采用K近邻方式构图:寻找集合V中样本点xi在集合V中的K个最近邻样本点,如果xj是xi在集合V中的K个最近邻样本点,则P(xi,xj)=1,P(xj,xi)=1;否则P(xi,xj)=0,P(xj,xi)=0。(5b)边缘点集合Vmarg中的点构图缘点集合Vmarg中的样本点xi,根据式Nneigh(xi)=j将每个边缘点与其最近的高密度点构造连接关系,则P(xi,xj)=1,P(xj,xi)=1;否则P(xi,xj)=0,P(xj,xi)=0。(6)计算测地距离(6a)初始化测地距离矩阵:dG(xi,xj)=d(xi,xj),ifP(xi,xj)=1∞,other]]>其中d(xi,xj)为样本点xi与xj之间的欧氏距离。(6b)计算最短路径:For k=1to ndG(xi,xj)=min{dG(xi,xj),dG(xi,xk)+dG(xk,xj)}End(7)计算样本集X内所有点之间的相似度,得到相似度矩阵A,其中A(xi,xj)=0,i=j。尺度参数σi=d(xi,xl),xl为样本点xi的第l个近邻点。(8)构建度矩阵D和拉普拉斯矩阵L;其中,D为对角矩阵,对角元素表示第i个样本xi的度,L=D‑1/2AD‑1/2;(9)计算L的前k个最大特征值所对应的特征向量,并构成矩阵U,然后单位化得到矩阵Y=[yij]n×k,其中,yij=uij(Σj=1Kuij2)1/2;]]>(10)将Y的每一行作为k维空间中的一个样本点,通过K‑means算法将这些样本点聚成k类;当且仅当Y的第i行被分配为第j类时,将样本xi分配为第j类。...

【技术特征摘要】
1.一种基于局部密度和测地距离的分层谱聚类方法,包括如下步...

【专利技术属性】
技术研发人员:葛洪伟张涛苏树智杨金龙
申请(专利权)人:江南大学
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1