基于相似度传递的图聚类方法技术

技术编号:21142026 阅读:54 留言:0更新日期:2019-05-18 05:25
本发明专利技术涉及一种基于相似度传递的图聚类方法。该算法通过在邻近数据点间进行相似度传递,挖掘流形结构,学习出能够反映数据点间拓扑关系的最优图,并通过拉普拉斯秩约束,使所学最优图中具有清晰的类别结构(每个连通分量对应一个类别),避免后处理操作,提高聚类准确率。

【技术实现步骤摘要】
基于相似度传递的图聚类方法
本专利技术属于机器学习领域,特别针对图聚类问题,进行数据间相似度的学习,将相似度高的数据合并为同类。本专利技术可应用到统计数据分析、模式识别等方面。
技术介绍
随着大数据时代的深度发展,数据挖掘逐渐成为机器学习领域的一个热点。在数据挖掘技术中,聚类分析是广为研究的课题之一。所谓聚类,就是根据数据对象之间的相似性,对其进行区分,将数据合并为不同类别。被划分为同一类别的数据具有较高的相似度,而不同类别中数据的相似度较低。聚类方法不依赖先验信息,因此是一种无监督的学习方法。因其无监督的特性,聚类分析已被广泛应用在许多领域中,如数据分析、图像处理、模式识别等。针对不同领域的问题,各国学者提出了大量聚类算法。根据类别划分依据的不同,现有的聚类方法大致分为:图聚类算法、划分聚类算法、层次聚类算法及网络聚类算法等。其中,图聚类是目前应用最为广泛的方法。图聚类方法根据数据点的局部关系,将其划分为不同类别。相比于其他聚类方法,图聚类能够保留数据间的关联信息,在处理具有复杂结构的数据时,具有天然的优势。因此,图聚类已被推广到许多实际应用中,如文本分类、生物信息、人脸识别等。目前的大部分图聚类算法首先构建一个相似图以描述数据点的相似关系,然后优化某个目标函数将相似图分割为多个子图。这类方法存在三个问题:(1)过于依赖相似图。传统图聚类方法在优化过程中不会对相似图进行更新,因此很难得到最优的相似图。相似图的构建质量直接影响聚类结果。(2)无法掌握数据内部流形结构。相似图的构建是根据数据点间的相互关系,数据点在原始空间中的距离越近,相似度越高。然而,在具有流形结构的数据中,距离远的数据点也可能保持密切的关系。仅仅根据一对数据点间的关系,无法判断两者是否属于同类。(3)需要进行后处理。传统图聚类方法在优化完成后并不能直接得到聚类结果,往往需要使用K-means作为后处理步骤。而K-means的结果易受初始化影响,很难得到最优结果。
技术实现思路
要解决的技术问题为了克服现有的图聚类方法存在的问题,本专利技术提出一种基于相似度传递的图聚类方法。技术方案一种基于相似度传递的图聚类方法,其特征在于步骤如下:步骤1:构建一个维度为n的方阵W作为初始化相似图:(1a)假设数据集中包含n个数据点,其中每个数据点都是d维的列向量,第j个数据点由符号xj表示;定义数据点xi和xj的距离为:式中eij为数据点xi和xj的距离,||·||2为向量二范数;(1b)对于数据xi,将其与其他所有点的距离从小到大重新排序,使ei1≤ei2≤…≤ein;(1c)将数据点xi和xj的初始相似度定义为式中ei6为数据点xi与其距离最近的第6个点之间的距离,Wij为xi和xj的相似度;W是由Wij组成的维度为n的方阵,即为构建的初始相似图;步骤2:设计并优化目标函数,得到最优图:(2a)设计目标函数如下:式中方阵S是需要学习的最优图,维度为n,其中Sij为数据点xi和xj更新后的相似度;β是权重参数,I是维度为n的单位矩阵,c是已知的类别数目;rank(·)代表矩阵的秩,方阵LS是S的拉普拉斯矩阵;秩约束rank(LS)=n-c等同于限制Tr(FTLSF)为0,其中上标T为矩阵转置符号,矩阵F为如下优化问题的最优解:式中Tr(·)为方阵的迹,代表F是维度为n行c列的矩阵;将目标函数(3)转化为如下公式:式中λ是可调节的参数,公式(5)即为最终的目标函数;(2b)初始化变量:在第一次迭代中,将S初始化为W;同时,将参数β固定为1,并将参数λ初始化为1;(2c)固定S优化F:去掉F的无关项,目标函数(5)变为公式(4),F的最优解即为由LS的c个最小特征值对应的特征向量所构成的矩阵;(2d)固定F优化S:根据谱聚类理论,式(5)的第三项Tr(FTLSF)等于其中列向量fi和fj分别为矩阵F的第i行和第j行的转置;因此,公式(5)可以转化为进一步地,记S和I的第i行的转置分别为列向量si和Ii,并定义n维列向量mi使其第j个元素为则公式(6)可以对S的每一行分别求解,以第i行为例:式中符号1代表元素全部为1的n维列向量,LW为方阵W的拉普拉斯矩阵;公式(7)中的si可由增广拉格朗日方法进行快速求解,即得到方阵S中第i行的所有元素;通过对S的所有行求解,可得到更新后的最优图S;对参数λ进行调节,以保证Tr(FTLSF)接近于0;(2e)重复步骤(2c)和(2d)直至公式(5)的目标函数值达到收敛,即得到所求最优图S;步骤3:若两个数据点在最优图S中属于同一连通分量,则两者属于同一类别;否则,两者属于不同类别。有益效果本专利技术提出的一种基于相似度传递的图聚类方法。该算法通过在邻近数据点间进行相似度传递,挖掘流形结构,学习出能够反映数据点间拓扑关系的最优图,并通过拉普拉斯秩约束,使所学最优图中具有清晰的类别结构(每个连通分量对应一个类别),避免后处理操作,提高聚类准确率。本专利技术通过传递数据点的相似度,挖掘了点之间的拓扑关系,在优化的过程中得到最优相似图。通过对最优图进行拉普拉斯秩约束,使其具有清晰的类别结构,无需使用后处理算法即可得到聚类结果。附图说明图1本专利技术的流程图具体实施方式现结合实施例、附图对本专利技术作进一步描述:参照图1,本专利技术的具体实现步骤如下:步骤1,根据Nie等人在文献“F.Nie,X.Wang,M.Jordan,andH.Huang.TheConstrainedLaplacianRankAlgorithmforGraph-BasedClustering.AAAIConferenceonArtificialIntelligence,1969-1976,2016.”中的方法,构建一个维度为n的方阵W作为初始化相似图。(1a)假设数据集中包含n个数据点,其中每个数据点都是d维的列向量,第j个数据点由符号xj表示。定义数据点xi和xj的距离为式中eij为数据点xi和xj的距离,||·||2为向量二范数。(1b)对于数据xi,将其与其他所有点的距离从小到大重新排序,使ei1≤ei2≤…≤ein。(1c)将数据点xi和xj的初始相似度定义为式中ei6为数据点xi与其距离最近的第6个点之间的距离,Wij为xi和xj的相似度。W是维度为n的方阵,即为构建的初始相似图。这种构建方法可以保证相似图是稀疏的,每个数据点只和距离最近的5个点保持关联。步骤2,设计并优化目标函数,得到最优图。(2a)设计目标函数如下:式中方阵S是需要学习的最优图,维度为n,其中Sij为数据点xi和xj更新后的相似度。β是权重参数,I是维度为n的单位矩阵,c是已知的类别数目。公式第一项假设如果第j和k个数据点在具有较高的初始相似度Wjk,则它们与其他任一数据点xi的相似度应该接近(即Sij与Sik接近)。这种假设可以保证相似度在邻近点间进行传递,从而挖掘数据中的流形结构,使得距离较远的数据点也可能被分配较高的相似度。式中第二项是为了防止最优图S中所有元素相等。约束是为了防止S中某些行所有元素都是0。rank(·)代表矩阵的秩,方阵LS是S的拉普拉斯矩阵。根据Mohar等人在文献“B.Mohar,Y.Alavi,G.Chartrand,O.Oeelermann,andA.Schwen本文档来自技高网
...

【技术保护点】
1.一种基于相似度传递的图聚类方法,其特征在于步骤如下:步骤1:构建一个维度为n的方阵W作为初始化相似图:(1a)假设数据集中包含n个数据点,其中每个数据点都是d维的列向量,第j个数据点由符号xj表示;定义数据点xi和xj的距离为:

【技术特征摘要】
1.一种基于相似度传递的图聚类方法,其特征在于步骤如下:步骤1:构建一个维度为n的方阵W作为初始化相似图:(1a)假设数据集中包含n个数据点,其中每个数据点都是d维的列向量,第j个数据点由符号xj表示;定义数据点xi和xj的距离为:式中eij为数据点xi和xj的距离,||·||2为向量二范数;(1b)对于数据xi,将其与其他所有点的距离从小到大重新排序,使ei1≤ei2≤…≤ein;(1c)将数据点xi和xj的初始相似度定义为式中ei6为数据点xi与其距离最近的第6个点之间的距离,Wij为xi和xj的相似度;W是由Wij组成的维度为n的方阵,即为构建的初始相似图;步骤2:设计并优化目标函数,得到最优图:(2a)设计目标函数如下:式中方阵S是需要学习的最优图,维度为n,其中Sij为数据点xi和xj更新后的相似度;β是权重参数,I是维度为n的单位矩阵,c是已知的类别数目;rank(·)代表矩阵的秩,方阵LS是S的拉普拉斯矩阵;秩约束rank(LS)=n-c等同于限制Tr(FTLSF)为0,其中上标T为矩阵转置符号,矩阵F为如下优化问题的最优解:式中Tr(·)为方阵的迹,代表F是维度为n行c列的矩阵;将目标函数(3)转化...

【专利技术属性】
技术研发人员:李学龙陈穆林王琦
申请(专利权)人:西北工业大学
类型:发明
国别省市:陕西,61

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1