一种分布式实现的稀疏子空间聚类方法技术

技术编号:15640457 阅读:197 留言:0更新日期:2017-06-16 06:02
本发明专利技术公开了一种分布式实现的稀疏子空间聚类方法,其在多台计算机组成的集群上,将数据分发到每个计算节点上,然后每个计算节点选取本计算机和其他计算机的数据计算一个Lasso稀疏重建子问题直至问题收敛,当所有子问题由所有计算节点分工计算完成后,将计算结果向量汇总到主进程或管理节点,进行后续的带权无向图的生成和谱聚类过程,最终得到分类编号。较常用的ADMM串行计算,在不降低分类精确度的情况下,计算速度有了明显的提高。

【技术实现步骤摘要】
一种分布式实现的稀疏子空间聚类方法
本专利技术公开了一种分布式实现的稀疏子空间聚类方法,涉及机器学习数据处理

技术介绍
聚类问题是无监督机器学习研究的重要问题之一,在图像处理,数据挖掘,社交网络等领域得到广泛研究和应用。然而在许多实际问题中,随着数据维度的不断快速增加,所谓的“维数灾难”问题也日益显著。高维的数据如果用传统方法来求解,时间复杂度往往会难以承受,因此高维数据的高效建模和计算问题成为目前数据挖掘的重要挑战和难点。Elhamifar&Vidal提出了建立在自表达性质基础上的稀疏子空间聚类模型。该模型利用每个样本的稀疏自表达重建系数构造相似度矩阵,进而将相似度矩阵应用谱聚类。坐标下降算法是经典的优化算法之一,近年来在高维稀疏学习问题(如LASSO)中得到很好的应用。针对稀疏子空间聚类模型的自表达系数矩阵优化问题提出一种基于坐标下降的求解方法及其分布式实现。目前关于分布式稀疏子空间聚类算法的研究还较少。在原始的SSC论文中,Elhamifar&Vidal在求解系数矩阵使用的方法是交替方向乘子法(AlternatingDirectionMethodofMultipliers,ADMM)。但是ADMM需要更多的迭代次数,收敛速度慢,停止准则不好判断,参考量之间相互耦合,因此不利于分布式实现。故本专利技术提出一种案将整体的一个Lasso问题拆解成数个Lasso子问题进而分布式计算。
技术实现思路
为解决现有技术上的缺陷,本专利技术目的是在于提供了一种分布式实现的稀疏子空间聚类方法,充分利用计算机资源,将传统串行计算拓展到高性能分布式计算,符合大数据处理的趋势,降低了算法的处理时间。为实现上述目的,本专利技术的技术方案如下:一种分布式实现的稀疏子空间聚类方法,包括以下步骤:步骤1、首先将待聚类的数据或图片提取特征后按列排列组成一个矩阵,得到原始数据。步骤2、将原始数据分配到每个计算节点上,由于每个计算节点要分别计算各自的Lasso问题,所以各个计算节点要将数据用不同的序号分割,每个计算节点再从其他节点复制所有其他节点的数据,以得到求解Lasso稀疏重建需要的数据。步骤3、以上就得到了分布式解决Lasso问题的条件,每个计算节点独立运行,用坐标下降法求解各自的Lasso问题。如果是单机并行计算,由于各个数据的稀疏重建是独立的,因此可以通过多核cpu并行计算。步骤4、由于特征数量远远大于计算节点的数量,需要多次对计算节点分配需要以遍历完所有的特征。步骤5、将每个计算节点的计算结果全部收集汇总,进行后续的带权无向图的生成和谱聚类过程,最终得到分类编号。将整个Lasso稀疏重建问题拆解成Lasso子问题,并分别独立求解。本专利技术采用以上技术方案与现有技术相比,具有以下技术效果:(1)将大问题分解成子问题分布式计算后,降低了算法的处理时间;(2)充分利用计算机资源,将传统串行计算拓展到高性能分布式计算,符合大数据处理的趋势。附图说明图1是本专利技术机并行实现过程;图2是本专利技术分布式实现过程。具体实施方式下面结合附图对本专利技术作进一步描述。以下实施例仅用于更加清楚地说明本专利技术的技术方案,而不能以此来限制本专利技术的保护范围。参加图1和图2,本专利技术提供的一种分布式实现的稀疏子空间聚类方法,其首先在将求解相似度矩阵的Lasso问题过程中将常用的ADMM算法替换为坐标下降法求解,然后利用坐标下降法求解Lasso问题过程的可分性将问题分布式计算。本专利技术方法包括以下步骤:在多台计算机组成的集群上,将数据分发到每个计算节点上,然后每个计算节点选取本计算机和其他计算机的数据计算一个Lasso稀疏重建子问题直至问题收敛,当所有子问题由所有计算节点分工计算完成后,将计算结果向量汇总到主进程或管理节点,进行后续的带权无向图的生成和谱聚类过程,最终得到分类编号。较常用的ADMM串行计算,在不降低分类精确度的情况下,计算速度有了明显的提高。其具体方法如下:步骤1、首先将待分类的图片提取特征后按列排列组成一个矩阵,得到原始数据:关于原始数据的生成,简要介绍一下稀疏子空间聚类模型。假设在D维欧几里得空间RD中有n个线性的子空间他们的维度分别是给定一个具有N个无噪声的数据点集合这些数据点取自n个子空间中,则用一个矩阵来包括所有数据点,如:Y=[y1,y2,...,yN](1)其中,是维度为dl的矩阵,矩阵的元素来自于Sl且满足Nl>dl。假设事先不知道子空间的先验基,也不知道数据点属于哪一个子空间,那么子空间聚类的问题就归结于子空间数量是挖掘,每个子空间的维度和基,还有对矩阵Y的数据分割。要解决这个问题,首先对于每个数据点,寻找一些其他属于同一个子空间的数据点,这可以通过一个全局稀疏优化程序来将数据点所属子空间的信息保存在一个矩阵中。然后将这个矩阵应用在谱聚类中来聚类数据。上述全局稀疏优化程序得出的矩阵称为稀疏表达矩阵,其代表的是重建的系数。如上文所述,在子空间集合中的每个数据点能够被数据集中的其他数据点共同重建。有这样一个数据点可以表示为yi=Y-ici,cii=0(2)其中,ci=[ci1,...,ciN]T,而cii=0表示在数据点组成的矩阵Y中,每个数据点可以被写成其他数据点Y-i的线性组合,而其中并不包括自己。然而,通常字典Y中yi的表达结构并不是独一无二的,这就形成了这样一个事实:子空间中数据点的数量一般比它的维度大,也就是Nl>Dl。这样一来,每个Yl就有一个非平凡的零空间,从而带来了每个数据点有无限个表达结构的结果。问题(2)就成了稀疏子空间聚类的关键点。假设存在一个稀疏解ci,它的非零项对应着同一子空间的数据点,将这样的解作为稀疏子空间的表达结构。具体来说,一个归属于dl维子空间Sl的数据点yi可以被写成dl个Sl内其他点的线性组合。最终,出于理想化的考虑,一个数据点的稀疏表达可以找出同一个子空间的数据点,非零元素的数目就是潜在子空间的维度。由于(2)方程可以有无穷多个解,可以用范数加在这个最小化目标函数中,如将每部分写成整体形式,并考虑加性噪声,则得到如下优化问题(3)和(4)的解就是数据点的子空间稀疏表达系数。可以用ADMM方法求解,亦可以使用坐标下降法,而且同样有稀疏解,在后一节中会介绍坐标下降法对这个问题的求解。在解出目标优化程序后得到了数据点的稀疏表达矩阵,接下来就是考虑如何用这个矩阵来将数据分割至不同的子空间中。对这个问题,可以建立一个带权无向图g=(v,ε,W),其中v定义为此图关于N个数据点的N个节点,定义为每个节点之间的边界的集合,W∈RN×N是一个对称且非负的对称矩阵,并作为一个相似度矩阵来表示边界的权重。一个理想的带权无向图,它在同一个子空间的节点是互相链接的,而不同子空间的节点是互相没有联系的。相似度矩阵W由下式给出W=|C|+|C|T(5)这说明节点i与节点j通过一个权重为|cij|+|cji|的边界相联系。最后对相似度矩阵应用谱聚类算法得出聚类结果。步骤2、将原始数据分配到计算机的每个核或者每个计算节点上,由于每个核或者每个计算节点要分别计算各自的Lasso问题,所以每个核或计算节点要将数据用不同的序号分割,以得到Lasso需要的数据;所述下坐标下降法对于Lasso的求解过程:坐标下降法适用本文档来自技高网...
一种分布式实现的稀疏子空间聚类方法

【技术保护点】
一种分布式实现的稀疏子空间聚类方法,其特征在于,其方法包括:(A)在多台计算机组成的集群上,将原始数据分配到每个计算节点上;(B)每个计算节点选取本计算机和其他计算机的原始数据计算一个Lasso稀疏重建子问题直至问题收敛;(C)当所有子问题由所有计算节点分工计算完成后,将计算结果向量汇总到主进程或管理节点,进行后续的带权无向图的生成和谱聚类过程,最终得到分类编号。

【技术特征摘要】
1.一种分布式实现的稀疏子空间聚类方法,其特征在于,其方法包括:(A)在多台计算机组成的集群上,将原始数据分配到每个计算节点上;(B)每个计算节点选取本计算机和其他计算机的原始数据计算一个Lasso稀疏重建子问题直至问题收敛;(C)当所有子问题由所有计算节点分工计算完成后,将计算结果向量汇总到主进程或管理节点,进行后续的带权无向图的生成和谱聚类过程,最终得到分类编号。2.根据权利要求1所述的稀疏子空间聚类方法,其特征在于,所述步骤(A)中,将待聚类的数据或图片提取特征后按列排列组成一个矩阵,得到所述原始数据。3.根据权利要求1所述的稀疏子空间聚类方法,其特征在于,所述步骤(B)中,各个计算节点将原始数据用不同的序号分割,每个计算节点再从其他节点复制所有其他节点的原始数据,以得到求解Lasso稀疏重建需要的数据。4.根据权利要求1或3所述的稀疏子空间聚类方法,其特征在于,所述步骤(B)中,每个计算节点独立运行,用坐标下降法求解各自的Lasso问题;如果是单机并行计算,可通过多核cpu并行计算。5.如权利要求1或2所述的稀疏子空间聚类方法,其特征在于,所述步骤(A)中,原始数据的生成方法为:设在D维欧几里得空间RD中有n个线性的子空间其维度分别是给定一个具有N个无噪声的数据点集合这些数据点取自n个子空间中,则原始数据矩阵Y包括所有数据点:Y=[y1,y2,...,yN]其中,是维度为dl的矩阵,矩阵的元素来自于Sl且满足Nl>dl;。6.如...

【专利技术属性】
技术研发人员:袁晓彤吴杰祺刘青山
申请(专利权)人:南京信息工程大学
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1