一种基于图学习的快速谱嵌入聚类方法技术

技术编号:26846484 阅读:23 留言:0更新日期:2020-12-25 13:09
本发明专利技术公开了一种基于图学习的快速谱嵌入聚类方法,本发明专利技术的有益效果是,通过近邻方法构造二部图,二部图包含了原始数据点与锚点、锚点与锚点之间的联系,并通过对二部图快速谱嵌入得到数据的低维表示,然后更新自适应近邻图结构,并用其来修正原来的二部图结构,学习到更好的数据点与锚点的二部图结构;通过迭代更新,最终得到具有c个连通域的自适应近邻图结构。得到最优的图结构的同时,也得到了聚类的结果。本发明专利技术提出的算法在多个基准数据集上获得了较好的聚类精度。

【技术实现步骤摘要】
一种基于图学习的快速谱嵌入聚类方法
本专利技术涉及数据挖掘和模式识别
,尤其涉及一种基于图学习的快速谱嵌入聚类方法。
技术介绍
目前,有学者提出自适应近邻谱嵌入聚类方法,该方法主要有两步,第一步为对数据进行谱嵌入,第二步为自适应近邻聚类,该方法的详细过程如下:1)对数据进行谱嵌入聚类结果可以看做是原始数据的映射,映射函数为:Y=XTW+1bT(1)谱聚类的目标函数为:s.t.FTF=I.(2)其中,或者L=I-D-1W加上线性嵌入正则项,可得s.t.FTF=I.(3)将公式(1)带入公式(3),使其中W和b的导数为0,将得到的结果代回公式(3),则有s.t.FTF=I(4)2)自适应近邻聚类本专利技术目标是从数据点和锚点中得到相似度矩阵,根据现有资料,有以下目标方程:为了方便对公式(5)求解,对公式(5)施加先验信息和秩约束为:由于秩约束较为难解,所以通过特征值分解的方法来近似求解秩约束将公式(7)写成向量表示形式,则相似度矩阵的元素为其中,αi和ηi是拉格朗日乘数。现有技术中采用自适应近邻谱嵌入聚类方法,通过原始数据点与锚点之间的关系构建二部图对标签矩阵进行嵌入,没有考虑锚点之间的联系,图结构反映的信息不够完整。在追求高准确度的同时没有很好地考虑计算复杂度,因此在维度高或者数据量大的数据上的运用没有良好的表现。
技术实现思路
本专利技术的目的在于提供一种基于图学习的快速谱嵌入聚类方法,针对现有的自适应近邻谱嵌入聚类方法存在的问题,本专利技术提出一种基于图学习的快速谱嵌入聚类方法,能在高维数据上有较好的应用,在提高了算法性能同时,也降低了计算复杂度。为达此目的,本专利技术采用以下技术方案:一种基于图学习的快速谱嵌入聚类方法,所述方法包括如下步骤:S10、输入数据:输入待聚类的数据集X=[x1,…,xn]T∈Rn×d、设定类簇数c;利用K-means方法选取m个锚点U=[u1,…,um]T∈Rm×d;S20、构建组合二部图矩阵,通过组合二部图得到数据点的低维表示F和G:计算数据点X和锚点U之间的二部图矩阵:Z1∈Rn×m;计算数据点X和锚点U之间的分配矩阵:Z2∈Rm×m;得到组合的二部图矩阵:求出矩阵Z的相似矩阵A,对相似矩阵A进行谱分析,其目标函数为:其中,Λ∈Rm×m为对角矩阵;其中,F∈Rn×c和G∈Rm×c分别对应于数据点和锚点的低维表示;此处对进行奇异值分解,得到H的松弛连续解,从而得到低维的谱嵌入数据;S30、构建数据点和锚点的低维表示的目标函数:其中,P为数据点和锚点的相似度矩阵,Q为最大的c个奇异值对应的左右奇异向量的相似度矩阵,fi为对应F∈Rn×c的向量表示形式,gj为对应G∈Rm×c的向量表示形式;λ为约束系数;S40、判定步骤S30中目标函数是否收敛;若目标函数收敛,则转至步骤S60;若目标函数不收敛,则转至步骤S50;S50、通过交替迭代优化方式更新目标函数,并返回步骤S20;S60、输出图结构信息完整的相似度矩阵P,结束。可选地,所述步骤S50中:通过交替迭代优化方式更新目标函数,包含步骤如下:S501、固定Q,求解相似度矩阵P得到:s.t.P1=1,P≥0令li∈Rm×1,则转化为:通过KKT条件,此时将γ代入公式得求得相似度矩阵P;S502、根据步骤S401所求相似度矩阵P值求解Q,可使目标公式可以改写为:令则目标公式进一步优化为:此时可通过求的奇异值和奇异向量获得;U、V分别为矩阵的最大的c个奇异值对应的左右奇异向量;S403、令Z1=Z1+βP,其中β为设定的更新系数。可选地,所述步骤S20中,在构建组合二部图矩阵前,需计算数据点和锚点之间的分配矩阵:令di∈Rm×1是第j个元素为dij的向量,求得:其中,k为近邻点的个数,z1ij为第i个数据点与第j个锚点之间的相似度的权重,参数γ被设置为可选地,所述步骤S30中的:构建原始数据点和锚点的目标函数,其具体构建步骤如下:S301、为从数据点和锚点中得到相似度矩阵,有以下方程:S302、对步骤301中的目标公式加上秩约束,并通过特征分解逼近得到:此时,令和得到目标函数。可选地,所述m、所述n、所述i、所述j、所述k的取值范围均为正整数。与现有技术相比,本专利技术具有以下有益效果:本专利技术首先通过近邻方法构造二部图,二部图包含了原始数据点与锚点、锚点与锚点之间的联系。本专利技术通过对二部图快速谱嵌入得到数据的低维表示,然后更新自适应近邻图结构,并用其来修正原来的二部图结构,学习到更好的数据点与锚点的二部图结构,通过交替迭代更新,最终得到具有c个连通域的自适应近邻图结构,在得到最优的图结构的同时,也得到了聚类的结果。本专利技术提出的算法在多个基准数据集上获得了较好的聚类精度。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其它的附图。本说明书附图所绘示的结构、比例、大小等,均仅用以配合说明书所揭示的内容,以供熟悉此技术的人士了解与阅读,并非用以限定本专利技术可实施的限定条件,故不具技术上的实质意义,任何结构的修饰、比例关系的改变或大小的调整,在不影响本专利技术所能产生的功效及所能达成的目的下,均应仍落在本专利技术所揭示的
技术实现思路
得能涵盖的范围内。图1为本专利技术算法的流程图;图2为基准数据集的详细信息表;图3为各类算法的聚类精度对比表。具体实施方式为使得本专利技术的专利技术目的、特征、优点能够更加的明显和易懂,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,下面所描述的实施例仅仅是本专利技术一部分实施例,而非全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本专利技术保护的范围。在本专利技术的描述中,需要理解的是,术语“上”、“下”、“顶”、“底”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本专利技术和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本专利技术的限制。需要说明的是,当一个组件被认为是“连接”另一个组件,它可以是直接连接到另一个组件或者可能同时存在居中设置本文档来自技高网
...

【技术保护点】
1.一种基于图学习的快速谱嵌入聚类方法,其特征在于,所述方法包括如下步骤:/nS10、输入数据:/n输入待聚类的数据集X=[x

【技术特征摘要】
1.一种基于图学习的快速谱嵌入聚类方法,其特征在于,所述方法包括如下步骤:
S10、输入数据:
输入待聚类的数据集X=[x1,…,xn]T∈Rn×d、设定类簇数c;利用K-means方法选取m个锚点U=[u1,…,um]T∈Rm×d;
S20、构建组合二部图矩阵,通过组合二部图得到数据点的低维表示F和G:
计算数据点X和锚点U之间的二部图矩阵:Z1∈Rn×m;
计算数据点X和锚点U之间的分配矩阵:Z2∈Rm×m;
得到组合的二部图矩阵:
求出矩阵Z的相似矩阵A,对相似矩阵A进行谱分析,其目标函数为:

其中,Λ∈Rm×m为对角矩阵;其中,

F∈Rn×c和G∈Rm×c分别对应于数据点和锚点的低维表示;
此处对进行奇异值分解,得到H的松弛连续解,从而得到低维的谱嵌入数据;
S30、构建数据点和锚点的低维表示的目标函数:



其中,P为数据点和锚点的相似度矩阵,Q为最大的c个奇异值对应的左右奇异向量的相似度矩阵,fi为对应F∈Rn×c的向量表示形式,gj为对应G∈Rm×c的向量表示形式;λ为约束系数;
S40、判定步骤S30中目标函数是否收敛;若目标函数收敛,则转至步骤S60;若目标函数不收敛,则转至步骤S50;
S50、通过交替迭代优化方式更新目标函数,并返回步骤S20;
S60、输出图结构信息完整的相似度矩阵P,结束。


2.根据权利要求1所述的基于图学习的快速谱嵌入聚类方法,其特征在于,所述步骤S50中:通过交替迭代优化方式更新目标函数,包含步骤如下:<...

【专利技术属性】
技术研发人员:林郭权杨晓君郭春炳阳琴蔡湧达许裕雄
申请(专利权)人:广东工业大学
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1