【技术实现步骤摘要】
一种自加权融合局部和全局信息的多视图子空间聚类方法
[0001]本专利技术涉及计算机视觉、模式识别和数据挖掘等
,更具体地,涉及一种自加权融合局部和全局信息的多视图子空间聚类方法。
技术介绍
[0002]随着互联网技术的快速发展,人们获取数据的手段越来越多样化,使得大量无标签的数据不断产生。在当今大数据时代环境的影响下,如何对这些无标签的数据进行分析和处理从而揭示其内在规律成为各行各业广泛关注的问题。聚类做为一种无监督学习技术,在机器学习、计算机视觉和数据挖掘等领域被广泛使用。聚类试图对无标签的数据依据其数据自身的内在特性,将数据划分成若干个簇,即使得“簇内相似度”高且“簇间相似度”低。为下一步的数据分析提供基础。
[0003]传统的聚类方法通过挖掘单视图数据的内在结构来对数据进行划分。例如:K均值聚类、密度聚类、层次聚类、谱聚类、子空间聚类等方法。单视图数据由单一特征构成的数据。当单视图数据不足以全面描述对象时和/或严重损坏的情况下,会导致传统聚类方法的性能不佳。真实世界的数据通常具有多种表现形式,即每个对象 ...
【技术保护点】
【技术特征摘要】
1.一种自加权融合局部和全局信息的多视图子空间聚类方法,其特征在于,包括以下步骤:S1:采集多视图数据并进行预处理;S2:通过图学习挖掘原始多视图数据的局部信息时加入自表示学习来挖掘原始多视图数据的全局信息从而获得高质量和高鲁棒性的相似度矩阵;S3:采取自加权的方式将所有视图的相似度矩阵进行融合形成一致的相似度矩阵;S4:对一致的相似度矩阵引入秩约束,使得一致的相似度矩阵中连通分量的个数等于聚类簇的个数,从而直接获得多视图聚类结果。2.根据权利要求1所述的自加权融合局部和全局信息的多视图子空间聚类方法,其特征在于,所述步骤S1中,对采集的多视图数据进行预处理的过程是:使用L2范数归一化操作对向量的每一个元素都除以得到一个新向量,L2范数归一化通常将数据向量每个维度的数据映射到(
‑
1,1)之间的区间即:其中是第v个视图的i个样本的原始特征,是的第1个元素,是第v个视图的i个样本归一化后的特征,||
·
||2表示向量的L2范数。3.根据权利要求2所述的自加权融合局部和全局信息的多视图子空间聚类方法,其特征在于,所述步骤S2中,通过自表示学习和图学习相结合的方式去计算多视图数据中每个视图数据对应的相似度矩阵:其中和分别是第v个视图的第i个样本的原始特征和第j个样本的原始特征,表示第v视图的原始特征,m表示视图的数量,n表示样本的数量,d
v
表示第v视图的特征维度,是第v个视图的相似度矩阵,是S
v
的第i列向量,1是所有元素全为1的列向量,(
·
)
T
表示矩阵的转置,表示矩阵的Frobenius范数的平方,表示向量的L2范数的平方,λ1是一个平衡参数。4.根据权利要求3所述的自加权融合局部和全局信息的多视图子空间聚类方法,其特征在于,所述步骤S3中,采取自加权的方式将所有视图的相似度矩阵进行融合形成一致的相似度矩阵:其中表示一致的相似度矩阵,diag(
·
)表示矩阵的对角元素。5.根据权利要求4所述的自加权融合局部和全局信息的多视图子空间聚类方法,其特
征在于,所述步骤S4中,引入秩约束使得一致的相似度矩阵具有理想的性质,从而直接获得最终的聚类结果,形式如下:其中,L
S
=D
‑
1/2(S+S
T
)是S的拉普拉斯矩阵,D是S的度矩阵,其中第i个对角元素为k是聚类簇的个数,rank(
·
)表示矩阵的秩。6.根据权利要求5所述的自加权融合局部和全局信息的多视图子空间聚类方法,其特征在于,所述步骤S4中,由于公式(1
‑
4)中存在秩约束rank(Ls)=n
‑
k会使得该优化问题变得难以求解,根据Ky Fan
’
s定理,将秩约束转化为最小化问题其中σ
i
(L
S
)是L
S
的第i小特征值,L
S
的前k小的特征值均为0,即将使得L
S
的秩为n
‑
k,公式(1
‑
4)自然转化为如下形式:其中,表示聚类指示矩阵,表示单位矩阵,Tr(
·
)表示矩阵的秩,λ2是一个平衡参数。7.根据权利要求6所述的自加权融合局部和全局信息的多视图子空间聚类方法,其特征在于,所述步骤S4中,通过将公式...
【专利技术属性】
技术研发人员:段意强,袁浩亮,符政鑫,许斯滨,吕应龙,
申请(专利权)人:广东工业大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。