一种面向数据融合的迭代结构化多视图子空间聚类方法,设备及可读存储介质技术

技术编号:25479574 阅读:38 留言:0更新日期:2020-09-01 23:00
本发明专利技术提供一种面向数据融合的迭代结构化多视图子空间聚类方法,设备及可读存储介质,构建多视图子空间聚类ISSMSC模型;对目标函数进行求解和目标优化,获得子空间的数目k和维数,并将数据点分割到子空间中,实现多视图子空间聚类。本方法的矩阵减少了不同簇之间的关系,并增强了同一簇内的关系。邻接矩阵的比较证明了本模型的优势。本方法基于数据的自表达特性,不仅探索了各视图之间的共享信息,而且利用了各视图之间的潜在补充信息。考虑到聚类过程中产生的分割矩阵对邻接矩阵学习的影响,在学习过程中引入了结构化的l

【技术实现步骤摘要】
一种面向数据融合的迭代结构化多视图子空间聚类方法,设备及可读存储介质
本专利技术涉及图像处理
,尤其涉及一种面向数据融合的迭代结构化多视图子空间聚类方法,设备及可读存储介质。
技术介绍
随着信息技术的发展,每天都会产生大量数据。毫不夸张地说,我们生活在数据的海洋中,其中大多数数据是高维的。由于计算机性能的限制,处理高维数据并非易事。在计算过程中,随着数据量的增加,计算量呈指数级增长。这种现象通常被称为维数的诅咒。为了避免这种影响,有许多降维策略,例如主成分分析(PCA),非负矩阵分解(NMF),线性判别分析(LDA)等。这些方法已被广泛用于许多领域,例如模式识别和图像处理。然而,由于现实世界中的高维数据通常来自多个空间,仅仅依靠数据降维技术还不能解决现实需求,因此便出现了子空间分割的需求,而子空间聚类就是一种解决子空间分割问题的方法。本研究正是针对多源农业产业信息资源整合共享领域中问题,为多源、异构、海量的产业信息资源存储与分析提供技术支撑。目前产业数据分析需求要解决的问题就是将来自于不同特征视图数据进行子空间聚类,对它的研究基于相同子空间中的数据应该相似、不同子空间中的数据具有差异性的原理将高维数据映射到不同的子空间中。传统的聚类方法一般采用欧氏距离作为数据之间的相似性度量,但是在高维空间中难以用欧氏距离来度量相似性。而基于稀疏和低秩的子空间聚类算法对高维数据的聚类十分有效。鉴于此,子空间聚类已广泛应用于图像分割、面部聚类、运动分割等方面。在现实世界中,数据可以用多种形式的视图来解释。例如,可以用局部二进制模式(LBP),定向梯度金字塔直方图(PHOG)、尺度不变特征变换(SIFT)、定向梯度直方图(HOG)和其他特征来描述图像。网页可以用指向它们的文本或超链接来表示。文档可以翻译成不同的语言版本。多视图子空间聚类通过同时使用数据的多个特征将高维数据映射到不同子空间中。与子空间聚类相比,多视图子空间聚类可以达到更高的精度,具有广阔的应用前景。尽管多视图子空间聚类已有大量研究,但许多研究还是从原始数据中重建数据点。研究表明,邻接矩阵的学习会受到数据质量的影响,而原始数据通常包含噪声和冗余信息,所以直接使用原始数据进行重建效果难以满足实际需要,图像精确度较低交。
技术实现思路
为了克服上述现有技术中的不足,本专利技术是在多视图子空间聚类中在表示矩阵的学习过程中使用分割矩阵信息。本专利技术提出了一种面向数据融合的迭代结构化多视图子空间聚类方法。从潜在信息中学习所有视图的共享表示,并同时使用不同视图之间的补充信息。在每次迭代期间,利用在第二阶段的过程中形成的矩阵来更新第一阶段中的参数,并且使用来自第一阶段的表示矩阵来对第二阶段中的数据点进行聚类。在表示矩阵的过程中,基于共识原则的预设下获得了不同视图的共享稀疏表示。方法包括:步骤一,构建多视图子空间聚类ISSMSC模型;步骤二,对目标函数进行求解和目标优化,获得子空间的数目k和维数,并将数据点分割到子空间中,,实现多视图子空间聚类。本专利技术还提供一种实现面向数据融合的迭代结构化多视图子空间聚类方法的设备,包括:存储器,用于存储计算机程序及面向数据融合的迭代结构化多视图子空间聚类方法;处理器,用于执行所述计算机程序及面向数据融合的迭代结构化多视图子空间聚类方法,以实现面向数据融合的迭代结构化多视图子空间聚类方法的步骤。本专利技术还提供一种具有面向数据融合的迭代结构化多视图子空间聚类方法的可读存储介质,可读存储介质上存储有计算机程序,计算机程序被处理器执行以实现面向数据融合的迭代结构化多视图子空间聚类方法的步骤。从以上技术方案可以看出,本专利技术具有以下优点:本方法的矩阵减少了不同簇之间的关系,并增强了同一簇内的关系。邻接矩阵的比较证明了本模型的优势。本方法基于数据的自表达特性,不仅探索了各视图之间的共享信息,而且利用了各视图之间的潜在补充信息。考虑到聚类过程中产生的分割矩阵对邻接矩阵学习的影响,在学习过程中引入了结构化的l1范数。此外,还设计了一种有效的优化算法来解决该问题。在七个基准数据集中进行了实验。与最新算法相比,本算法在NMI、ACC等方面更好。附图说明为了更清楚地说明本专利技术的技术方案,下面将对描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1为面向数据融合的迭代结构化多视图子空间聚类方法流程图;图2为数据集UCI的t-SNE可视化示意图;图3为参数的敏感性分析示意图;图4为用t-SNE可视化不同数据集上的共享示意图;图5为Yale数据集上的邻接矩阵比较图.具体实施方式本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本专利技术的范围。附图中所示的方框图仅仅是功能实体,不一定必须与物理上独立的实体相对应。即,可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理器装置和/或微控制器装置中实现这些功能实体。本专利技术提供一种面向数据融合的迭代结构化多视图子空间聚类方法,如图1所示,是基于多视图子空间聚类来实现。多视图子空间聚类可以分为三类:基于谱聚类的方法、基于张量分解的方法和基于深度学习的方法。其中,基于谱聚类的方法由于其易实现性和有效性而最为流行。基于谱聚类的方法通常包含两个阶段。在第一阶段构造邻接(相似度)矩阵,在第二阶段通过执行谱聚类算法获得聚类结果。具体而言,在获得相似度矩阵之后,使用谱(特征值)进行降维。然后,使用k-means算法将数据划分为维数较低的簇。构造相似度矩阵主要有四种方法:ε-邻域图,k-最近邻图,完全连通图和自表示方法,其中自表示方法是应用最广的。本专利技术利用了视图之间的互补知识,并在第二阶段将分割矩阵与第一阶段的数据表示相结合,促进对邻接矩阵的学习。本专利技术涉及的方法用于解决子空间聚类的ISSMSC技术。本专利技术的方法中,给定一组待聚类的数据D={d1,d2,…,dN}∈RM×N,D的N个数据点来自于k个未知维数的子空间的并,且子空间是相互独立的。子空间聚类的目标是求解子空间的数目k和它们的维数,并将数据点分割到其相应的子空间中。为了方便起见,在表1中对整篇文章中的符号进行解释。这里引入了一些相关的定义来解释本文中的术语。本专利技术涉及数据的自表达属性。基于数据的自表达属本文档来自技高网
...

【技术保护点】
1.一种面向数据融合的迭代结构化多视图子空间聚类方法,其特征在于,方法包括:/n步骤一,构建多视图子空间聚类ISSMSC模型;/n步骤二,对目标函数进行求解和目标优化,获得子空间的数目k和维数,并将数据点分割到子空间中,,实现多视图子空间聚类。/n

【技术特征摘要】
1.一种面向数据融合的迭代结构化多视图子空间聚类方法,其特征在于,方法包括:
步骤一,构建多视图子空间聚类ISSMSC模型;
步骤二,对目标函数进行求解和目标优化,获得子空间的数目k和维数,并将数据点分割到子空间中,,实现多视图子空间聚类。


2.根据权利要求1所述的方法,其特征在于,
步骤一还包括:
给定多视图数据集X,X(v)代表第v个视图,X(v)由一系列向量组成,X(v)=[x1,x2,...,xi,...,xn]∈Rd×n,其中xi可以用字典A=[a1,a2,...,ai,...,an]中的基线性组合表示,X(v)可以表示为
X(v)=A(v)R(v)(3)
其中R(v)={r1,r2,...,ri,...,rn},ri用来表示xi;
多视图子空间聚类的设置是同一数据的不同视图共享公共子空间;
根据此设置,存在跨多个视图的数据点共享表示;
设置不同视图X(1),X(2),...,X(V)的共享表示是R,第v个视图的重构错误是数据集可以表示为:



在子空间聚类的自表达方法的基础上,将R表示为:
R=RZ+Ez(5)
其中Ez表示子空间表示产生的错误;
minLr(X,AR)+λ1Lz(R,RZ)++λ2Ω(Z)
s.t.X={X(1),X(2),...,X(V)},A={A(1),A(2),…,A(V)}(6)
L(·,·)和Ω(·)分别表示损失函数和正则项,λ1和λ2用来平衡这三项。


3.根据权利要求2所述的方法,其特征在于,
步骤一还包括:
基于谱聚类的算法包含两个阶段;
在阶段1,构造邻接矩阵Z;
在阶段2中,将K均值算法应用于L,该L通常是Z的拉普拉斯矩阵或由Z形成的归一化拉普拉斯矩阵;生成矩阵Q,将结构化的l1范数引入目标函数:
min||Er||2,1+λ1||Ez||2,1+λ2||Z||1,Q
s.t.X=AR+Er,R=RZ+Ez,AAT=1anddiag(Z)=0(7)
其中||Z||1,Q是结构化的l1范数,||·||2,1是l2,1范数,用来让列向量尽可能为0;
基于||Z||1,Q=||Z||1+α...

【专利技术属性】
技术研发人员:于晓刘慧郭强阮怀军封文杰
申请(专利权)人:山东财经大学山东省农业科学院
类型:发明
国别省市:山东;37

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1