基于自学习权重的多视图投影聚类方法技术

技术编号:21140984 阅读:21 留言:0更新日期:2019-05-18 05:07
本发明专利技术涉及一种基于自学习权重的多视图投影聚类方法,利用结构化图学习的基本形式,将传统的权重学习方法概括为两种一般形式。通过分析它们的缺陷,最终提出了两种无参数加权多视图投影聚类方法,有效利用了不同视图的高维信息,明显提高了聚类效果。采用两种自学习权重的多视图投影聚类框架,无需引进难以决策且对数据集敏感的超参数,比以往方法实用性更强,同时可有效处理高维数据。

【技术实现步骤摘要】
基于自学习权重的多视图投影聚类方法
本专利技术属机器学习
,具体涉及基于自学习权重的多视图投影聚类方法。
技术介绍
聚类问题属于机器学习和数据挖掘领域重点研究的基础问题之一,其目的是将具有相似特征的数据点聚到同一类。在过去的几十年中,已经提出了许多聚类方法,例如K均值聚类,谱聚类,谱嵌入聚类,多视图聚类等。目前,随着数据采集设备的发展和新采集手段的出现,获得了大量产生于不同的数据源或特征子集的数据,其中每一个数据源或特征子集构成一个视图。例如,在网络文本数据中,不同的文档可以用不同的语言编写;在生物学数据中,可以使用不同的技术来测量不同的基因;在视觉数据中,可以使用不同的视觉特征来呈现每个图像或视频,这样就形成了多视图数据。多视图学习则是处理这类数据的有效手段。多视图聚类算法主要有三类:基于张量的方法、基于子空间的方法和基于图的多视图聚类方法。其中,基于图的多视图聚类方法较另外两种方法通常能够取得更好的效果。大多数传统的基于图的多视图聚类方法包含两个步骤:首先根据一定的构图方法为每一个视图的特征构建一个相似度矩阵,其次运用权重或罚项来整合这些相似度矩阵得到指示向量,最后,以这些指示向量为输入,利用K均值方法进行聚类。为有效整合多视图的优势,Xia等人在文献“MultiviewSpectralEmbedding[J].IEEETransactionsonSystemsMan&CyberneticsPartB,2010,40(6):1438-1446.”以及Karasuyama等人在文献“MultipleGraphLabelPropagationbySparseIntegration[J].IEEETransactionsonNeuralNetworksandLearningSystems,2013,24(12):1999-2012.”分别提出了一种自适应权重学习策略,并广泛应用到了多视图学习中。以上所提到的这两种方法明确定义了每个视图的权重,并将其看成一组变量去优化。然而,由于这些方法同时需要引入正则化参数来避免平凡解的产生,而最终聚类的结果对正则化参数较为敏感,使得该参数难以调节。因此,传统的权重学习策略不实用。同时,传统方法直接将原始的高维数据用于聚类任务的输入,而忽略了高维数据中包含的噪声和冗余信息,这可能导致学习性能的下降以及计算复杂性的增加。为了解决这个问题,最直接的方法应该是首先对原始的高维数据进行降维,然后对投影后的低维数据进行聚类。另外,虽然基于图的方法较能取得较好的聚类结果,但由于图的构造和聚类任务的分离,它主要有两个缺点:(1)算法最终的聚类结果取决于初始输入相似度矩阵的质量,不可靠的相似度矩阵会导致不好的聚类结果。(2)最终的聚类结果还依赖于K均值聚类或其他离散化程序。可以认为,如果将相似度矩阵看成一个变量并使其能直接揭示数据集的聚类结构,聚类的性能将得到极大的改善。在结构化图学习的启发下,可以将相似度矩阵看作一变量,并通过秩约束去优化。也就是说,可以通过获得的相似度矩阵来得到数据的聚类结构,而不需要再采用其他离散化程序进行聚类任务。此外,本专利技术提出了两种无参数的权重学习策略,构造了两种目标函数,有效地整合不同视图的有效信息,通过交替进行结构图优化和子空间学习,以在低维空间中聚类原始的高维数据。
技术实现思路
要解决的技术问题为了避免现有技术的不足之处,本专利技术提出一种基于自学习权重的多视图投影聚类方法。技术方案一种基于自学习权重的多视角投影聚类方法,其特征在于步骤如下:步骤1:投影结构图学习令X=[x1,…,xn]T∈Rn×d表示数据矩阵,其中n是数据点的数量,d是特征的维数,每个数据点属于c类中的一类;给定数据矩阵X,每个数据点xi表示为亲和图上的顶点,并且每个边表示一对顶点的相似关系;xi和xj之间的边的权重定义为sij,表示相似度矩阵;结构图学习模型首先将相似度矩阵S定义为变量,并且可以通过解决以下问题来优化:其中μ是正则化参数,1表示所有元素都是一的列向量;对于每个数据点xi,所有数据点{x1,x2,…,xn}都以sij大小的概率可以作为xi的近邻;在上式的基础上添加秩约束:将上式进一步扩展到以下问题:其中表示投影矩阵,m是投影维度;St=XTX表示总散度矩阵,增加约束WTStW=I表示投影后的子空间上的数据统计不相关;步骤2:建立自学习权重的多视图投影聚类框架对于多视图数据,令X1,X2,…,XV分别表示每个视图的数据矩阵,V为视图数,其中为和v=1,…,V,dv为第v个视图的特征维度;为有效利用不同视图的信息,需要对不同视图赋予一定的权重βv(v=1,…,V),这样步骤1的求解问题可变为:由于权重βv并不是人为事先给定的,而是需要通过构造目标函数去求解得到,上式的结果为一个平凡解,即只有最有效的视图对应的权重有值,其它视图对应的权重为零,因此必须通过对权重βv进行合理的约束;于是本专利技术采用了两种权重自学习的方法去求得不同视图所对应的权重,以有效整合不同视图的有效信息;利用合适的因子权重与不同视图相结合,有这样步骤1的求解问题可变为:其中α=[α1,α2,…,αV]T,表示投影矩阵,mv为第v个视图的投影维度;步骤3:采用DwMPC算法求解令σi(LS)是LS的第i个最小特征值;很容易看出σi(LS)≥0,因为LS是正半无限的;因此,对于足够大的λ值,问题(4),相当于:其中λ取值足够大以确保矩阵LS前c个最小的特征值为零,于是矩阵LS的秩为n-c,根据樊畿理论可知:于是,问题可以转化为求解:可以通过一个迭代优化算法求解上式;1、固定αv与S,求解Wv和F;由于变量Wv和F相互独立,其取值可分别由以下两式求得:公式可改写为:由于上式对于不同的v是相互独立的,可通过下式单独求解每一视图对应的Wv:上式Wv的最优解是由前mv个最小特征值所对应的特征向量所组成;公式(9)中F的最优解是由Ls前c个最小特征值所对应的特征向量所组成;2、固定αv、Wv和F,求解S;公式(7)的第一项可简化表示为其中然后问题(7)变为:在谱分析中,有一个重要而基础的公式:利用上式,对于每一向量si,公式(12)可表示为:其中表示矩阵S的第i行,公式(14)可简化表示为:其中是以第j个元素为的列向量;该公式可以得到闭式解;3、固定Wv和S,求解αv;令公式(7)可表示为:其对应的拉格朗日函数为:其中λα为拉格朗日乘子;通过简单的代数变换通过以上三个步骤,交替迭代更新Wv、F、S和αv,不断重复该步骤直至目标函数收敛。一种基于自学习权重的多视角投影聚类方法,其特征在于步骤如下:步骤1:投影结构图学习令X=[x1,…,xn]T∈Rn×d表示数据矩阵,其中n是数据点的数量,d是特征的维数,每个数据点属于c类中的一类;给定数据矩阵X,每个数据点xi表示为亲和图上的顶点,并且每个边表示一对顶点的相似关系;xi和xj之间的边的权重定义为sij,表示相似度矩阵;结构图学习模型首先将相似度矩阵S定义为变量,并且可以通过解决以下问题来优化:其中μ是正则化参数,1表示所有元素都是一的列向量;对于每个数据点xi,所有数据点{x1,x2,…,xn}都以sij大小的概率可以作为xi的近邻;在上式的基础上添加本文档来自技高网
...

【技术保护点】
1.一种基于自学习权重的多视角投影聚类方法,其特征在于步骤如下:步骤1:投影结构图学习令X=[x1,…,xn]

【技术特征摘要】
1.一种基于自学习权重的多视角投影聚类方法,其特征在于步骤如下:步骤1:投影结构图学习令X=[x1,…,xn]T∈Rn×d表示数据矩阵,其中n是数据点的数量,d是特征的维数,每个数据点属于c类中的一类;给定数据矩阵X,每个数据点xi表示为亲和图上的顶点,并且每个边表示一对顶点的相似关系;xi和xj之间的边的权重定义为sij,表示相似度矩阵;结构图学习模型首先将相似度矩阵S定义为变量,并且可以通过解决以下问题来优化:其中μ是正则化参数,1表示所有元素都是一的列向量;对于每个数据点xi,所有数据点{x1,x2,…,xn}都以sij大小的概率可以作为xi的近邻;在上式的基础上添加秩约束:将上式进一步扩展到以下问题:其中表示投影矩阵,m是投影维度;St=XTX表示总散度矩阵,增加约束WTStW=I表示投影后的子空间上的数据统计不相关;步骤2:建立自学习权重的多视图投影聚类框架对于多视图数据,令X1,X2,…,XV分别表示每个视图的数据矩阵,V为视图数,其中为和υ=1,…,V,dυ为第υ个视图的特征维度;为有效利用不同视图的信息,需要对不同视图赋予一定的权重βυ(υ=1,…,V),这样步骤1的求解问题可变为:利用合适的因子权重与不同视图相结合,有这样步骤1的求解问题可变为:其中α=[α1,α2,…,αV]T,表示投影矩阵,mυ为第υ个视图的投影维度;步骤3:采用DwMPC算法求解令σi(LS)是LS的第i个最小特征值;很容易看出σi(LS)≥0,因为LS是正半无限的;因此,对于足够大的λ值,问题(4),相当于:其中λ取值足够大以确保矩阵LS前c个最小的特征值为零,于是矩阵LS的秩为n-c,根据樊畿理论可知:于是,问题可以转化为求解:可以通过一个迭代优化算法求解上式;1、固定αυ与S,求解Wυ和F;由于变量Wυ和F相互独立,其取值可分别由以下两式求得:公式可改写为:由于上式对于不同的υ是相互独立的,可通过下式单独求解每一视图对应的Wυ:上式Wυ的最优解是由前mυ个最小特征值所对应的特征向量所组成;公式(9)中F的最优解是由Ls前c个最小特征值所对应的特征向量所组成;2、固定αυ、Wυ和F,求解S;公式(7)的第一项可简化表示为其中然后问题(7)变为:在谱分析中,有一个重要而基础的公式:利用上式,对于每一向量si,公式(12)可表示为:其中表示矩阵S的第i行,公式(14)可简化表示为:其中是以第j个元素为的列向量;该公式可以得到闭式解;3、固定Wυ和S,求解αυ;令公式(7)可...

【专利技术属性】
技术研发人员:王榕聂飞平王震胡豪杰
申请(专利权)人:西北工业大学
类型:发明
国别省市:陕西,61

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1