基于自学习权重的多视图投影聚类方法技术

技术编号：21140984 阅读：21 留言：0更新日期：2019-05-18 05:07

本发明专利技术涉及一种基于自学习权重的多视图投影聚类方法，利用结构化图学习的基本形式，将传统的权重学习方法概括为两种一般形式。通过分析它们的缺陷，最终提出了两种无参数加权多视图投影聚类方法，有效利用了不同视图的高维信息，明显提高了聚类效果。采用两种自学习权重的多视图投影聚类框架，无需引进难以决策且对数据集敏感的超参数，比以往方法实用性更强，同时可有效处理高维数据。

全部详细技术资料下载

【技术实现步骤摘要】
基于自学习权重的多视图投影聚类方法
本专利技术属机器学习
，具体涉及基于自学习权重的多视图投影聚类方法。
技术介绍
聚类问题属于机器学习和数据挖掘领域重点研究的基础问题之一，其目的是将具有相似特征的数据点聚到同一类。在过去的几十年中，已经提出了许多聚类方法，例如K均值聚类，谱聚类，谱嵌入聚类，多视图聚类等。目前，随着数据采集设备的发展和新采集手段的出现，获得了大量产生于不同的数据源或特征子集的数据，其中每一个数据源或特征子集构成一个视图。例如，在网络文本数据中，不同的文档可以用不同的语言编写；在生物学数据中，可以使用不同的技术来测量不同的基因；在视觉数据中，可以使用不同的视觉特征来呈现每个图像或视频，这样就形成了多视图数据。多视图学习则是处理这类数据的有效手段。多视图聚类算法主要有三类：基于张量的方法、基于子空间的方法和基于图的多视图聚类方法。其中，基于图的多视图聚类方法较另外两种方法通常能够取得更好的效果。大多数传统的基于图的多视图聚类方法包含两个步骤：首先根据一定的构图方法为每一个视图的特征构建一个相似度矩阵，其次运用权重或罚项来整合这些相似度矩阵得到指示向量，最后，以这些指示向量为输入，利用K均值方法进行聚类。为有效整合多视图的优势，Xia等人在文献“MultiviewSpectralEmbedding[J].IEEETransactionsonSystemsMan&CyberneticsPartB,2010,40(6):1438-1446.”以及Karasuyama等人在文献“MultipleGraphLabelPropagation...

【技术保护点】
1.一种基于自学习权重的多视角投影聚类方法，其特征在于步骤如下：步骤1：投影结构图学习令X＝[x1，…，xn]

【技术特征摘要】
1.一种基于自学习权重的多视角投影聚类方法，其特征在于步骤如下：步骤1：投影结构图学习令X＝[x1，…，xn]T∈Rn×d表示数据矩阵，其中n是数据点的数量，d是特征的维数，每个数据点属于c类中的一类；给定数据矩阵X，每个数据点xi表示为亲和图上的顶点，并且每个边表示一对顶点的相似关系；xi和xj之间的边的权重定义为sij，表示相似度矩阵；结构图学习模型首先将相似度矩阵S定义为变量，并且可以通过解决以下问题来优化：其中μ是正则化参数，1表示所有元素都是一的列向量；对于每个数据点xi，所有数据点{x1，x2，…，xn}都以sij大小的概率可以作为xi的近邻；在上式的基础上添加秩约束：将上式进一步扩展到以下问题：其中表示投影矩阵，m是投影维度；St＝XTX表示总散度矩阵，增加约束WTStW＝I表示投影后的子空间上的数据统计不相关；步骤2：建立自学习权重的多视图投影聚类框架对于多视图数据，令X1，X2，…，XV分别表示每个视图的数据矩阵，V为视图数，其中为和υ＝1，…，V，dυ为第υ个视图的特征维度；为有效利用不同视图的信息，需要对不同视图赋予一定的权重βυ(υ＝1，…，V)，这样步骤1的求解问题可变为：利用合适的因子权重与不同视图相结合，有这样步骤1的求解问题可变为：其中α＝[α1，α2，…，αV]T，表示投影矩阵，mυ为第υ个视图的投影维度；步骤3：采用DwMPC算法求解令σi(LS)是LS的第i个最小特征值；很容易看出σi(LS)≥0，因为LS是正半无限的；因此，对于足够大的λ值，问题(4)，相当于：其中λ取值足够大以确保矩阵LS前c个最小的特征值为零，于是矩阵LS的秩为n-c，根据樊畿理论可知：于是，问题可以转化为求解：可以通过一个迭代优化算法求解上式；1、固定αυ与S，求解Wυ和F；由于变量Wυ和F相互独立，其取值可分别由以下两式求得：公式可改写为：由于上式对于不同的υ是相互独立的，可通过下式单独求解每一视图对应的Wυ：上式Wυ的最优解是由前mυ个最小特征值所对应的特征向量所组成；公式(9)中F的最优解是由Ls前c个最小特征值所对应的特征向量所组成；2、固定αυ、Wυ和F，求解S；公式(7)的第一项可简化表示为其中然后问题(7)变为：在谱分析中，有一个重要而基础的公式：利用上式，对于每一向量si，公式(12)可表示为：其中表示矩阵S的第i行，公式(14)可简化表示为：其中是以第j个元素为的列向量；该公式可以得到闭式解；3、固定Wυ和S，求解αυ；令公式(7)可...

【专利技术属性】
技术研发人员：王榕，聂飞平，王震，胡豪杰，
申请(专利权)人：西北工业大学，
类型：发明
国别省市：陕西,61

全部详细技术资料下载我是这个专利的主人