基于图补全和自适应视角权重分配的不完备多视角聚类方法、装置、系统及存储介质制造方法及图纸

技术编号:21893326 阅读:27 留言:0更新日期:2019-08-17 15:03
本发明专利技术提供了一种基于图补全和自适应视角权重分配的不完备多视角聚类方法、装置、系统及存储介质,该不完备多视角聚类方法包括:步骤1,多视角仿射图的构建及补全步骤:归一化各视角中的样本实例,构建并补全各视角的仿射图;步骤2,学习各视角间一致的低维表征步骤:迭代求取各视角间一致的低维表征;步骤3,聚类步骤:归一化全局低维表征并使用传统的单视角聚类方法(如k‑means)得到聚类类别。本发明专利技术的有益效果是:本发明专利技术通过相似图补全技术和视角权重鉴别因子的引入,有效地捕捉了数据的本质结构,提高了聚类性能。

Incomplete multi-view clustering methods, devices, systems and storage media based on graph completion and adaptive view weight allocation

【技术实现步骤摘要】
基于图补全和自适应视角权重分配的不完备多视角聚类方法、装置、系统及存储介质
本专利技术涉及机器学习
,尤其涉及基于图补全和自适应视角权重分配的不完备多视角聚类方法、装置、系统及存储介质。
技术介绍
在机器学习领域,多视角聚类能够利用目标的多个视角特征将海量无标签数据自动地划分成若干类别,该技术已经广泛应用于图像聚类、医学诊断等场景。多种单视角聚类方法被扩展到多视角情形,例如多视角期望最大化算法(Multi-ViewExpectationMaximumClustering,MVEM)、多视角k-means方法(Multi-ViewK-MeansClustering,MVKM)、基于谱聚类的多视角聚类方法(Multi-ViewSpectralClustering,MVSC)、基于非负矩阵分解的多视角聚类方法(Multi-ViewNonnegativeMatrixFactorization,MultiNMF)、基于典型相关分析的多视角数据低维映射(Multi-viewCanonicalCorrelationAnalysis,MCCA)等。其中,基于谱聚类和基于非负矩阵分解的多视角聚类方法的核心都是从不同视角中学习一致的子空间,然后在该子空间上实施传统的单视角聚类方法(如k-means)得到最终的聚类结果。由于每一个视角从不同的方面揭示了目标的特征,不同视角在含有一致的类别归属信息的同时,也包含了互为补充的鉴别有益信息,因此利用多个视角进行聚类性能可以超过单视角或者对多视角的简单拼接。由于特征收集过程中的一些不可控因素,视角缺失情况时有发生。例如,将不同报社对同一新闻的报道看作该新闻的不同视角,由于不同报社报道的新闻覆盖面不完全相同,在对新闻主题进行聚类时,视角缺失是常见的情形。同样地,将不同设备或者不同光照下对物体采集的照片视作该物体的不同视角,由于部分设备损坏或者光照条件不达标,也可能出现视角缺失的情形。近年来,学者们越来越多地关注不完备多视角情形下的聚类方法。着眼于视角缺失的挑战,学者们提出了很多方法来降低缺失视角的负面影响。一些方法(Partialmulti-ViewClustering,PVC,IncompleteMulti-modalityGrouping,IMG)利用完备样本(样本在各视角中的实例都存在)指导一致子空间的学习,由于这些方法要求完备样本的存在,其应用范围受到较大限制;一些方法(Multi-Incomplete-Viewclustering,MIC,DoublyAlignedIncompleteMulti-viewClustering,DAIMC)采用非负矩阵分解(NonnegativeMatrixFactorization,NMF)的框架,对视角中缺失样例的重构误差项赋予较低甚至为零的权重,这类方法往往不能捕获数据的本质结构,同时对噪声较为敏感。一些方法考虑了数据本质结构,如利用完备视角的仿射图对缺失视角的样例相似关系进行估计(MultiviewClusteringwithIncompleteViews,MCIC),但实际的多视角数据集中常常不存在完备的视角。一些方法为了克服这个问题,直接对所有的缺失样例的相似关系进行估计(Incompletemulti-ViewClustering,IVC,IncompleteMultiviewSpectralClusteringwithAdaptiveGraphLearning,IMSC_AGL),然而不恰当的估计往往会在缺失率较大时造成大幅偏离真实结果的情况。虽然学者们提出了大量的不完备多视角聚类框架,可以在一定程度上降低视角缺失所带来的负面影响,但是这些方法普遍存在如下的问题:第一种缺陷,现有方法不能很好地捕捉数据的本质结构。只针对视角完备的样本对齐低维表征或者对缺失样例及其相似关系进行不合理的填充,都会造成数据本质结构的偏离,从而影响聚类性能。第二种缺陷,现有方法没有考虑各视角在聚类鉴别信息方面的不均衡性。由于各视角所代表的特征本身所蕴含的鉴别信息的差异性、视角受噪声干扰程度的不同、不同的缺失率导致鉴别性能下降的差异等,各视角对聚类学习的指导作用是不同的。现有方法普遍均衡地利用各视角的鉴别信息来指导聚类,导致了聚类性能的下降。
技术实现思路
本专利技术提供了一种基于图补全和自适应视角权重分配的不完备多视角聚类方法,包括如下步骤:步骤1,多视角仿射图的构建及补全步骤:归一化各视角中的样本实例,构建并补全各视角的仿射图;步骤2,学习各视角间一致的低维表征步骤:迭代求取各视角间一致的低维表征;步骤3,聚类步骤:归一化全局低维表征并使用传统的单视角聚类方法得到聚类类别。作为本专利技术的进一步改进,步骤1,多视角仿射图的构建及补全步骤包括:特征抽取和归一化步骤:提取目标事物的多种特征,并将每种特征视为一个视角:用表示理想情况下提取到的完备的总样本集,用表示第v个视角实际提取到的样例集,其中n和nv分别表示总样本数和第v个视角提取到的样例数,dv表示第v个视角的特征维度,在提取到聚类目标的各个视角特征后,依据式对各视角中的样例进行归一化;各视角仿射图的构建及填补校正步骤:首先,在各视角X(v)中利用式构建仿射图W(v);其次,利用式仿射图拉伸到同样的规模,其中表示第v个视角中的样例与所有样本的对应关系,若第v个视角中的第i个样例表示总样本中第j个样本的视角特征,则为1,否则为0;最后,对上一步骤得到的各视角拉伸后的仿射图中关于缺失样例的相似信息进行校正:若第v个视角中缺失了总样本序列中第i个样本的样例,则根据式进行该视角中该样例相似信息的校正,其中代表第k个视角仿射图的第i行,H∈Rn×l代表各样本在视角中的存在关系,若总样本集中第i个样本在第k个视角中存在对应的样例,则Hi,k为1,否则为0;然后根据式对称化仿射图。作为本专利技术的进一步改进,步骤2,学习各视角间一致的低维表征步骤包括:变量初始化步骤:对各个视角在指导子空间学习中的权重ω(v)(v=1,...,l)作均等初始化,即ω(v)=1/l(v=1,...,l);通过求解式初始化各视角的低维表征Y(v)(v=1,...,l),其中为第v个视角补全的仿射图的拉普拉斯矩阵;全局低维表征Y*不需初始化,可在迭代第一步根据初始化的Y(v),ω(v)求取;迭代第一步:更新全局低维表征Y*。具体来说,首先求解矩阵的特征值和特征向量,然后取最大的c个特征值对应的特征向量构成全局低维表征迭代第二步:更新各视角的低维表征Y(v)(v=1,...,l)。具体来说,针对第v个视角,首先求解矩阵(λY*Y*T-L(v))的特征值和特征向量,然后取其中最大c个特征值对应的特征向量构成该视角的低维表征Y(v),即迭代第三步:更新各视角的权重鉴别因子ω(v)(v=1,...,l)。具体来说,针对第v个视角,利用式更新视角权重鉴别因子ω(v),其中γ(v)=Tr(Y(v)TL(v)Y(v))+λ(c-Tr(Y(v)Y(v)TY*Y*T));判断收敛条件步骤:计算当前第t次迭代目标函数值若迭代次数小于设定值,则进行第(t+1)次迭代,即执行迭代第一步到迭代第三步;若满足收敛条件,则终止迭代,输出一致低维表征Y*;否则不断迭代本文档来自技高网
...

【技术保护点】
1.一种基于图补全和自适应视角权重分配的不完备多视角聚类方法,其特征在于,包括如下步骤:步骤1,多视角仿射图的构建及补全步骤:归一化各视角中的样本实例,构建并补全各视角的仿射图;步骤2,学习各视角间一致的低维表征步骤:迭代求取各视角间一致的低维表征;步骤3,聚类步骤:归一化全局低维表征并使用传统的单视角聚类方法得到聚类类别。

【技术特征摘要】
1.一种基于图补全和自适应视角权重分配的不完备多视角聚类方法,其特征在于,包括如下步骤:步骤1,多视角仿射图的构建及补全步骤:归一化各视角中的样本实例,构建并补全各视角的仿射图;步骤2,学习各视角间一致的低维表征步骤:迭代求取各视角间一致的低维表征;步骤3,聚类步骤:归一化全局低维表征并使用传统的单视角聚类方法得到聚类类别。2.根据权利要求1所述的不完备多视角聚类方法,其特征在于,步骤1,多视角仿射图的构建及补全步骤包括:特征抽取和归一化步骤:提取目标事物的多种特征,并将每种特征视为一个视角:用表示理想情况下提取到的完备的总样本集,用表示第v个视角实际提取到的样例集,其中n和nv分别表示总样本数和第v个视角提取到的样例数,dv表示第v个视角的特征维度,在提取到聚类目标的各个视角特征后,依据式对各视角中的样例进行归一化;各视角仿射图的构建及填补校正步骤:首先,在各视角X(v)中利用式构建仿射图W(v);其次,利用式仿射图拉伸到同样的规模,其中表示第v个视角中的样例与所有样本的对应关系,若第v个视角中的第i个样例表示总样本中第j个样本的视角特征,则为1,否则为0;最后,对上一步骤得到的各视角拉伸后的仿射图中关于缺失样例的相似信息进行校正:若第v个视角中缺失了总样本序列中第i个样本的样例,则根据式进行该视角中该样例相似信息的校正,其中代表第k个视角仿射图的第i行,H∈Rn×l代表各样本在视角中的存在关系,若总样本集中第i个样本在第k个视角中存在对应的样例,则Hi,k为1,否则为0;然后根据式对称化仿射图。3.根据权利要求1所述的不完备多视角聚类方法,其特征在于,步骤2,学习各视角间一致的低维表征步骤包括:变量初始化步骤:对各个视角在指导子空间学习中的权重ω(v)(v=1,...,l)作均等初始化,即ω(v)=1/l(v=1,...,l);通过求解式初始化各视角的低维表征Y(v)(v=1,...,l),其中为第v个视角补全的仿射图的拉普拉斯矩阵;全局低维表征Y*不需初始化,可在迭代第一步根据初始化的Y(v),ω(v)求取;迭代第一步:首先求解矩阵的特征值和特征向量,然后取最大的c个特征值对应的特征向量构成全局低维表征迭代第二步:针对第v个视角,首先求解矩阵(λY*Y*T-L(v))的特征值和特征向量,然后取其中最大c个特征值对应的特征向量构成该视角的低维表征迭代第三步:针对第v个视角,利用式更新视角权重鉴别因子ω(v),其中Υ(v)=Tr(Y(v)TL(v)Y(v))+λ(c-Tr(Y(v)Y(v)TY*Y*T));判断收敛条件步骤:计算当前第t次迭代目标函数值若迭代次数小于设定值,则进行第(t+1)次迭代,即执行迭代第一步到迭代第三步;若满足收敛条件,则终止迭代,输出一致低维表征Y*;否则不断迭代,直到满足收敛条件,或者迭代次数超过预设最大值,强制终止迭代,输出全局低维表征Y*。4.根据权利要求1所述的不完备多视角聚类方法,其特征在于,在步骤3,聚类步骤中,低维表征Y*的第i行可视作第i个样本的低维表征,首先归一化每行为单位向量,然后利用传统的单视角聚类方法将n个样本划分为c个簇,从而得到样本聚类结果。5.一种基于图补全和自适应视角权重分配的不完备多视角聚类装置,其特征在于,包括:多视角仿射图的构建及补全单元:用于归一化各视角中的样本实例,构建并补全各视角的仿射图;学习各...

【专利技术属性】
技术研发人员:陈润泽文杰徐勇
申请(专利权)人:哈尔滨工业大学深圳
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1