【技术实现步骤摘要】
基于图补全和自适应视角权重分配的不完备多视角聚类方法、装置、系统及存储介质
本专利技术涉及机器学习
,尤其涉及基于图补全和自适应视角权重分配的不完备多视角聚类方法、装置、系统及存储介质。
技术介绍
在机器学习领域,多视角聚类能够利用目标的多个视角特征将海量无标签数据自动地划分成若干类别,该技术已经广泛应用于图像聚类、医学诊断等场景。多种单视角聚类方法被扩展到多视角情形,例如多视角期望最大化算法(Multi-ViewExpectationMaximumClustering,MVEM)、多视角k-means方法(Multi-ViewK-MeansClustering,MVKM)、基于谱聚类的多视角聚类方法(Multi-ViewSpectralClustering,MVSC)、基于非负矩阵分解的多视角聚类方法(Multi-ViewNonnegativeMatrixFactorization,MultiNMF)、基于典型相关分析的多视角数据低维映射(Multi-viewCanonicalCorrelationAnalysis,MCCA)等。其中,基于谱聚类和基于非负矩阵分解的多视角聚类方法的核心都是从不同视角中学习一致的子空间,然后在该子空间上实施传统的单视角聚类方法(如k-means)得到最终的聚类结果。由于每一个视角从不同的方面揭示了目标的特征,不同视角在含有一致的类别归属信息的同时,也包含了互为补充的鉴别有益信息,因此利用多个视角进行聚类性能可以超过单视角或者对多视角的简单拼接。由于特征收集过程中的一些不可控因素,视角缺失情况时有发生。例如,将不同报社 ...
【技术保护点】
1.一种基于图补全和自适应视角权重分配的不完备多视角聚类方法,其特征在于,包括如下步骤:步骤1,多视角仿射图的构建及补全步骤:归一化各视角中的样本实例,构建并补全各视角的仿射图;步骤2,学习各视角间一致的低维表征步骤:迭代求取各视角间一致的低维表征;步骤3,聚类步骤:归一化全局低维表征并使用传统的单视角聚类方法得到聚类类别。
【技术特征摘要】
1.一种基于图补全和自适应视角权重分配的不完备多视角聚类方法,其特征在于,包括如下步骤:步骤1,多视角仿射图的构建及补全步骤:归一化各视角中的样本实例,构建并补全各视角的仿射图;步骤2,学习各视角间一致的低维表征步骤:迭代求取各视角间一致的低维表征;步骤3,聚类步骤:归一化全局低维表征并使用传统的单视角聚类方法得到聚类类别。2.根据权利要求1所述的不完备多视角聚类方法,其特征在于,步骤1,多视角仿射图的构建及补全步骤包括:特征抽取和归一化步骤:提取目标事物的多种特征,并将每种特征视为一个视角:用表示理想情况下提取到的完备的总样本集,用表示第v个视角实际提取到的样例集,其中n和nv分别表示总样本数和第v个视角提取到的样例数,dv表示第v个视角的特征维度,在提取到聚类目标的各个视角特征后,依据式对各视角中的样例进行归一化;各视角仿射图的构建及填补校正步骤:首先,在各视角X(v)中利用式构建仿射图W(v);其次,利用式仿射图拉伸到同样的规模,其中表示第v个视角中的样例与所有样本的对应关系,若第v个视角中的第i个样例表示总样本中第j个样本的视角特征,则为1,否则为0;最后,对上一步骤得到的各视角拉伸后的仿射图中关于缺失样例的相似信息进行校正:若第v个视角中缺失了总样本序列中第i个样本的样例,则根据式进行该视角中该样例相似信息的校正,其中代表第k个视角仿射图的第i行,H∈Rn×l代表各样本在视角中的存在关系,若总样本集中第i个样本在第k个视角中存在对应的样例,则Hi,k为1,否则为0;然后根据式对称化仿射图。3.根据权利要求1所述的不完备多视角聚类方法,其特征在于,步骤2,学习各视角间一致的低维表征步骤包括:变量初始化步骤:对各个视角在指导子空间学习中的权重ω(v)(v=1,...,l)作均等初始化,即ω(v)=1/l(v=1,...,l);通过求解式初始化各视角的低维表征Y(v)(v=1,...,l),其中为第v个视角补全的仿射图的拉普拉斯矩阵;全局低维表征Y*不需初始化,可在迭代第一步根据初始化的Y(v),ω(v)求取;迭代第一步:首先求解矩阵的特征值和特征向量,然后取最大的c个特征值对应的特征向量构成全局低维表征迭代第二步:针对第v个视角,首先求解矩阵(λY*Y*T-L(v))的特征值和特征向量,然后取其中最大c个特征值对应的特征向量构成该视角的低维表征迭代第三步:针对第v个视角,利用式更新视角权重鉴别因子ω(v),其中Υ(v)=Tr(Y(v)TL(v)Y(v))+λ(c-Tr(Y(v)Y(v)TY*Y*T));判断收敛条件步骤:计算当前第t次迭代目标函数值若迭代次数小于设定值,则进行第(t+1)次迭代,即执行迭代第一步到迭代第三步;若满足收敛条件,则终止迭代,输出一致低维表征Y*;否则不断迭代,直到满足收敛条件,或者迭代次数超过预设最大值,强制终止迭代,输出全局低维表征Y*。4.根据权利要求1所述的不完备多视角聚类方法,其特征在于,在步骤3,聚类步骤中,低维表征Y*的第i行可视作第i个样本的低维表征,首先归一化每行为单位向量,然后利用传统的单视角聚类方法将n个样本划分为c个簇,从而得到样本聚类结果。5.一种基于图补全和自适应视角权重分配的不完备多视角聚类装置,其特征在于,包括:多视角仿射图的构建及补全单元:用于归一化各视角中的样本实例,构建并补全各视角的仿射图;学习各...
【专利技术属性】
技术研发人员:陈润泽,文杰,徐勇,
申请(专利权)人:哈尔滨工业大学深圳,
类型:发明
国别省市:广东,44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。