一种大数据多视图图聚类方法技术

技术编号:29967904 阅读:19 留言:0更新日期:2021-09-08 09:39
本发明专利技术公开了一种大数据多视图图聚类方法,采用低通滤波器得到每一个视图特征的平滑表示,将表现良好的自表达模型与锚点思想结合,选取具有代表性的锚点替代原始数据,降低时间复杂度的同时高效地学得图邻接矩阵,通过设置正则项和权重机制得到可迅速收敛的算法,通过该算法得到最优表示的图邻接矩阵,将谱聚类技术运用于学得的图邻接矩阵得到最终的聚类结果。本发明专利技术通用性强,基于锚点技术将时间复杂度降为数据个数的线性时间复杂度,基于图结构矩阵的高阶邻近信息、图滤波技术、权重机制,能够高效地捕捉多视图图数据中的潜在信息,相较于基于深度学习的方法,本发明专利技术在计算效率上大大提升,并且性能指标不弱于基于深度学习的方法。学习的方法。学习的方法。

【技术实现步骤摘要】
一种大数据多视图图聚类方法


[0001]本专利技术属于图数据聚类领域,具体涉及一种大数据多视图图聚类方法。

技术介绍

[0002]随着图类数据的大小和范围的增长,基于图的机器学习方法引起了人们的兴趣。图聚类是无监督学习的一个分支,其目的是将图中的节点划分为若干不相交的组,使每个组属于一个类。图聚类在群体检测、群体分割等方面表现出显著的性能。在实际应用中,实际数据往往比较复杂,既包括节点属性,也包括不同顶点之间的结构关系。为了从结构和特征中挖掘出丰富的信息,有人采用了一种图嵌入框架,有人提出了一种联合聚类技术,并且开发了一种关系主题方法来解决这个问题。然而,它们主要集中在稀疏的原始图上,不能有效地利用底层信息。此外,这些方法无法处理多视图数据,并且由于时间复杂度较高,很难应用于大数据上。
[0003]现在,大多数图类数据通常是多模态和多关系的。换言之,节点由多个特征矩阵组成,每个节点通过多种关系相互作用。以学术网络为例,一个图形视图代表合著论文关系,另一个视图描述合著者关系;作者本身也具有研究领域、引文、代表词等多重特征。从不同的角度充分本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种大数据多视图图聚类方法,其特征在于,该方法包括如下步骤:步骤1:将给定数据集中的节点特征和节点关系一起转换为一个无向图G={v,E1,

,E
V
,X1,

,X
V
},其中代表给定数据集中的节点集合,表示第个视图节点之间关系的集合,合,代表了无向图G中图数据的节点数,表示了节点i与节点j在第个视图之中的联系,表示第个视图的节点特征,表示第个视图中第k个节点的特征取值,k=1,2,

,n;表示有第个视图有n个节点,每个节点的特征维度为d;无向图G采用多视图邻接矩阵表征,代表的第i行第j列数据,具体而言,当时,当时,由此获取第个视图的对称标准化邻接矩阵如下所示:其中是第个视图对应的度矩阵,I为单位矩阵;步骤2:通过步骤1所得到第个视图的对称标准化邻接矩阵结合现实世界中的信号特性,采用一个低通滤波器来阻断高频信号,通过该低通滤波器后得到第个视图节点特征的平滑表征表示为:其中k表示该低通滤波器阶数,k是一个非负的整数,表示第个视图标准化的图拉普拉斯矩阵;步骤3:对于单视图的自表达模型,其目标函数表示为:其中,α>0是一个预设的平衡参数,是参数矩阵,表示单视图节点特征的平滑表征,是步骤2中的单视图的形式表达,表示矩阵的转置,表示L2范数的平方,单视图的自表达模型的目标函数第一项表征的是自重建误差,第二项Θ(Z)是一个正则项,需要根据实际情况设置合适的正则项Θ(Z);步骤4:第个视图的对称标准化邻接矩阵为稀疏矩阵,并且只表述了节点之间的一阶相似性,很难充分利用节点之间的潜藏信息,因此采用图的高阶邻近信息表示,图的高阶邻近信息表示如下:f(A)=A+A2+

+A
P
其中f(A)就是高阶邻近信息表示,A是的单视图表达,P为多项式阶数,且P是一个正整数;
步骤5:利用高阶邻近信息表示f(A),对单视图的自表达模型中的正则项进行改进,改进后得到单视图图聚类模型的目标函数,所述单视图图聚类模型的目标函数表示如下:步骤6:重新构建矩阵以应用于大数据上,选取m个锚点组成一个锚点集也就是矩阵B,具体而言,采用基于节点重要性的采样策略来采样锚点并且定义这一映射关系,q表示给定数据集中节点和对应的节点重要性的映射关系,即为每一个节点对应一个重要性度量值,表示正实数集合;选择节点作为锚点集中的第一个锚点的概率定义如下...

【专利技术属性】
技术研发人员:康昭林治平
申请(专利权)人:电子科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1