一种基于多视图结构的图卷积神经网络聚类方法技术

技术编号:37290172 阅读:20 留言:0更新日期:2023-04-21 01:34
本发明专利技术公开了一种基于多视图结构的图卷积神经网络聚类方法,属于数据分析技术领域。本发明专利技术主要包括以下步骤:1、通过数据增强操作对图结构数据集进行预处理,获得图在多个视图下的结构信息;2、构建一个基于多视图结构的图自编码器网络用于模型训练;3、基于构建的多视图网络和预处理的数据集对模型进行训练;4、根据学习的模型参数,将图的节点属性和结构信息作为输入,得到最终的聚类结果。本发明专利技术通过多视图网络结构训练数据增强后的图数据,提高模型鲁棒性,在图结构数据分析等领域有着广泛的应用前景。应用前景。应用前景。

【技术实现步骤摘要】
一种基于多视图结构的图卷积神经网络聚类方法


[0001]本专利技术属于数据分析
,更具体地说,涉及一种基于多视图结构的图卷积神经网络聚类方法。

技术介绍

[0002]计算机视觉、模式识别、机器学习等领域的现有工作发展出了各自的多视图学习方式,同时也表明将多视图的数据按特定策略融合用于后续任务能达到更好效果,同时多视图还为小样本、数据稀疏等问题提供了新的解决思路。其中多视图聚类是机器学习中的一项基本任务。区别于传统聚类,它旨在整合多种特征,发现不同视图之间的一致信息。现有的多视图聚类方法在针对欧式数据上取得了不错的成果。
[0003]然而这些方法却不适用处理非欧式数据,如社交网络、化学分子等非结构化数据。针对这类数据提出了图聚类方法,其研究本质就是如何更好的融合结构特征和节点特征,以完成特征的高效融合来完成聚类标签的生成。通常来说就是通过图嵌入将图数据转换为低维、紧凑和连续的特征空间,图神经网络作为最经典的方法,应用多个图卷积层,通过非线性变换和聚合函数来聚合节点邻居的信息来得到图节点的嵌入特征。
[0004]图聚类是通过将一个加权无向图划分为两个或两个以上的最优子图来实现聚类,使子图内部尽可能相似,子图彼此之间的距离尽可能远。传统图聚类的主要方法是通过图嵌入方法获得图中每个节点的特征表示,然后利用K

means算法得到聚类结果,例如DeepWalk、Node2Vec。但是,这些方法不能探索图节点中更深层次的潜在信息,并且忽略了图的节点属性。
[0005]随着深度学习的发展,图卷积神经网络显示出了较强的特征提取能力。图卷积神经网络通过聚合节点的相邻节点信息,充分利用了图中的节点属性和结构信息。一些基于图卷积神经网络的模型,如图自动编码器和图变分自动编码器,这些方法的编码器部分由图卷积层组成,并以重建邻接矩阵作为监督信号指导模型聚类。DAEGC引入了一种图注意机制,并采用DEC的思想,生成目标分布作为监督信息,指导模型学习聚类分布。虽然这些端到端方法获得了良好的聚类性能,但它并没有从不同的角度充分利用结构性信息,并且现存的一些方法通过添加图注意机制来获取嵌入表示,但图注意机制对噪声的敏感性仍未得到解决。
[0006]虽然上述图神经网络可以有效地处理单视图数据,但是它并不适用于多视图数据。现有的一些多视图图聚类方法针对的也只是多视图数据集,不能使用多视图方法去处理单视图数据集。
[0007]经检索,申请公布号为:CN113360719A,申请日为:2021年06月04日,专利技术名称为:一种基于图数据的多视图图聚类方法。该方法首先使用低通滤波器对多视图数据的每一个视图特征进行滤波,然后利用表现良好的自表达模型结合权重机制计算出相似矩阵,并设计一个可收敛的算法学习多视图数据共用的邻接矩阵,最后将传统谱聚类算法应用于该图邻接矩阵得到最终聚类结果。然而,该申请案中,多视图图聚类方法是针对多视图数据的,
同样也没有考虑到图的结构信息中噪声的影响。
[0008]基于以上分析,现有技术需要一种能够适应多视图结构的图卷积神经网络聚类方法。

技术实现思路

[0009]1.专利技术要解决的技术问题
[0010]为了克服上述现有技术存在的无法处理多视图结构信息和结构信息中噪声的问题;本专利技术提出了一种基于多视图结构的图卷积神经网络聚类方法;本专利技术提出了一种双分支网络模型,通过交叉更新迭代,能够达到更好的聚类效果,且本专利技术能适应各种规模的图结构数据集,具有较强的可扩展性。
[0011]2.技术方案
[0012]为达到上述目的,本专利技术提供的技术方案为:
[0013]本专利技术的一种基于多视图结构的图卷积神经网络聚类方法,其步骤为:
[0014]步骤1、通过数据增强操作对图结构数据集进行预处理,获得图在多个视图下的结构信息;
[0015]步骤2、构建一个基于多视图结构的图自编码器网络用于模型训练;
[0016]步骤3、依据步骤1预处理的数据集和步骤2构建的模型,调整模型参数,进行模型训练;
[0017]步骤4、将图的节点属性和结构信息作为输入,利用步骤3学习得到的参数得到最终的聚类结果。
[0018]更进一步地,步骤1中对图数据进行预处理的过程为:选取预训练好的图自编码器作为边缘预测器,将图的初始节点属性和结构信息作为预测器的输入并得出边缘概率矩阵;再根据边缘概率矩阵,添加高概率可能存在的边,删除低概率冗余的边,更新图的结构信息。
[0019]更进一步地,步骤2中构建的网络模型是基于多视图结构的双分支网络,每个分支包括:图自编码器,聚类模块以及交叉更新模块。
[0020]更进一步地,步骤2所述模型的训练过程如下:将图的节点属性和不同视图下的结构信息作为不同分支的输入,通过图自编码器完成嵌入,得到嵌入特征与重构后的结构信息;之后利用聚类模块,根据嵌入特征计算出图的初始概率分布与目标分布,最后通过交叉更新模块,更新不同分支下的结构信息,并交叉传递到不同分支进行下一轮迭代训练。
[0021]更进一步地,步骤2中,图自编码器提取嵌入特征的具体过程如下:
[0022](1)将图的节点属性X和结构信息A作为编码器的输入,提取出图的嵌入特征表示;
[0023](2)利用内积解码器,根据提取出的嵌入特征重构出图的结构信息。
[0024]更进一步地,图自编码器中的编码器分别通过两层图卷积层和两层图注意力层提取出图的两种特征表示Z和Z

,再通过特征融合机制得出融合特征Z


[0025]将融合特征Z

作为预测器的输入,预测出图中每个节点所对应的伪标签,最后通过特征融合方式将伪标签信息Z
″′
加入到最终嵌入特征表示。
[0026]更进一步地,图自编码器的解码器采用内积编码器。
[0027]更进一步地,聚类模块将最终嵌入特征表示作为输入,利用t

学生分布计算初始
概率分布Q,并根据初始概率分布计算目标概率分布P。
[0028]更进一步地,根据初始概率分布Q按照一定的阙值选取高置信度节点,得到高置信度节点集;然后从高置信节点集中按照1

NN算法选取离高置信度聚类质心最近的点,并根据初始概率分布Q判断高置信度节点集中的节点是否与离所属类别质心最近的节点标签一致,如果一致,则为这两个节点之间添加边;否则,删除这两个节点之间的边;最终得到更新后面向聚类的结构信息,并作为重构时的监督信息。
[0029]更进一步地,模型在迭代一定轮数后,在交叉更新模块中,通过计算重构的结构信息和初始结构信息的线性加权和,得出图更新后的结构信息,并将两个分支更新后的结果交叉输入到不同分支,然后参与网络的迭代更新。
[0030]3.有益效果
[0031]采用本专利技术提供的技术方案,与已有的公知技术相比,具有如下显著效果:
[0032](1)本专利技术的一种基本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于多视图结构的图卷积神经网络聚类方法,其特征在于,其步骤为:步骤1、通过数据增强操作对图结构数据集进行预处理,获得图在多个视图下的结构信息;步骤2、构建一个基于多视图结构的图自编码器网络用于模型训练;步骤3、依据步骤1预处理的数据集和步骤2构建的模型,调整模型参数,进行模型训练;步骤4、将图的节点属性和结构信息作为输入,利用步骤3学习得到的参数得到最终的聚类结果。2.根据权利要求1所述的一种基于多视图结构的图卷积神经网络聚类方法,其特征在于:步骤1中对图数据进行预处理的过程为:选取预训练好的图自编码器作为边缘预测器,将图的初始节点属性和结构信息作为预测器的输入并得出边缘概率矩阵;再根据边缘概率矩阵,添加高概率可能存在的边,删除低概率冗余的边,更新图的结构信息。3.根据权利要求1或2所述的一种基于多视图结构的图卷积神经网络聚类方法,其特征在于:步骤2中构建的网络模型是基于多视图结构的双分支网络,每个分支包括:图自编码器,聚类模块以及交叉更新模块。4.根据权利要求3所述的一种基于多视图结构的图卷积神经网络聚类方法,其特征在于:步骤2所述模型的训练过程如下:将图的节点属性和不同视图下的结构信息作为不同分支的输入,通过图自编码器完成嵌入,得到嵌入特征与重构后的结构信息;之后利用聚类模块,根据嵌入特征计算出图的初始概率分布与目标分布,最后通过交叉更新模块,更新不同分支下的结构信息,并交叉传递到不同分支进行下一轮迭代训练。5.根据权利要求4所述的一种基于多视图结构的图卷积神经网络聚类方法,其特征在于:步骤2中,图自编码器提取嵌入特征的具体过程如下:(1)将图的节点属性X和结构信息A作为编码器的输入,提取出图的嵌入特征表示;(2)利用内积解码器,根据提取出的嵌入特征重构出图的结构信息。6.根...

【专利技术属性】
技术研发人员:刘恒鲍舟
申请(专利权)人:安徽工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1