基于图注意力自动编码器的社区发现方法及系统技术方案

技术编号:38427115 阅读:19 留言:0更新日期:2023-08-07 11:24
本发明专利技术提供一种基于图注意力自动编码器的社区发现方法及系统,涉及计算机技术领域,该方法包括:利用多层非线性图注意力编码器映射图中的原始节点内容和图结构,得到节点特征表示;采用l1,2

【技术实现步骤摘要】
基于图注意力自动编码器的社区发现方法及系统


[0001]本专利技术涉及计算机
,尤其涉及一种基于图注意力自动编码器的社区发现方法及系统。

技术介绍

[0002]本部分的陈述仅仅是提供了与本专利技术相关的
技术介绍
信息,不必然构成已经成为本领域一般技术人员所公知的现有技术。
[0003]图结构是一种非线性结构,图结构在实际生活中具有广泛的应用,例如:通信网络、人际关系网络等。图聚类是一个长期的研究课题,早期采用各种浅层方法来进行图聚类,如使用中心指数来寻找社区边界并检测社区;将信念传播应用于社区检测并确定最可能的社区排列;许多基于嵌入学习的方法将现有的聚类算法应用于学习嵌入,为了处理内容和结构信息,关系主题模型、联合聚类方法和内容传播也被广泛使用。这些方法的局限性在于(1)它们仅捕获网络信息的一部分或内容和结构数据之间的浅层关系,以及(2)它们直接应用于稀疏的原始图。因此,这些方法不能有效地利用图结构或图结构与节点内容信息之间的相互作用。
[0004]近年来,受益于深度学习的发展,图聚类取得了快速的进步。许多深度图聚类算法采用自动编码器,具体为使用变分自动编码器、稀疏自动编码器、对抗正则化方法或去噪自动编码器来学习聚类的深度表示。为了更好地利用深度非线性表示,提出了基于深度学习的方法,最具代表性的方法之一是图形自动编码器(GAE)。它将图结构和节点属性编码为节点表示,在该节点表示上训练解码器以重建图结构。为了提高节点表示的鲁棒性,Pan等人提出了对抗正则化图自动编码器(ARGAE)。然而,在上述方法中,每个节点的邻居都具有相同的权重,而没有考虑图结构中噪声的存在。为了更好地挖掘节点及其邻居的相关性,Velickovic等人提出了图注意力网络(GATs),但是,他们的方法旨在重建图结构而不是节点属性,其中图结构在解码器部分根本无法使用,导致图学习能力下降。
[0005]现阶段,提出了几种基于图卷积自动编码器的聚类模型,其核心是学习低维、紧凑和连续的表示,然后在学习的表示上实施经典的聚类方法,以获得聚类标签。专利技术人发现,现有方法仍然存在以下限制:(1)忽略了节点表示的集群特异性分布,不同的社区分布在不同的特征维度上,这就使得节点的特征分布非常混乱,即使在大多数维度上,节点的特征也非常的相似,这可能会使算法将他们全部聚类到同一个社区中,导致聚类的结果不准确;(2)从拓扑上,邻居节点通过边来表示目标节点,即只考虑图的1跳邻居节点,由于图具有复杂的结构关系,高阶邻居节点也具有丰富的节点信息;(3)现有方法中大多数无法同时重建节点属性和图结构,导致节点表示不理想。

技术实现思路

[0006]为了解决上述问题,本专利技术提供一种基于图注意力自动编码器的社区发现方法及系统,利用l1,2

范数惩罚来解决节点表示的社团特异性分布的问题,以很好地刻画聚类结
构,并且将聚类损失、特异性约束和重建损失确定总目标函数,通过最小化总目标函数确定软标签分布,以提高聚类结果的准确性。
[0007]为了实现上述目的,本专利技术主要包括以下几个方面:
[0008]第一方面,本专利技术实施例提供一种基于图注意力自动编码器的社区发现方法,包括:
[0009]利用多层非线性图注意力编码器映射图中的原始节点内容和图结构,得到图中各节点的节点特征表示;
[0010]采用l1,2

数惩罚对所述节点特征表示进行特异性约束,以及采用内积解码器预测图中各节点之间的链接,确定出节点内容和图结构的重建损失;
[0011]对图中各节点进行自训练聚类,根据软标签分布和目标分布之间的散度,构建聚类损失;根据所述聚类损失、特异性约束和重建损失确定总目标函数,通过最小化所述总目标函数,优化所述软标签分布使其不断逼近目标分布;
[0012]从优化后的软标签分布中获取聚类结果,从而发现社区。
[0013]在一种可能的实施方式中,在多层非线性图注意力编码器的映射过程中,针对每一个节点,根据其预设跳数的邻居节点学习该节点的隐藏表示。
[0014]在一种可能的实施方式中,将所述节点特征表示的l1,2

范数惩罚作为社区的特异性约束L
norm
,其表示如下:
[0015][0016]其中,β是一个权衡参数,Z为节点特征表示,N为节点的总数量,||
·
||
1,2
为向量表示的l1,2

范数;第i行的Z
i
的平方l1

范数中的不同元素相互竞争生存,并且行中至少有一个元素非零,以为每个社区保留判别特征。
[0017]在一种可能的实施方式中,所述内积解码器表示如下:
[0018][0019]其中,φ(
·
)为映射函数,)为映射函数,是图的重构结构矩阵,Z
i
为节点i的节点特征表示,Z
j
为节点j的节点特征表示,σ表示sigmoid函数。
[0020]在一种可能的实施方式中,所述节点内容和图结构的重建损失L
R
为:
[0021][0022]其中,N为节点数量,X
i
表示节点i的特征内容,表示节点i的重构特征内容,ξ
r
是控制平衡的系数,N
j
表示节点j的邻居节点的集合,表示向量的2范数。
[0023]在一种可能的实施方式中,所述聚类损失L
c
为:
[0024][0025]其中,KL(
·
||
·
)表示分布之间的Kullback

Leibler的散度,Q是软标签分布,P是目标分布;软标签分布Q用于表征节点i的节点特征表示Z
i
和集群中心之间的相似性,其中,每个节点的软聚类分配分布q
ij
为:
[0026][0027]每个节点的目标分布p
ij
为:
[0028][0029]其中,j

表示社区,∑
i
q
ij
是软聚类频率。
[0030]在一种可能的实施方式中,所述总目标函数为:
[0031]L=L
R
+λL
C
+L
norm

[0032]其中,L
R
和L
C
分别是重建损失和聚类损失,L
norm
是特异性损失,λ≥0是用于控制平衡的系数。
[0033]第二方面,本专利技术实施例提供一种基于图注意力自动编码器的社区发现系统,包括:
[0034]编码模块,用于利用多层非线性图注意力编码器映射图中的原始节点内容和图结构,得到图中各节点的节点特征表示;
[0035]解码模块,用于采用l1,2

范数惩罚对所述节点特征表示进行特异性约束,以及采用内积解码本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于图注意力自动编码器的社区发现方法,其特征在于,包括:利用多层非线性图注意力编码器映射图中的原始节点内容和图结构,得到图中各节点的节点特征表示;采用l1,2

范数惩罚对所述节点特征表示进行特异性约束,以及采用内积解码器预测图中各节点之间的链接,确定出节点内容和图结构的重建损失;对图中各节点进行自训练聚类,根据软标签分布和目标分布之间的散度,构建聚类损失;根据所述聚类损失、特异性约束和重建损失确定总目标函数,通过最小化所述总目标函数,优化所述软标签分布使其不断逼近目标分布;从优化后的软标签分布中获取聚类结果,从而发现社区。2.如权利要求1所述的基于图注意力自动编码器的社区发现方法,其特征在于,在多层非线性图注意力编码器的映射过程中,针对每一个节点,根据其预设跳数的邻居节点学习该节点的隐藏表示。3.如权利要求1所述的基于图注意力自动编码器的社区发现方法,其特征在于,将所述节点特征表示的l1,2

范数惩罚作为社区的特异性约束L
norm
,其表示如下:其中,β是一个权衡参数,Z为节点特征表示,N为节点的总数量,||
·
||
1,2
为向量表示的l1,2

范数;第i行的Z
i
的平方l1

范数中的不同元素相互竞争生存,并且行中至少有一个元素非零,以为每个社区保留判别特征。4.如权利要求3所述的基于图注意力自动编码器的社区发现方法,其特征在于,所述内积解码器表示如下:其中,φ(
·
)为映射函数,)为映射函数,是图的重构结构矩阵,Z
i
为节点i的节点特征表示,Z
j
为节点j的节点特征表示,σ表示sigmoid函数。5.如权利要求4所述的基于图注意力自动编码器的社区发现方法,其特征在于,所述节点内容和图结构的重建损失L
R
为:其中,N为节点数量,X
i
表示节点i的特征内容,表示节点i的重构特征内容,ξ
r
是控制平衡的系数,N
j
表示节点j的邻居节点的集合,表示向量的2范数。6.如权利要求5所述的基于图注意力自动编码器的社区发现方法,其特征在于,所述聚类损失L...

【专利技术属性】
技术研发人员:姜雪松陈佃迎尉秀梅陈珺马浩翔柴慧慧
申请(专利权)人:齐鲁工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1