当前位置: 首页 > 专利查询>兰州大学专利>正文

基于自监督的属性图社团检测方法技术

技术编号:34490745 阅读:19 留言:0更新日期:2022-08-10 09:09
本发明专利技术涉及基于自监督的属性图社团检测方法,包括:提取图注意力网络中的初始邻接矩阵、初始特征矩阵,分别对初始邻接矩阵和初始特征矩阵进行预处理,得到转换后的邻接矩阵以及过滤后的特征矩阵;基于转换后的邻接矩阵和过滤后的特征矩阵通过自编码单元进行重构,得到重构后的邻接矩阵与重构后的特征矩阵;将重构后的特征矩阵输入到聚类单元中进行计算,得到聚类结果;分别将自编码单元和聚类单元中的损失函数进行合并,得到最终的整体损失函数,对最终的整体损失函数进行聚类计算,得到最终聚类结果,基于最终聚类结果得到划分结果。本发明专利技术比图卷积网络具有可以添加权重的优势,在节点连接密集的网络中具有更好的作用。节点连接密集的网络中具有更好的作用。节点连接密集的网络中具有更好的作用。

【技术实现步骤摘要】
基于自监督的属性图社团检测方法


[0001]本专利技术涉及计算机网络
,特别是涉及一种基于自监督的属性图社团检测方法。

技术介绍

[0002]图神经网络应用到了图相关任务的多个方面,包括节点分类、图分类、图聚类等。图的节点分类当中,通常会应用到自动编码器的方式,以真实标签与预测标签的误差作为损失函数进行反向传播。图分类任务当中,常用的是池化的方式,通过将复杂网络中的节点进行聚合,作为一个点进行处理,逐步得到对于整个网络的表示,下游进行网络表示的分类任务。图聚类任务当中,不具有真实的标签,因此常通过不同的方式构造损失函数,获得指定类别数目的划分结果。
[0003]深度学习的任务在大多数情况下可以划分成两种类型,一种是监督学习,一种是无监督学习,区别在于是否使用了人工标注的标签值。自监督学习的目标是从大规模的无监督的数据中挖掘出自身的监督信息,这种构造出的监督信息有利于提取出适合下游任务的数据表示。即自监督学习的任务不使用人为的标签标注,大多数情况下被称为无监督学习的一种,但是比较合适的叫法应该是自监督学习。现实的深度学习任务中,大多数情况下是没有人为标注的标签的,并且人为标注的成本很高,所以自监督学习的重要性不言而喻。
[0004]在没有标签的情况下如何完成社团划分的任务,这种任务在图相关任务中被称之为图聚类任务。在图聚类任务中,输入数据包含两种类型,一种是图的拓扑结构信息,通常使用邻接矩阵表示一张图的结构信息,表示的是图中各个节点之间边的信息,另一种是图的特征信息,通常使用特征矩阵表示每一个节点的特征信息。对邻接矩阵和特征矩阵分别进行数据的预处理,有利于下游任务的执行。大多数的图聚类任务可分为两个部分,前者为学习图的信息的过程,后者为通过聚类算法得到聚类结果的过程。将单独的任务划分成上下游两阶段任务,势必会造成精度的损失。

技术实现思路

[0005]本专利技术的目的是提供一种基于自监督的属性图社团检测方法,已解决上述现有技术中存在的问题。
[0006]为实现上述目的,本专利技术提供了如下方案:
[0007]基于自监督的属性图社团检测方法,包括:
[0008]提取图注意力网络中的初始邻接矩阵、初始特征矩阵,分别对所述初始邻接矩阵和所述初始特征矩阵进行预处理,得到转换后的邻接矩阵以及过滤后的特征矩阵;
[0009]基于所述转换后的邻接矩阵和所述过滤后的特征矩阵通过自编码单元进行重构,得到重构后的邻接矩阵与重构后的特征矩阵;将所述重构后的特征矩阵输入到聚类单元中进行计算,得到聚类结果;
[0010]分别将所述自编码单元和所述聚类单元中的损失函数进行合并,得到最终的整体
损失函数,对所述最终的整体损失函数进行聚类计算,得到最终聚类结果,基于所述最终聚类结果得到划分结果。
[0011]优选地,分别对所述初始邻接矩阵和所述初始特征矩阵进行预处理的过程包括:
[0012]向所述初始邻接矩阵中加入扩散函数,对所述初始特征矩阵做平滑处理,然后放入所述自编码单元和所述聚类单元中,通过所述自编码单元获得网络数据的低维表示,通过所述聚类单元进行聚类任务,进行目标函数的优化。
[0013]优选地,向所述初始邻接矩阵中加入所述扩散函数包括:
[0014]基于多阶邻接矩阵的和,通过扩散函数模拟不同阶邻居间的关系,并利用度矩阵进行转换,得到转换后的矩阵;将所述转换后的矩阵通过对称转换进行处理,得到加入扩散函数的初始邻接矩阵;其中所述初始邻接矩阵为所述多阶邻接矩阵。
[0015]优选地,所述扩散函数为个性化网页排名函数
[0016][0017]其中,k为邻居阶数;α和t为超参数,根据数据集进行调整。
[0018]优选地,对所述初始特征矩阵做平滑处理的过程包括:
[0019]通过拉普拉斯平滑Laplacian Smoothing Filter的方式对所述初始特征矩阵进行低通滤波处理,用于使过滤后的特征矩阵体现图的整体节点特征,得到所述过滤后的特征矩阵。
[0020]优选地,进行所述低通滤波处理时采用过滤器H,其中,所述过滤器H为:
[0021]H=I

kL
ꢀꢀꢀ
(2)
[0022]式中,I为单位矩阵,L为拉普拉斯矩阵,k为拉普拉斯矩阵系数。
[0023]优选地,所述自编码单元包括自编码层,所述自编码层为图自编码层,所述图自编码层使用两层GAT作为基本编码层单元,其中,第一层GAT使用所述初始特征矩阵作为输入,第二层GAT的输入为第一层的输出,同时向所述两层GAT中加入网络的拓扑结构信息和节点的特征信息,用于使编码器的输出完整获得网络的全部信息。
[0024]优选地,所述自编码单元中还包括与所述图自编码层对称的图解码层,所述图解码层用于重构不同的图信息,得到重构后的邻接矩阵与重构后的特征矩阵,进而得到邻接矩阵的重构误差与特征矩阵的重构误差。
[0025]优选地,在所述聚类单元中,选择KL散度作为衡量所述聚类结果的目标函数:
[0026][0027]其中,p
iu
为目标分布,q
iu
为编码层输出的嵌入h
i
与聚类中心μ
u
之间的相似程度衡量,t分布作为衡量的标准,t分布针对不同的节点集群获得分布函数,Q指编码层输出的嵌入h
i
与聚类中心μ
u
两者构成的t分布,P为使用Q分布作为软标签使用平方的方式增大区分度而构成的分布。
[0028]优选地,所述整体损失函数包括邻接矩阵的重构误差、特征矩阵的重构误差和衡量聚类结果的误差函数,将所述整体损失函数作为最终的损失函数L,如下式(4):
[0029]L=L
F
+βL
A
+γL
KL
ꢀꢀꢀ
(4)
[0030]其中,L
F
是特征矩阵的重构误差,L
A
是邻接矩阵的重构误差,L
KL
为衡量聚类效果的
误差函数。
[0031]本专利技术的有益效果为:
[0032]本专利技术以图注意力网络作为基础网络层,相比图卷积网络具有可以添加权重的优势,在节点连接较为密集的网络中具有更好的作用,使用该网络层构成了自动编码器,用于获得网络节点的低维表示,相较于传统的自动编码器,本专利技术的自动编码器中加入了两种重构误差,既重构了网络的结构信息邻接矩阵,又重构了网络中的节点特征信息特征矩阵,可以获得高质量的节点表示。
附图说明
[0033]为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
[0034]图1为本专利技术实施例的方法流程图;
[0035]图2为本专利技术实施例本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于自监督的属性图社团检测方法,其特征在于,包括:提取图注意力网络中的初始邻接矩阵、初始特征矩阵,分别对所述初始邻接矩阵和所述初始特征矩阵进行预处理,得到转换后的邻接矩阵以及过滤后的特征矩阵;基于所述转换后的邻接矩阵和所述过滤后的特征矩阵通过自编码单元进行重构,得到重构后的邻接矩阵与重构后的特征矩阵;将所述重构后的特征矩阵输入到聚类单元中进行计算,得到聚类结果;分别将所述自编码单元和所述聚类单元中的损失函数进行合并,得到最终的整体损失函数,对所述最终的整体损失函数进行聚类计算,得到最终聚类结果,基于所述最终聚类结果得到划分结果。2.根据权利要求1所述的基于自监督的属性图社团检测方法,其特征在于,分别对所述初始邻接矩阵和所述初始特征矩阵进行预处理的过程包括:向所述初始邻接矩阵中加入扩散函数,对所述初始特征矩阵做平滑处理,然后放入所述自编码单元和所述聚类单元中,通过所述自编码单元获得网络数据的低维表示,通过所述聚类单元进行聚类任务,进行目标函数的优化。3.根据权利要求2所述的基于自监督的属性图社团检测方法,其特征在于,向所述初始邻接矩阵中加入所述扩散函数包括:基于多阶邻接矩阵的和,通过扩散函数模拟不同阶邻居间的关系,并利用度矩阵进行转换,得到转换后的矩阵;将所述转换后的矩阵通过对称转换进行处理,得到加入扩散函数的初始邻接矩阵;其中所述初始邻接矩阵为所述多阶邻接矩阵。4.根据权利要求3所述的基于自监督的属性图社团检测方法,其特征在于,所述扩散函数为个性化网页排名函数数为个性化网页排名函数其中,k为邻居阶数;α和t为超参数,根据数据集进行调整。5.根据权利要求2所述的基于自监督的属性图社团检测方法,其特征在于,对所述初始特征矩阵做平滑处理的过程包括:通过拉普拉斯平滑Laplacian Smoothing Filter的方式对所述初始特征矩阵进行低通滤波处理,用于使过滤后的特征矩阵体现图的整体节点特征,得到所述过滤后的特征矩阵。6.根据权利要求5所述的基于自监督的属性图社团检测方法,其特征在于,进行所述低通滤波处理时采用过滤器H,其中,所述过滤器H为:H=I

...

【专利技术属性】
技术研发人员:刘磊苏伟刘永升马永强原彦平史春燕张久文张烜
申请(专利权)人:兰州大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1