当前位置: 首页 > 专利查询>云南大学专利>正文

基于图双重自编码器的社区发现方法、系统、设备及介质技术方案

技术编号:38529272 阅读:11 留言:0更新日期:2023-08-19 17:03
本发明专利技术公开一种基于图双重自编码器的社区发现方法、系统、设备及介质,涉及社区发现技术领域,该方法包括将给定的引文网络输入图双重自编码器,得到图结构表示信息和图属性表示信息;将图结构表示信息和图属性表示信息进行融合,得到融合后的图表示信息;采用聚类方法对融合后的图表示信息进行社区划分,得到社区发现结果。本发明专利技术提高了对引文网络中社区划分的准确性。的准确性。的准确性。

【技术实现步骤摘要】
基于图双重自编码器的社区发现方法、系统、设备及介质


[0001]本专利技术涉及社区发现
,特别是涉及一种基于图双重自编码器的社区发现方法、系统、设备及介质。

技术介绍

[0002]引文分析是指对科学期刊、论文、著者等分析对象的引用和被引用现象进行分析以揭示其数量特征和内在规律。引文分析对于研究选题、研究热点、领域内研究趋势、高影响力科学家的寻找、文献回溯等十分有用。最为常见的引文分析工具就是web of science,Scopus和Google Scholar,然而这三种工具通常只对于计算期刊影响因子,某一文章的引用次数,某一作者的引用等统计比较有用。对于普通科研人员来说,特别是对于辅助了解课题内容来说就不是那么实用,一个优秀的引文分析方法可以从文献引用角度发现重要文献,探究科学知识流向。图是现实世界中探索和建模复杂系统的通用数据结构,作为实体关系交互的重要媒介,也成为当前研究的热点之一。复杂网络通常由一组节点(顶点)之间有连接(边)的图来表示,引文网络就是一种复杂网络,在其结构中,每个节点表示一篇引文,两点之间若有边存在则表示两篇引文之间存在引用或被引用的关系,若无边存在,则表示两篇引文无引用或被引用的关系。社区发现是指在网络图中寻找具有相似特征的社区结构,以了解它们的拓扑结构和属性信息,从而应用于分类、预测等任务,服务于现实社会。社区发现具有重要的现实意义,现已在许多现实网络问题中得到了广泛的研究与应用。通过对引文网络的社区结构进行探索将有利于引文分析过程,对其发现重要文献、探究科学知识流向具有重大意义,因此,一个好的社区发现方法对引文分析领域的发展有很大的作用。
[0003]随着复杂网络的出现,网络中不仅拥有大量的节点数量,还包含了多样的节点特征,有着重要的属性信息。这对传统的社区发现方法提出了挑战,传统的方法基本都是对图的结构信息进行处理,而没有充分发掘属性信息中的内容,这些方法在没有节点特征的网络上取得了不错的成果,但面对如今大型网络(例如引文网络)的数据集时,如何同时保持网络结构信息和节点属性信息检测复杂网络中的社区结构,也成为一项新兴的研究任务。图神经网络是传统深度学习方法在图结构数据上的运用和创新,用来提取图中的特征表示,这一技术的出现弥补了传统方法的缺陷。自动编码器(AE)作为一种无监督学习的人工神经网络,在特征提取方面应用十分广泛,其在图像处理领域的成功使得研究者们尝试着将自动编码器用于社区发现。
[0004]最近的基于图自编码器的社区发现方法大多采用结构重构的方式,少数采用特征重构的编码器仍然采用普通架构,这种没有损坏的特征重建可能不可靠,设计出的模型不够健壮,因此现存的图自编码器在解决社区发现问题时还存在很大的进步空间。近些年来,社区发现领域中出现了一些重构结构和重构属性特征的图双重自编码器模型,这些算法有着不错的图表示学习能力和社区划分效果,使用图双重自编码器进行社区划分这一思想已经展现了它的潜力。
[0005]通过上述分析,现有技术存在的问题及缺陷为:
[0006](1)不能同时考虑网络拓扑结构和节点属性特征,传统的社区发现方法主要包括统计推断方法和机器学习方法,这些方法都是基于网络的结构特征,只考虑节点间的连边关系划分社区,而忽略了节点本身的特征,导致社区划分缺乏语义性;还有其他经典方法,如K

Means,则仅仅使用节点属性来进行社区发现,这些方法则忽略了节点间的关系,即网络的结构特征。
[0007](2)最近的基于图自编码器的社区发现方法大多都采用单一的重构结构或重构特征的方式,对图表示的学习不够充分。这些方法中大部分选用结构重构的方式,对结构信息太过看重;小部分采用特征重构的编码器仍采用普通架构,这种没有损坏的特征重建可能不可靠,设计出的模型存在健壮性不强的问题。
[0008](3)图中大多数目标是信息量较少的特征向量,图自编码器中常用作解码器的多层感知机可能无法弥合编码器表示和解码器目标之间的差距,无法很好的得到图特征,这种不够优秀的图表示信息不利于后续的社区划分。
[0009](4)现在具有特征重建的图自编码器进行重构损失计算时采用的均方误差(MSE)会受到存在不种特征向量范数和维数这一问题影响,存在导致模型不稳定的风险。
[0010]上述问题制约着社区发现方法的发展,进一步制约了引文分析技术的进步。

技术实现思路

[0011]本专利技术的目的是提供一种基于图双重自编码器的社区发现方法、系统、设备及介质,提高了对引文网络中社区划分的准确性。
[0012]为实现上述目的,本专利技术提供了如下方案:
[0013]一种基于图双重自编码器的社区发现方法,包括:
[0014]将给定的引文网络输入图双重自编码器,得到图结构表示信息和图属性表示信息;
[0015]将图结构表示信息和图属性表示信息进行融合,得到融合后的图表示信息;
[0016]采用聚类方法对融合后的图表示信息进行社区划分,得到社区发现结果。
[0017]可选地,所述图双重自编码器包括第一编码器和第二编码器;
[0018]所述第一编码器用于根据每个节点与邻居节点的注意力系数以及邻居节点的节点特征,输出每个节点融合邻域信息后的特征,得到图结构表示信息;节点为引文网络中节点;
[0019]所述第二编码器用于采用随机抽样策略对引文网络中节点进行采样,得到采样集合,采用第一掩码令牌屏蔽采样集合中节点的特征,将采用第一掩码令牌屏蔽处理过后的节点和未采用第一掩码令牌屏蔽处理过后的节点进行图信息学习,得到图属性表示信息。
[0020]可选地,所述重构结构的图自动编码器采用图形注意力网络;所述重构特征的图自动编码器采用图神经网络。
[0021]可选地,所述基于图双重自编码器的社区发现方法还包括对所述图双重自编码器进行训练;对所述图双重自编码器进行训练采用的损失函数中损失包括结构重构损失、特征重构损失和聚类损失。
[0022]可选地,所述图双重自编码器还包括第一解码器和第二解码器,所述第一解码器为重构结构的图自动编码器的解码器,所述第二解码器为重构特征的图自动编码器的解码
器;
[0023]所述第一解码器用于对图结构表示信息进行内积操作,得到重构的邻接矩阵;
[0024]所述第二解码器用于:
[0025]采用第二掩码令牌对第一掩码令牌屏蔽处理过的节点进行重掩码;
[0026]对于重掩码处理后的节点,基于重掩码处理后的节点的邻居节点,采用图神经网络为重掩码处理后的节点重建特征,得到重构的特征矩阵;
[0027]所述结构重构损失表示为:
[0028][0029]其中,Ai
j
表示所述引文网络初始的图的邻接矩阵中元素的值,N为所述引文网络中节点的数量,表示重构的邻接矩阵中元素的值;
[0030]所述特征重构损失表示为:
[0031][0032]其中,x
i
表示所述引文网络中节点i的原始特征,z...

【技术保护点】

【技术特征摘要】
1.一种基于图双重自编码器的社区发现方法,其特征在于,包括:将给定的引文网络输入图双重自编码器,得到图结构表示信息和图属性表示信息;将图结构表示信息和图属性表示信息进行融合,得到融合后的图表示信息;采用聚类方法对融合后的图表示信息进行社区划分,得到社区发现结果。2.根据权利要求1所述的基于图双重自编码器的社区发现方法,其特征在于,所述图双重自编码器包括第一编码器和第二编码器;所述第一编码器用于根据每个节点与邻居节点的注意力系数以及邻居节点的节点特征,输出每个节点融合邻域信息后的特征,得到图结构表示信息;节点为引文网络中节点;所述第二编码器用于采用随机抽样策略对引文网络中节点进行采样,得到采样集合,采用第一掩码令牌屏蔽采样集合中节点的特征,将采用第一掩码令牌屏蔽处理过后的节点和未采用第一掩码令牌屏蔽处理过后的节点进行图信息学习,得到图属性表示信息。3.根据权利要求2所述的基于图双重自编码器的社区发现方法,其特征在于,所述重构结构的图自动编码器采用图形注意力网络;所述重构特征的图自动编码器采用图神经网络。4.根据权利要求2所述的基于图双重自编码器的社区发现方法,其特征在于,所述基于图双重自编码器的社区发现方法还包括对所述图双重自编码器进行训练;对所述图双重自编码器进行训练采用的损失函数中损失包括结构重构损失、特征重构损失和聚类损失。5.根据权利要求4所述的基于图双重自编码器的社区发现方法,其特征在于,所述图双重自编码器还包括第一解码器和第二解码器,所述第一解码器为重构结构的图自动编码器的解码器,所述第二解码器为重构特征的图自动编码器的解码器;所述第一解码器用于对图结构表示信息进行内积操作,得到重构的邻接矩阵;所述第二解码器用于:采用第二掩码令牌对第一掩码令牌屏蔽处理过的节点进行重掩码;对于重掩码处理后的节点,基于重掩码处理后的节点的邻居节点,采用图神经网络为重掩码处理后的节点重建特征,得到重构的特征矩阵;所述结构重构损失表示为:其中,A
ij
表示所...

【专利技术属性】
技术研发人员:李明娇储星
申请(专利权)人:云南大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1