当前位置: 首页 > 专利查询>之江实验室专利>正文

一种对三角形结构敏感的图中的社区发现方法和装置制造方法及图纸

技术编号:28420306 阅读:21 留言:0更新日期:2021-05-11 18:27
本发明专利技术涉及一种对三角形结构敏感的图中的社区发现方法和装置。该方法的步骤包括:利用图自编码器中的图编码器,通过图神经网络模型融合图中的结构信息和节点内容信息,从而学习到图中节点的隐层向量表示;利用图自编码器中的图解码器,根据图中节点的隐层向量表示对图中两点之间的连边关系和图中的三角形结构进行重构;利用重构后的图中的结构信息和节点内容信息进行图聚类,从而发现社区。本发明专利技术是一种无监督的基于图自编码器的对三角形结构敏感的社区发现方案,可以在图中高效、自适应地实现社区发现任务,并应用于不同平台中,具有高可扩展性,高灵活性。

【技术实现步骤摘要】
一种对三角形结构敏感的图中的社区发现方法和装置
本专利技术属于通用信息
,现实生活中很多场景和应用都可以用图来描述,如社交网络图,论文引用图,电商平台中的用户商品图等,图中的社区反映了节点之间的相似性和关联程度,包含丰富的信息,如何快速有效地对图进行聚类,从而挖掘出图中的社区信息已经成为重要的研究问题。其中,图中的三角形结构对社区的组成与发现有着重要的意义。本方法基于先进的图神经网络技术,结合图中的三角形结构,以自监督的形式从数据中学习节点表示并聚类从而发现出图中的社区结构,可以被广泛应用在社交、电子商务等不同在线网络平台的图中。
技术介绍
图结构被广泛应用于现实世界中各种复杂场景的描述,如社会关系网络,万维网,城市交通网络,电商中的用户商品关系网等。社区结构是所有类型图中的一个普遍特征,整个图由许多社区组成,而社区反映节点之间的联系紧密性。图中的社区发现算法可以帮助我们了解图中的节点群集、独立组和网络结构,这些有助于我们推断对等的各组的相似行为和偏好、弹性估算和查找嵌套关系,也可以数据挖掘任务提供依据。例如在在电子商务系统中,查询与给定目标作弊用户有协同关系的作弊团伙;在社交网络中,查询单个或多个目标用户共同的兴趣社区等。图上的社区发现任务通常是根据图中的节点聚类得到社区。社区内部的节点联系紧密,社区之间联系稀疏,因此社区内部通常为稠密子图,而三角形组成稠密子图的基本元素,因此图中三角形结构的利用对社区的发现十分重要。传统的聚类算法,如K-L二分法、图二分法、谱聚类等,主要通过利用图中的连边信息来寻找社区,缺乏对图中节点内容信息的利用。一些基于深度学习的图聚类算法,尝试在模型中融合图的结构信息和节点内容信息,学习得到节点的向量表示进行聚类,然而这些模型却同样只关注简单的结构信息,缺乏对图中高阶结构(如三角形结构)的利用,从而无法更好的挖掘社区信息。针对如何挖掘图中的社区问题,给出一种同时考虑图结构和节点内容,同时结合图中三角形结构的模型不仅有重要的学术价值,同时会有广泛的应用前景。
技术实现思路
本专利技术提出了一种无监督的基于图自编码器的对三角形结构敏感的社区发现方法和装置。该方法在编码器中利用图神经网络来融合图中的结构信息和内容信息,在解码器中通过重构三角形结构来学习图中高阶结构信息。通过这样的方式,本专利技术可以在图中高效、自适应地实现社区发现任务,并应用于不同平台中。本专利技术采用的技术方案如下:一种无监督的基于图自编码器的对三角形结构敏感的社区发现方法,包括以下步骤:利用图自编码器中的图编码器,通过图神经网络模型融合图中的结构信息和节点内容信息,从而学习到图中节点的隐层向量表示;利用图自编码器中的图解码器,根据图中节点的隐层向量表示对图中两点之间的连边关系和图中的三角形结构进行重构;利用重构后的图中的结构信息和节点内容信息进行图聚类,从而发现社区。上述方法是基于自编码器结构,由图编码器和图解码器组成。图编码器是利用先进的图神经网络模型来融合图中的结构信息和节点内容信息,从而学习到图中节点的隐层向量表示。图编码器的输入是图的邻接矩阵,以及节点特征矩阵,通过图神经网络模型,如图卷积神经网络/图注意力神经网络等来融合图的结构信息和节点的内容信息。注意如果原图只有结构信息,而无节点内容信息,可以利用节点的度数作为节点内容信息。通过多层图神经网络,可以得到节点的隐层向量表示,而这些隐层向量表示可以用于后续解码器来根据图中的已有信息(如结构内容)来进行解码重构。图解码器是根据节点的隐层向量表示来重构图中的结构,传统的无监督图神经网络(GraphAutoencoder)在解码器部分往往只会关注简单的低阶结构信息,如两个节点之间是否有连边这样的情况。然而,对于社区检测这种任务来讲,这样的信息是不足的,如前文介绍,社区通常是一个密集子图,而密集子图的重要组成部分就是三角形结构,所以在本专利技术中,不仅关注图中的两点之间的连边关系,同时关注图中三角形结构的重构。具体而言,对于图中的两点连边信息的重构,给定图中原有连边的两点A和B,本专利技术通过一层内积网络来计算A与B两点的连边可能性来重构图中已有的连边信息。对于三角形结构的重构,给定A和B之间的连边,本专利技术寻找A和B的邻居集合,假设C是A或者B的邻居,根据C是否同A与B都相连(即A,B,C构成三角形结构)来进行三角形信息的学习,同时,还会进行负采样,采样节点D,D与A和B都不相连,通过A,B,C,D之间的关系来进行三角形信息的重构和学习。本专利技术的社区检测方法是根据图自编码器学习到的节点隐层向量表示来进行图聚类,如K-means算法,从而发现社区,由于本专利技术的图自编码器学习到的节点隐层向量表示即蕴含了图的结构信息,以及节点的内容信息,特别是在图中的三角形信息,所以根据这些向量进行图聚类的效果会更好。进一步地,上述方法实现算法的可扩展性,由于实际生产应用中,往往要对海量的数据进行处理,导致所涉及的图的规模可能会非常的大(如千万级的点,上亿条边的图),为了保证算法的可扩展性(在大图运行的可行性),本专利技术也给出大图上算法运行的方法。首先给出一些理论保证的前提,由于图神经网络模型的学习过程是聚合中心节点周围邻居的结构和属性特征,在本地进行转换后,再将这些特征传播出去,所以图神经网络模型往往有“局部性”的特点,即图神经网络的学习过程对于每个图节点来说都是受限于“感受域”的,换言之,很远端的信息(如两图节点之间的最短路距离有20以上)在模型中学习是没有用的。同样,对于中心节点来说,只有它周围近端的三角形结构对它更有利用价值。所以为了提高算法的可扩展性,可以在原始大图上进行子图采样,采样过后只保留中心节点周围的邻居节点,然后在采样的子图上学习图自编码器模型,在保证模型学习效果的同时也保证了算法的运行效率和可扩展性。基于同一专利技术构思,本专利技术还提供一种采用上述方法的对三角形结构敏感的图中的社区发现装置,其包括:图编码器模块,用于通过图神经网络模型融合图中的结构信息和节点内容信息,从而学习到图中节点的隐层向量表示;图解码器模块,用于根据图中节点的隐层向量表示对图中两点之间的连边关系和图中的三角形结构进行重构;聚类模块,用于利用重构后的图中的结构信息和节点内容信息进行图聚类,从而发现社区。本专利技术是一种无监督的基于图自编码器的对三角形结构敏感的社区发现方法,该方法具有可扩展性,可以应用于不同规模的图数据中来发现挖掘信息,图中不同维度信息的利用的情况下实现了图中节点向量的生成。该专利技术的优点是:1)本专利技术是无监督学习模型,不需要数据集带有标签,同时也具有高可扩展性,适用的场景(图)更广。2)本专利技术利用先进的图自编码器来学习图节点的向量表示,其中,在图编码器阶段,利用图神经网络来融合图的结构信息和节点的内容信息,在解码器阶段重构图中原有的连边信息以及三角形信息来学习更适用于图中社区发现算法的节点表示。3)本方法的框架具有高灵活性,其中编码器可以替换为不同的图神经网络模型,如图卷本文档来自技高网
...

【技术保护点】
1.一种对三角形结构敏感的图中的社区发现方法,其特征在于,包括以下步骤:/n利用图自编码器中的图编码器,通过图神经网络模型融合图中的结构信息和节点内容信息,从而学习到图中节点的隐层向量表示;/n利用图自编码器中的图解码器,根据图中节点的隐层向量表示对图中两点之间的连边关系和图中的三角形结构进行重构;/n利用重构后的图中的结构信息和节点内容信息进行图聚类,从而发现社区。/n

【技术特征摘要】
1.一种对三角形结构敏感的图中的社区发现方法,其特征在于,包括以下步骤:
利用图自编码器中的图编码器,通过图神经网络模型融合图中的结构信息和节点内容信息,从而学习到图中节点的隐层向量表示;
利用图自编码器中的图解码器,根据图中节点的隐层向量表示对图中两点之间的连边关系和图中的三角形结构进行重构;
利用重构后的图中的结构信息和节点内容信息进行图聚类,从而发现社区。


2.根据权利要求1所述的方法,其特征在于,利用子图采样来减小训练数据规模,然后在采样的子图上学习图自编码器。


3.根据权利要求2所述的方法,其特征在于,所述子图采样包括:
对于节点u和节点v,如果它们之间有连边,那该连边被采样的概率为pu,v∝1/du+1/dv;
给定采样子图规模,根据上述概率对全图中的边进行采样,根据采样得到的边进行子图抽取从而确定采样子图。


4.根据权利要求1所述的方法,其特征在于,采用以下步骤对图中两点之间的连边关系进行重构:给定图中原有连边的两点A和B,通过一层内积网络来计算A与B两点的连边可能性,从而重构图中已有的连边信息。


5.根据权利要求4所述的方法,其特征在于,采用以下步骤计算对图中两点之间的连边关系进行重构的损失函数:
根据学习到的隐层节点向量表示Zt进行内积运算,对子图中所有的连边进行重构,得到重构的子图邻接矩阵
对于图中存在的边(u,v),根据和真实子图邻接矩阵At的差别来定义损失函数Lu,v:其中zu表示点u的隐层节点向量,zv表示点v的隐层节点向量。


6.根据权利要求1所述的方法,其特征在于,采用以下步骤对图中的三角形结构进行重构:给定A和B之间的连边,寻找A和B的邻居集合,假设C是A或者B的邻居,根据C是否同A与B都相连来进行三角形信息的学习,同时进行负采样,采样节点D,D与A和B都不相连,通过A,B,C,D之间的关系来进行三角形信息的重构和学习。


7.根据权利要求6所述的方法,其特...

【专利技术属性】
技术研发人员:张吉王佳麟高军
申请(专利权)人:之江实验室北京大学
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1