基于拓扑结构和属性信息的链接预测方法及系统技术方案

技术编号:39181464 阅读:12 留言:0更新日期:2023-10-27 08:29
本发明专利技术公开了基于拓扑结构和属性信息的链接预测方法及系统,通过对原始属性图进行偏置的随机游走计算,得到第一节点序列集合并对第一节点进行频率筛选,确定邻居节点集合,获取节点的属性向量表示进而确定相似属性节点集合,将邻居节点集合和相似属性节点集合融合生成第一属性图,进而预测源节点和目标节点之间存在链接的概率,本发明专利技术实施例能够有效地利用拓扑结构和属性信息来学习节点表示,并能够捕捉高阶的邻居信息,采用随机游走和频率筛选方法,能够捕获原始属性图中结构的邻近度,获得更加全面的信息,进而提供较为精确的链接预测结果,提高属性图中节点间链接预测的准确性。本发明专利技术可广泛应用于互联网技术领域。本发明专利技术可广泛应用于互联网技术领域。本发明专利技术可广泛应用于互联网技术领域。

【技术实现步骤摘要】
基于拓扑结构和属性信息的链接预测方法及系统


[0001]本专利技术涉及互联网
,尤其是基于拓扑结构和属性信息的链接预测方法及系统。

技术介绍

[0002]近年来,随着社交网络、电子商务和搜索引擎等互联网应用的不断发展,网络中的节点之间的连接关系变得越来越复杂、多样化,因此链接预测的准确性和效率显得尤为重要。链接预测方法的目的是识别潜在的连接关系,进而推动人们进行更深入的探索和研究,例如推荐相关内容或寻找更多的朋友或合作伙伴等。除此之外,链接预测还可以应用于金融欺诈检测、疾病传播分析、知识图谱构建等领域。
[0003]传统的链接预测方法主要是基于拓扑结构的,这些方法通常使用图论、机器学习和网络科学等技术,从网络拓扑结构中提取出一些结构特征,例如度中心性、接近中心性和介数中心性等,以此预测节点之间的链接关系。但是,传统的链接预测方法通常只考虑网络的拓扑结构,而忽略了节点本身的属性信息。这些方法无法很好地解决一些具有挑战性的问题,例如缺乏拓扑结构信息、网络噪声和节点属性的缺失等,在这些情景下,传统的链接预测方法准确性都有所降低。

技术实现思路

[0004]有鉴于此,本专利技术实施例提供了一种准确性高的基于拓扑结构和属性信息的链接预测方法及系统。
[0005]为实现上述目的,本专利技术实施例的一方面提出了一种基于拓扑结构和属性信息的链接预测方法,所述方法包括:
[0006]从原始属性图的第一节点中确定一个根节点,根据所述根节点对所述原始属性图进行偏置的随机游走计算,得到第一节点序列集合,根据所述第一节点序列集合对所述第一节点进行频率筛选,得到邻居节点集合;
[0007]采用BERT模型学习所述原始属性图的属性表示,得到所述原始属性图中所有所述第一节点的属性向量表示,生成高阶相似属性列表;
[0008]根据所述高阶相似属性列表,计算各个所述第一节点之间的属性相似度,进而确定所述根节点的相似属性节点集合;
[0009]合并所述邻居节点集合和所述相似属性节点集合得到第一属性图,并确定所述第一属性图的最终节点表示;
[0010]根据所述最终节点表示预测源节点与目标节点之间存在链接的概率。
[0011]可选地,所述根据所述根节点对所述原始属性图进行偏置的随机游走计算,得到第一节点序列集合,根据所述第一节点序列集合对所述第一节点进行频率筛选,得到邻居节点集合,包括:
[0012]根据各个所述第一节点之间的边的权重和各个所述第一节点的影响力,计算一个
所述第一节点以另一个所述第一节点作为下一个节点进行游走的游走概率;
[0013]以所述根节点作为随机游走计算的起始节点,根据所述游走概率进行偏置的随机游走计算,得到第一节点序列集合;其中,所述第一节点序列集合包括若干串第一节点序列;
[0014]根据所述第一节点在所述第一节点序列集合中出现的频率,确定邻居节点集合。
[0015]可选地,所述游走概率的计算公式为:
[0016][0017]其中,P(v
t
|v
t
‑1)表示第t

1个所述第一节点v
t
‑1以第t个所述第一节点v
t
作为下一个节点进行游走的游走概率;α(v
t
‑1,v
t
)是v
t
‑1和v
t
之间的转移权重函数;Z是归一化常数;E是所述原始属性图中的边集;
[0018]所述频率的计算公式为:
[0019][0020]其中,freq(v,S)表示当前节点v在所述第一节点序列集合S中出现的频率;count(v,S)表示所述当前节点v在所述第一节点序列集合S中出现的次数,表示所有所述第一节点在所述第一节点序列集合S中出现的次数之和;v
r
表示第r个所述第一节点;
[0021]确定邻居节点集合的函数表达式为:
[0022]S

=F(|v|v∈S,freq(v,S)>τ|)
[0023]其中,S

表示邻居节点集合;F是选择邻居节点的函数;v表示所述当前节点;τ是控制所选节点频率的频率阈值。
[0024]可选地,所述采用BERT模型学习所述原始属性图的属性表示,得到所述原始属性图中所有所述第一节点的属性向量表示,生成高阶相似属性列表,包括:
[0025]将所述原始属性图输入到BERT模型中进行计算,得到所述第一节点的隐层表示;
[0026]将所述第一节点之间的结构信息编码成文本序列;
[0027]将所述文本序列作为NSP任务的输入,结合所述隐层表示确定所述第一节点的属性向量表示;
[0028]将所述属性向量表示整合形成高阶相似属性列表。
[0029]可选地,所述根据所述高阶相似属性列表,计算各个所述第一节点之间的属性相似度,进而确定所述根节点的相似属性节点集合,包括:
[0030]根据所述高阶相似属性列表,确定所述原始属性图中的依赖关系;
[0031]根据所述依赖关系,通过余弦相似度计算方法计算所述第一节点之间的属性相似度;
[0032]根据所述属性相似度的大小确定所述根节点的相似属性节点集合。
[0033]可选地,所述合并所述邻居节点集合和所述相似属性节点集合得到第一属性图,并确定所述第一属性图的最终节点表示,包括:
[0034]合并所述邻居节点集合和所述相似属性节点集合,得到第一属性图;
[0035]将所述第一属性图中的第二节点的结构表示和属性表示进行拼接,进而确定所述根节点的第一邻居节点;
[0036]采用多头注意力机制对所述根节点和所述第一邻居节点进行融合计算,得到最终节点表示。
[0037]可选地,所述根据所述最终节点表示预测源节点与目标节点之间存在链接的概率,包括:
[0038]获取待预测的源节点和目标节点;
[0039]根据所述最终节点表示,确定所述源节点的第一嵌入表示和所述目标节点的第二嵌入表示;
[0040]将所述第一嵌入表示和所述第二嵌入表示拼接成一个向量并输入多层感知器;
[0041]根据所述多层感知器的第一层权重矩阵、第二层权重矩阵、第一层偏置向量和第二层偏置向量确定链接得分;
[0042]根据所述链接得分确定所述源节点与所述目标节点之间存在链接的概率
[0043]本专利技术实施例的另一方面提出了基于拓扑结构和属性信息的链接预测系统,包括:
[0044]第一模块,用于从原始属性图的第一节点中确定一个根节点,根据所述根节点对所述原始属性图进行偏置的随机游走计算,得到第一节点序列集合,根据所述第一节点序列集合,对所述第一节点进行频率筛选,得到邻居节点集合;
[0045]第二模块,用于采用BERT模型学习所述原始属性图的属性表示,得到所述原始属性图中所有所述第一节点的属性向量表示,生成高阶相似属性本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于拓扑结构和属性信息的链接预测方法,其特征在于,包括:从原始属性图的第一节点中确定一个根节点,根据所述根节点对所述原始属性图进行偏置的随机游走计算,得到第一节点序列集合,根据所述第一节点序列集合,对所述第一节点进行频率筛选,得到邻居节点集合;采用BERT模型学习所述原始属性图的属性表示,得到所述原始属性图中所有所述第一节点的属性向量表示,生成高阶相似属性列表;根据所述高阶相似属性列表,计算各个所述第一节点之间的属性相似度,进而确定所述根节点的相似属性节点集合;合并所述邻居节点集合和所述相似属性节点集合得到第一属性图,并确定所述第一属性图的最终节点表示;根据所述最终节点表示预测源节点与目标节点之间存在链接的概率。2.根据权利要求1所述的基于拓扑结构和属性信息的链接预测方法,其特征在于,所述根据所述根节点对所述原始属性图进行偏置的随机游走计算,得到第一节点序列集合,根据所述第一节点序列集合,对所述第一节点进行频率筛选,得到邻居节点集合,包括:根据各个所述第一节点之间的边的权重和各个所述第一节点的影响力,计算一个所述第一节点以另一个所述第一节点作为下一个节点进行游走的游走概率;以所述根节点作为随机游走计算的起始节点,根据所述游走概率进行偏置的随机游走计算,得到第一节点序列集合;其中,所述第一节点序列集合包括若干串第一节点序列;根据所述第一节点在所述第一节点序列集合中出现的频率,确定邻居节点集合。3.根据权利要求2所述的基于拓扑结构和属性信息的链接预测方法,其特征在于,所述游走概率的计算公式为:其中,P(v
t
|v
t
‑1)表示第t

1个所述第一节点v
t
‑1以第t个所述第一节点v
t
作为下一个节点进行游走的游走概率;α(v
t
‑1,v
t
)是v
t
‑1和v
t
之间的转移权重函数,Z是归一化常数,E是所述原始属性图中的边集;所述频率的计算公式为:其中,freq(v,S)表示当前节点v在所述第一节点序列集合S中出现的频率;count(v,S)表示所述当前节点v在所述第一节点序列集合S中出现的次数,表示所有所述第一节点在所述第一节点序列集合S中出现的次数之和;v
r
表示第r个所述第一节点;确定邻居节点集合的函数表达式为:S

=F(|v|v∈S,freq(v,S)>τ|)其中,S

表示邻居节点集合;F是选择邻居节点的函数;v表示所述当前节点;τ是控制所选节点频率的频率阈值。4.根据权利要求1所述的基于拓扑结构和属性信息的链接预测方法,其特征在于,所述采用BERT模型学习所述原始属性图的属性表示,得到所述原始属性图中所有所述第一节点
的属性向量表示,生...

【专利技术属性】
技术研发人员:汤庸李伟生汤非易陈国华袁成哲林荣华常超
申请(专利权)人:广州易飞信息科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1