当前位置: 首页 > 专利查询>东北大学专利>正文

一种提高网络嵌入算法可扩展性的方法技术

技术编号:35524162 阅读:16 留言:0更新日期:2022-11-09 14:44
本发明专利技术公开了一种提高网络嵌入算法可扩展性的方法,涉及网络表示学习领域;适用于大规模图网络表示学习,通过图融合、图粗化、图嵌入和嵌入细化操作,提高网络嵌入的可扩展性,并提高嵌入质量,嵌入结果可用于网络角色发现、社会推荐系统和社会影响力预测等图下游任务。通过计算原始图的标签矩阵和原始图与最粗图的映射矩阵来获得最粗图中超节点的标签,并作为以GCN为代表的有监督图嵌入算法的训练标签参与模型训练,解决了现有多层策略无法处理有监督图嵌入算法的问题。采用本方法有效的提高图嵌入算法处理大规模网络的能力,同时在大规模图数据集Friendster上进行实验验证了本方法的可扩展性。方法的可扩展性。方法的可扩展性。

【技术实现步骤摘要】
一种提高网络嵌入算法可扩展性的方法


[0001]本专利技术属于网络表示学习领域,涉及一种提高网络嵌入算法可扩展性的方法。

技术介绍

[0002]近年来,网络嵌入因其广泛适用于网络角色发现、社会推荐系统和社会影响力预测等一系列任务而引起了极大关注。虽然,这些新的嵌入方法往往比传统方法具有显而易见的优势,但是,当前的图嵌入方法在准确性和可扩展性方面仍存在一些缺陷。
[0003]一方面,DeepWalk、node2vec这类基于随机游走的嵌入算法,在不包含节点属性特征的情况下只基于网络的拓扑结构进行网络嵌入,这大大限制了它们的嵌入能力。随后,基于节点嵌入在整个图上平滑的概念,出现了图卷积网络GCN,虽然GCN在每一层都利用拓扑和节点特征信息来简化图卷积,但它可能会在初始节点特征中受到高频噪声的影响,这会影响嵌入质量。
[0004]另一方面,大多数嵌入算法计算成本很高,而且通常是内存密集型的,很难扩展到大型网络数据集(如具有超过100万个节点的网络)。对于几乎所有的网络嵌入算法来说,如何在真实的社交网络、通讯网络或引文网络等大规模网络下应用嵌入算法一直是一个关键问题。图神经网络(GNN)也不例外,扩展图神经网络十分困难,因为在大数据量的情况下,许多核心计算步骤都需要相当长的时间开销,例如GraphSAGE需要共同聚合来自邻域的特征信息,当存在多个叠加的GNN层时,一个节点的最终嵌入向量涉及从其相邻节点计算大量中间嵌入,这不仅会导致节点之间的计算量急剧增加,而且会导致存储中间结果的内存使用率很高。出现这种现象是由于网络并不是常见的欧式数据,每个节点的邻域结构并不相同,因此无法直接应用于批处理,并且当存在上百万个节点和边时,图的拉普拉斯算子也难以计算。可以说可扩展性将决定网络嵌入算法能否应用到真实世界的大型网络中。

技术实现思路

[0005]为解决现有技术存在的问题,本专利技术提出了一种提高网络嵌入算法可扩展性的方法,适用于大规模图网络表示学习,通过图融合、图粗化、图嵌入和嵌入细化操作,提高网络嵌入的可扩展性,并提高嵌入质量,嵌入结果可用于网络角色发现、社会推荐系统和社会影响力预测等图下游任务。
[0006]为实现上述目的,本专利技术所采取的技术方案是:
[0007]一种提高网络嵌入算法可扩展性的方法,包括图融合、图粗化、图嵌入和嵌入细化,包括以下步骤:
[0008]步骤1:对于一个原始图原始图为无向图,将其节点特征矩阵转换为特征图并与原始图的原始拓扑融合,计算A
fusion
=f(A
topo
,X),其中,表示为邻接矩阵,表示为节点特征矩阵,表示加权图的邻接矩阵;
[0009]步骤2:使用混合粗化将原始图粗化为是经过第一次粗化的图,是经过m次粗化后的最终的最粗图;
[0010]步骤3:在最粗图上执行图嵌入方法g(
·
),获得嵌入结果ε;
[0011]步骤4:根据步骤3得出的嵌入结果ε,获得原始图的嵌入ε0。
[0012]所述步骤1,具体包括以下步骤:
[0013]步骤1.1:对于|V|个节点的原始图其邻接矩阵表示为其节点特征矩阵为其中,K表示对应节点特征向量的维度;
[0014]步骤1.2:利用局部谱聚类算法,根据每个节点对的属性向量之间的L2

范数生成k最近邻图,将原始图的初始特征矩阵X转换为节点特征图其中,所述L2

范数为欧式距离;
[0015]步骤1.3:根据原始图中任意两个节点的属性向量之间的余弦相似度给k最近邻图的每条边分配权重,即其中,X
i,:
和X
j,:
是节点i和j的属性向量;
[0016]步骤1.4:组合拓扑图和属性图,通过加权构造融合图,如式(1)所示:
[0017]A
fusion
=A
topo
+βA
feat
ꢀꢀꢀ
(1)
[0018]其中,β用于在融合过程中平衡拓扑结构信息和节点特征信息,代表加权图的邻接矩阵,A
feat
为k最近邻图的节点特征矩阵。
[0019]所述步骤1.2中生成k最近邻图,具体包括以下步骤:
[0020]步骤1.2.1:将随机图信号x作为随机向量,结合图拉普拉斯算子的特征向量u的线性组合表示;
[0021]步骤1.2.2:采用低通图滤波器滤除随机图信号x的高频分量,所述随机图信号x的高频分量为图拉普拉斯算子高特征值对应的特征向量,通过对随机图信号x应用平滑函数,得到一个平滑向量如式(2)所示:
[0022][0023]步骤1.2.3:用高斯

赛德尔迭代求解线性方程组得到t个初始随机向量T=(x(1),...,x
(t)
),其中,代表原始图的拉普拉斯矩阵;
[0024]步骤1.2.4:基于初始随机向量T,将每个节点嵌入到t维空间中,计算节点p和节点q的低维嵌入向量和相似度,若相似度满足相似度阈值,则节点p和节点q为同类节点;
[0025]所述的节点相似度由相邻节点p和q的谱节点亲和度确定,如式(3)所示:
[0026][0027]其中:
[0028][0029]其中,a
p,q
为相邻节点p和q的谱节点亲和度,为节点p第k个低维嵌入向量为节点p第k个低维嵌入向量为节点q第k个低维嵌入向量所述相似度阈值设定为大于60%;
[0030]步骤1.2.5:迭代步骤1.2.1至步骤1.2.4,聚合后的节点集作为一个超节点进行进一步聚合,直至原始图中没有任意两节点间的节点相似度满足相似度阈值,确定最终节点集群,选择每个集群内的前k个最近邻居,构建k最近邻图。
[0031]所述步骤2为图粗化,具体包括以下步骤:
[0032]步骤2.1:输入原始图和设定总粗化层数m,其中,0≤i≤m

1;
[0033]步骤2.2:通过投影矩阵M
i,i+1
保存混合粗化中将多个节点粗化成超节点的粗化信息,其中,
[0034]步骤2.3:通过矩阵运算构建在i+1层的图的邻接矩阵A
i+1
,计算A
i+1
=M
i,i+1T
A
i
M
i,i+1
,其中,M
i,i+1
为从到的映射矩阵,A
i
为的邻接矩阵;
[0035]步骤2.4:计算在i

1层的图的二阶邻居粗化映射矩阵标记矩阵中的节点,初始化用于存储一阶邻居粗化映射的按节点度升序对V
i
‑1进行排序;
[0036]步骤2.5:若v和u没有被标记,且u是v的邻居节点,则找到v的一阶粗化节点u,根据信息交互概率t
i,j
,最终标记节点u和节点v;
[0037]步骤2.6:基于和通过矩阵本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种提高网络嵌入算法可扩展性的方法,其特征在于:包括以下步骤:步骤1:对于一个原始图原始图为无向图,将其节点特征矩阵转换为特征图并与原始图的原始拓扑融合,计算A
fusion
=f(A
topo
,X),其中,表示为邻接矩阵,表示为节点特征矩阵,表示加权图的邻接矩阵;步骤2:使用混合粗化将原始图粗化为粗化为是经过第一次粗化的图,是经过m次粗化后的最终的最粗图;步骤3:在最粗图上执行图嵌入方法g(
·
),获得嵌入结果ε;步骤4:根据步骤3得出的嵌入结果ε,获得原始图的嵌入ε0。2.根据权利要求1所述的提高网络嵌入算法可扩展性的方法,其特征在于:所述步骤1,具体包括以下步骤:步骤1.1:对于|V|个节点的原始图其邻接矩阵表示为其节点特征矩阵为其中,K表示对应节点特征向量的维度;步骤1.2:利用局部谱聚类算法,根据每个节点对的属性向量之间的L2

范数生成k最近邻图,将原始图的初始特征矩阵X转换为节点特征图其中,所述L2

范数为欧式距离;步骤1.3:根据原始图中任意两个节点的属性向量之间的余弦相似度给k最近邻图的每条边分配权重,即其中,X
i,:
和X
j,:
是节点i和j的属性向量;步骤1.4:组合拓扑图和属性图,通过加权构造融合图,如式(1)所示:A
fusion
=A
topo
+βA
feat
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(1)其中,β用于在融合过程中平衡拓扑结构信息和节点特征信息,代表加权图的邻接矩阵,A
feat
为k最近邻图的节点特征矩阵。3.根据权利要求2所述的提高网络嵌入算法可扩展性的方法,其特征在于:所述步骤1.2中生成k最近邻图,具体包括以下步骤:步骤1.2.1:将随机图信号x作为随机向量,结合图拉普拉斯算子的特征向量u的线性组合表示;步骤1.2.2:采用低通图滤波器滤除随机图信号x的高频分量,所述随机图信号x的高频分量为图拉普拉斯算子高特征值对应的特征向量,通过对随机图信号x应用平滑函数,得到一个平滑向量如式(2)所示:步骤1.2.3:用高斯

赛德尔迭代求解线性方程组得到t个初始随机向量T=(x
(1)
,...,x
(t)
),其中,代表原始图的拉普拉斯矩阵;步骤1.2.4:基于初始随机向量T,将每个节点嵌入到t维空间中,计算节点p和节点q的低维嵌入向量和相似度,若相似度满足相似度阈值,则节点p和节点q为同类
节点;步骤1.2.5:迭代步骤1.2.1至步骤1.2.4,聚合后的节点集作为一个超节点进行进一步聚合,直至原始图y0中没有任意两节点间的节点相似度满足相似度阈值,确定最终节点集群,选择每个集群内的前k个最近邻居,构建k最近邻图。4.根据权利要求3所述的提高网络嵌入算法可扩展性的方法,其特征在于:所述的节点相似度由相邻节点p和q的谱节点亲和度确定,如式(3)所示:其中:其中,a
p,q
为相邻节点p和q的谱节点亲和度,为节点p第k个低维嵌入向量为节点p第k个低维嵌入向量为节点q第k个低维嵌入向量5.根据权利要求4所述的提高网络嵌入算法可扩展性的方法,其特征在于:所述相似度阈值设定为大于60%。6.根据权利要求1所述的提高网络嵌入算法可扩展性的方法,其特征在于:所述步骤2为图粗化,具体包括以下步骤:步骤2.1:输入原始图和设定总粗化层数m,其中,0≤i≤m

1;步骤2.2:通过投影矩阵M
i,i+1
保存混合粗化中将多个节点粗化成超节点的粗化信息,其中,步骤2.3:通过矩阵运算构建在i+1层的图的邻接矩阵A
i+1
,计算A
i+1
=M
i,i+1T
A
i
M
i,i+1
,其中,M
i,i+1
为从到的映射矩阵,A
i
为的邻接矩阵;步骤2.4:计算在i

1层的图的二阶邻居粗化映射矩阵标记矩阵中的节点,初始化用于存储一阶邻居粗化映射的按节点度升序对V
i
‑1进行排序;步骤2.5:若v和u没有被标记,且u是v的邻居节点,则找到v的一阶粗化节点u,根据信息交互概率t
i,j
,最终标记节点u和节点v;步骤2.6:基于和通过矩阵运算计算出映射矩阵M
i
‑<...

【专利技术属性】
技术研发人员:陈东明谢飞张陛圣聂铭硕王冬琦
申请(专利权)人:东北大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1