一种面向大规模异质图的图神经网络采样方法技术

技术编号:35817933 阅读:12 留言:0更新日期:2022-12-03 13:42
本发明专利技术涉及一种面向大规模异质图的图神经网络采样方法,该方法首先加载图数据,并对节点集重新标号;然后初始化每个节点在不同类型下的概率矩阵;根据邻域扩展规则进行不同层的扩展,并根据概率矩阵进行归一化,同时考虑特征完成性,以计算得到采样节点;接下来根据采样节点,构建采样子图,并对缺失特征进行补全;最终得到能够用于后续异质图神经网络训练的采样子图。的采样子图。的采样子图。

【技术实现步骤摘要】
一种面向大规模异质图的图神经网络采样方法


[0001]本专利技术提供一种面向大规模异质图的图神经网络采样方法,属于深度学习领域。

技术介绍

[0002]截至2021年12月,我国网民规模达10.32亿,互联网普及率达73.0%,移动互联网呈现全新的发展趋势。而随着互联网的普及,用户数据不断增加,对于用户的行为分析、用户类别区分等问题,有了更高的要求。在追求更佳分类及预测结果的过程中,模型参数量不断上升,训练时间逐渐增加,对于计算资源的需求更高。
[0003]在近年来的研究中,图神经网络已被证明是分析非欧图形数据的有力工具,被广泛应用于搜索、推荐、风险控制等多个领域。由于图神经网络模型的训练过程中,需要计算每层中所有节点的特征表示,但随着图的规模逐渐庞大,计算资源显然无法一次完全加载大规模数据的节点表示数据。对此一些工作提出了不同的采样方案,以获得较多采样子图进行训练。但多数工作的考虑的是同质图中获取子图,从而进行图神经网络的训练。在现实中,多数的数据是异质的,增加了额外的节点类型与关系特征。由于这些异质特征的数量及分布并不均衡,而同质图的采样方法多从度的特征进行考虑,忽略了异质特征,在子图的采样过程中,可能产生某种类型特征的失衡或者完全缺失。因此得到的子图采样结果并不合理,导致模型训练的时间的延长,并可能得到较差结果。因此,在大规模数据下,对异质图神经网络进行更好的采样是一项较为重要的研究内容。
[0004]目前的图神经网络的采样方法多基于重要性采样的策略,为每个节点计算重要性程度表示,而后根据概率进行重要性抽样。大多数工作基于采样邻居节点的方法,并利用多类型的聚合函数提高模型的表达能力。较为典型的有:节点采样,通过模拟从目标节点开始的随机游走,以达到子图节点子集的方案;层采样,在不同层的领域探索中保留少量节点用于聚合以控制扩展因子,进行重要性抽样;子图采样,采样多个子图,以图聚类方式进行采样,生成子图。
[0005]上述工作均基于同质图的假设条件下进行,针对异质图的采样方法较少,已知的异质图采样方法有HG Sampling,其主要是想是为每种类型设置单独的权重,并对每种类型进行分别采样相同数量节点以进行子图的获取。这种方式在低采样层数、低batch_size下表现不佳。方法希望各类型的节点数量都大致相同,但忽略了采样子图与现实中比例的差异性,使得在邻域扩展层数较浅时,抽样结果得到子图在结构上与全图相比具备一定差异。在现实分布数据集上,忽略了现实数据间不同类型节点间的相互影响,需要迭代更多的次数达到相似的精度,采样过程中考虑的单纯的同类度信息,各个类型间的关系存在一定的孤立性。因此,提出了一种在大规模数据下,兼顾全局结构特征,且考虑不同类型间相互作用,具备一定数据特征补全特性的异质图采样方法。

技术实现思路

[0006]要解决的技术问题
[0007]为了避免现有技术的不足之处,本专利技术提供一种面向大规模异质图的图神经网络采样方法。
[0008]技术方案
[0009]一种面向大规模异质图的图神经网络采样方法,其特征在于步骤如下:
[0010]步骤1:加载图数据,初始化节点集;
[0011]步骤2:初始化每个节点的采样概率的权重矩阵;
[0012]步骤3:在当前层中,根据步骤2得到的采样概率矩阵,进行归一化并累积;其计算方式为:其中代表累积的归一化概率,τ表示类型,len表示取邻接矩阵的最大长度,φ表示边类型;进行多轮的邻域探索,直到深度达到用户设定的层数;而后依据概率对当前已有节点进行图的重要性采样;
[0013]步骤4:根据采样节点的点集构建采样图;
[0014]步骤5:根据采样节点的点集,从原始数据中获取对应节点的特征信息,构建特征矩阵;多数数据集中节点特征并不完全,针对缺失的节点特征信息,进行特征补全;
[0015]步骤6:结合步骤4

3得到的采样图及步骤5中得到的特征补全信息,即为处理完毕的子图及特征信息。
[0016]本专利技术进一步的技术方案:步骤1具体如下:
[0017]步骤1

1:为所有节点设定唯一标识的ID,自0开始编号;
[0018]步骤1

2:初始化节点集表示为sample_nodes:根据用户给定的数值batch_size,随机选取数目为batch_size的初始节点,将初始节点按照<ID,节点包含特征数目>的形式,存储到当前层的采样节点结果集sample_nodes中,作为初始化随机采样结果;
[0019]步骤1

3:统计全图各类型边的数目,以及各类型占全图总边数的比例,以字典形式进行存储,将其称作初始节点比例集sample_dict,记录信息为:<起始节点类型,边类型,终止节点类型,比例数值>。
[0020]本专利技术进一步的技术方案:步骤2具体如下:
[0021]步骤2

1:计算当前层各类型概率矩阵的采样数
[0022]步骤2
‑1‑
1:根据步骤1

2中得到的初始节点集sample_nodes,统计该节点集周边一阶邻居所占边的类型数目比例,以字典形式进行存储,将其称作层节点比例集neighbor_dict,记录信息为:<起始节点类型,边类型,终止节点类型,比例数值>;
[0023]步骤2
‑1‑
2:根据步骤1

3中得到的初始节点比例集sample_dict,以及步骤2
‑1‑
1中得到的层节点比例集neighbor_dict各项记录按照<起始节点类型,边类型,终止节点类型>的对应比例数值做算数平均,得到各类型边在该层应采样的数目;在低阶采样中,使用均衡的方式,各类型采样比例能够更好的接近原图真实情况,能够对类型比例进行改善,下层模型训练能够更快的达到收敛目标;
[0024]步骤2

2:对各节点的邻居按照类别分别处理,根据节点的度信息决定权重,计算各节点类型下的概率矩阵;对各类型边进行分别处理,对各个节点进行概率评估,评估方式以度中心度依次进行累积,累积方式为周边邻居个数的倒数。
[0025]专利技术进一步的技术方案:步骤3具体如下:
[0026]步骤3

1:对步骤2

2得到的各节点类型下概率矩阵做归一化;
[0027]步骤3

2:对各个节点得到的归一化概率与节点特征数进行加权平均,通过以均数的加权估计进行偏差减小,得到新的各个节点的采样概率;
[0028]步骤3

3:根据步骤3

2得到的各节点采样概率,以及各类型采样数目进行采样;并将根据当前得到的点集,进行采样概率矩阵的更新,矩阵更新方式为依次累加,即其中,n本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种面向大规模异质图的图神经网络采样方法,其特征在于步骤如下:步骤1:加载图数据,初始化节点集;步骤2:初始化每个节点的采样概率的权重矩阵;步骤3:在当前层中,根据步骤2得到的采样概率矩阵,进行归一化并累积;其计算方式为:其中代表累积的归一化概率,τ表示类型,len表示取邻接矩阵的最大长度,φ表示边类型;进行多轮的邻域探索,直到深度达到用户设定的层数;而后依据概率对当前已有节点进行图的重要性采样;步骤4:根据采样节点的点集构建采样图;步骤5:根据采样节点的点集,从原始数据中获取对应节点的特征信息,构建特征矩阵;多数数据集中节点特征并不完全,针对缺失的节点特征信息,进行特征补全;步骤6:结合步骤4

3得到的采样图及步骤5中得到的特征补全信息,即为处理完毕的子图及特征信息。2.根据权利要求1所述的面向大规模异质图的图神经网络采样方法,其特征在于步骤1具体如下:步骤1

1:为所有节点设定唯一标识的ID,自0开始编号;步骤1

2:初始化节点集表示为sample_nodes:根据用户给定的数值batch_size,随机选取数目为batch_size的初始节点,将初始节点按照<ID,节点包含特征数目>的形式,存储到当前层的采样节点结果集sample_nodes中,作为初始化随机采样结果;步骤1

3:统计全图各类型边的数目,以及各类型占全图总边数的比例,以字典形式进行存储,将其称作初始节点比例集sample_dict,记录信息为:<起始节点类型,边类型,终止节点类型,比例数值>。3.根据权利要求2所述的面向大规模异质图的图神经网络采样方法,其特征在于:步骤2具体如下:步骤2

1:计算当前层各类型概率矩阵的采样数步骤2
‑1‑
1:根据步骤1

2中得到的初始节点集sample_nodes,统计该节点集周边一阶邻居所占边的类型数目比例,以字典形式进行存储,将其称作层节点比例集neighbor_dict,记录信息为:<起始节点类型,边类型,终止节点类型,比例数值>;步骤2
‑1‑
2:根据步骤1

3中得到的初始节点比例集sample_dict,以及步骤2
‑1‑
1中得到的层节点比例集neighbor_dict各项记录按照...

【专利技术属性】
技术研发人员:王柱钱锦麟安粱义邹慧琪石奇松郭斌於志文
申请(专利权)人:西北工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1