一种面向大规模异质图的图神经网络采样方法技术

技术编号：35817933 阅读：12 留言：0更新日期：2022-12-03 13:42

本发明专利技术涉及一种面向大规模异质图的图神经网络采样方法，该方法首先加载图数据，并对节点集重新标号；然后初始化每个节点在不同类型下的概率矩阵；根据邻域扩展规则进行不同层的扩展，并根据概率矩阵进行归一化，同时考虑特征完成性，以计算得到采样节点；接下来根据采样节点，构建采样子图，并对缺失特征进行补全；最终得到能够用于后续异质图神经网络训练的采样子图。的采样子图。的采样子图。

全部详细技术资料下载

【技术实现步骤摘要】
一种面向大规模异质图的图神经网络采样方法

[0001]本专利技术提供一种面向大规模异质图的图神经网络采样方法，属于深度学习领域。

技术介绍

[0002]截至2021年12月，我国网民规模达10.32亿，互联网普及率达73.0％，移动互联网呈现全新的发展趋势。而随着互联网的普及，用户数据不断增加，对于用户的行为分析、用户类别区分等问题，有了更高的要求。在追求更佳分类及预测结果的过程中，模型参数量不断上升，训练时间逐渐增加，对于计算资源的需求更高。
[0003]在近年来的研究中，图神经网络已被证明是分析非欧图形数据的有力工具，被广泛应用于搜索、推荐、风险控制等多个领域。由于图神经网络模型的训练过程中，需要计算每层中所有节点的特征表示，但随着图的规模逐渐庞大，计算资源显然无法一次完全加载大规模数据的节点表示数据。对此一些工作提出了不同的采样方案，以获得较多采样子图进行训练。但多数工作的考虑的是同质图中获取子图，从而进行图神经网络的训练。在现实中，多数的数据是异质的，增加了额外的节点类型与关系特征。由于这些异质特征的数量及分布并不均衡，而同质图的采样方法多从度的特征进行考虑，忽略了异质特征，在子图的采样过程中，可能产生某种类型特征的失衡或者完全缺失。因此得到的子图采样结果并不合理，导致模型训练的时间的延长，并可能得到较差结果。因此，在大规模数据下，对异质图神经网络进行更好的采样是一项较为重要的研究内容。
[0004]目前的图神经网络的采样方法多基于重要性采样的策略，为每个节点计算重要性程度表示，而后根据概率进...

【技术保护点】

【技术特征摘要】
1.一种面向大规模异质图的图神经网络采样方法，其特征在于步骤如下：步骤1：加载图数据，初始化节点集；步骤2：初始化每个节点的采样概率的权重矩阵；步骤3：在当前层中，根据步骤2得到的采样概率矩阵，进行归一化并累积；其计算方式为：其中代表累积的归一化概率，τ表示类型，len表示取邻接矩阵的最大长度，φ表示边类型；进行多轮的邻域探索，直到深度达到用户设定的层数；而后依据概率对当前已有节点进行图的重要性采样；步骤4：根据采样节点的点集构建采样图；步骤5：根据采样节点的点集，从原始数据中获取对应节点的特征信息，构建特征矩阵；多数数据集中节点特征并不完全，针对缺失的节点特征信息，进行特征补全；步骤6：结合步骤4
‑
3得到的采样图及步骤5中得到的特征补全信息，即为处理完毕的子图及特征信息。2.根据权利要求1所述的面向大规模异质图的图神经网络采样方法，其特征在于步骤1具体如下：步骤1
‑
1：为所有节点设定唯一标识的ID，自0开始编号；步骤1
‑
2：初始化节点集表示为sample_nodes：根据用户给定的数值batch_size，随机选取数目为batch_size的初始节点，将初始节点按照<ID,节点包含特征数目>的形式，存储到当前层的采样节点结果集sample_nodes中，作为初始化随机采样结果；步骤1
‑
3：统计全图各类型边的数目，以及各类型占全图总边数的比例，以字典形式进行存储，将其称作初始节点比例集sample_dict，记录信息为：<起始节点类型，边类型，终止节点类型，比例数值>。3.根据权利要求2所述的面向大规模异质图的图神经网络采样方法，其特征在于：步骤2具体如下：步骤2
‑
1：计算当前层各类型概率矩阵的采样数步骤2
‑1‑
1：根据步骤1
‑
2中得到的初始节点集sample_nodes，统计该节点集周边一阶邻居所占边的类型数目比例，以字典形式进行存储，将其称作层节点比例集neighbor_dict，记录信息为：<起始节点类型，边类型，终止节点类型，比例数值>；步骤2
‑1‑
2：根据步骤1
‑
3中得到的初始节点比例集sample_dict，以及步骤2
‑1‑
1中得到的层节点比例集neighbor_dict各项记录按照...

【专利技术属性】
技术研发人员：王柱，钱锦麟，安粱义，邹慧琪，石奇松，郭斌，於志文，
申请(专利权)人：西北工业大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人