【技术实现步骤摘要】
一种面向大规模异质图的图神经网络采样方法
[0001]本专利技术提供一种面向大规模异质图的图神经网络采样方法,属于深度学习领域。
技术介绍
[0002]截至2021年12月,我国网民规模达10.32亿,互联网普及率达73.0%,移动互联网呈现全新的发展趋势。而随着互联网的普及,用户数据不断增加,对于用户的行为分析、用户类别区分等问题,有了更高的要求。在追求更佳分类及预测结果的过程中,模型参数量不断上升,训练时间逐渐增加,对于计算资源的需求更高。
[0003]在近年来的研究中,图神经网络已被证明是分析非欧图形数据的有力工具,被广泛应用于搜索、推荐、风险控制等多个领域。由于图神经网络模型的训练过程中,需要计算每层中所有节点的特征表示,但随着图的规模逐渐庞大,计算资源显然无法一次完全加载大规模数据的节点表示数据。对此一些工作提出了不同的采样方案,以获得较多采样子图进行训练。但多数工作的考虑的是同质图中获取子图,从而进行图神经网络的训练。在现实中,多数的数据是异质的,增加了额外的节点类型与关系特征。由于这些异质特征的数量及分布并不均衡,而同质图的采样方法多从度的特征进行考虑,忽略了异质特征,在子图的采样过程中,可能产生某种类型特征的失衡或者完全缺失。因此得到的子图采样结果并不合理,导致模型训练的时间的延长,并可能得到较差结果。因此,在大规模数据下,对异质图神经网络进行更好的采样是一项较为重要的研究内容。
[0004]目前的图神经网络的采样方法多基于重要性采样的策略,为每个节点计算重要性程度表示,而后根据概率进 ...
【技术保护点】
【技术特征摘要】
1.一种面向大规模异质图的图神经网络采样方法,其特征在于步骤如下:步骤1:加载图数据,初始化节点集;步骤2:初始化每个节点的采样概率的权重矩阵;步骤3:在当前层中,根据步骤2得到的采样概率矩阵,进行归一化并累积;其计算方式为:其中代表累积的归一化概率,τ表示类型,len表示取邻接矩阵的最大长度,φ表示边类型;进行多轮的邻域探索,直到深度达到用户设定的层数;而后依据概率对当前已有节点进行图的重要性采样;步骤4:根据采样节点的点集构建采样图;步骤5:根据采样节点的点集,从原始数据中获取对应节点的特征信息,构建特征矩阵;多数数据集中节点特征并不完全,针对缺失的节点特征信息,进行特征补全;步骤6:结合步骤4
‑
3得到的采样图及步骤5中得到的特征补全信息,即为处理完毕的子图及特征信息。2.根据权利要求1所述的面向大规模异质图的图神经网络采样方法,其特征在于步骤1具体如下:步骤1
‑
1:为所有节点设定唯一标识的ID,自0开始编号;步骤1
‑
2:初始化节点集表示为sample_nodes:根据用户给定的数值batch_size,随机选取数目为batch_size的初始节点,将初始节点按照<ID,节点包含特征数目>的形式,存储到当前层的采样节点结果集sample_nodes中,作为初始化随机采样结果;步骤1
‑
3:统计全图各类型边的数目,以及各类型占全图总边数的比例,以字典形式进行存储,将其称作初始节点比例集sample_dict,记录信息为:<起始节点类型,边类型,终止节点类型,比例数值>。3.根据权利要求2所述的面向大规模异质图的图神经网络采样方法,其特征在于:步骤2具体如下:步骤2
‑
1:计算当前层各类型概率矩阵的采样数步骤2
‑1‑
1:根据步骤1
‑
2中得到的初始节点集sample_nodes,统计该节点集周边一阶邻居所占边的类型数目比例,以字典形式进行存储,将其称作层节点比例集neighbor_dict,记录信息为:<起始节点类型,边类型,终止节点类型,比例数值>;步骤2
‑1‑
2:根据步骤1
‑
3中得到的初始节点比例集sample_dict,以及步骤2
‑1‑
1中得到的层节点比例集neighbor_dict各项记录按照...
【专利技术属性】
技术研发人员:王柱,钱锦麟,安粱义,邹慧琪,石奇松,郭斌,於志文,
申请(专利权)人:西北工业大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。