一种加速图神经网络训练的分簇重排采样方法技术

技术编号:46083920 阅读:7 留言:0更新日期:2025-08-12 18:06
本发明专利技术公开了一种加速图神经网络训练的分簇重排采样方法,该方法包括如下步骤:将原图边序列存储为COO格式;根据给定的参数,对图中的节点进行算法聚类;根据得到的聚类结果对边进行重排;计算GPU可用内存,决定缓存节点的数量;将数据加载到GPU内存中;执行GNN后续采样和计算操作。本发明专利技术的目的在于针对目前GNN采样未进行分簇重排预处理的现状,提出了一种加速图神经网络训练的分簇重排采样方法。其核心思想是:在训练前利用先进行聚类,将高相似度节点划分为同一簇,并在簇中对图中边集合进行重排。边的重排顺序是根据连接节点的出度和入度一起决定,存储格式采用COO格式,更大程度上提升了节点的存储效率。由于重排后的边采样子图在结构上具有更好的紧凑性,使得子图构建更高效,GPU内存空间利用率提升,减少每次采样迭代的时间,从而加速GNN训练时间。

【技术实现步骤摘要】

本专利技术主要涉及深度学习中图神经网络应用领域,特别是涉及一种加速图神经网络训练的分簇重排采样方法


技术介绍

1、图神经网络(gnn)是一类新型的深神经网络(dnn),旨在处理图形结构化数据。由于其出色的学习和代表非欧几里得图数据的能力而引起了行业和学术界的广泛关注。许多gnn已被广泛用于各种与图形相关的任务中,例如社交网络分析,自主驾驶和推荐系统。在实践中,许多现实世界图是大规模的,并且与丰富的节点属性(即功能)相关联。gnn的目的是为图中的每个顶点学习低维特征表示(即嵌入),并使用该表示形式与图形相关的任务。由于其高记忆带宽和巨大的并行性,gpu已被广泛用于加速gnn训练。pyg和dgl等图形学习系统提供了优化的gpu实现和方便的编程接口,以增强gnen训练的性能和可用性。

2、gnn的训练阶段通常以迭代式的信息聚合与特征更新为核心,需要反复访问邻居节点并进行向量计算。然而在现实世界中,大规模图数据具有稀疏、异构、幂律分布等典型特征,导致训练过程中出现频繁的随机内存访问与低效的显存利用问题。为缓解这些瓶颈,阿里巴巴实验室提出了aligra本文档来自技高网...

【技术保护点】

1.一种加速图神经网络训练的分簇重排采样方法,其特征在于,所述的加速图神经网络训练的分簇重排采样方法包括如下步骤:

2.如权利要求1所述的加速图神经网络训练的分簇重排采样方法,其特征在于,所述的步骤一将原图边序列存储为COO格式,其具体步骤如下:

3.如权利要求1所述的加速图神经网络训练的分簇重排采样方法,其特征在于,所述的步骤二根据给定的参数,对图中的节点进行算法聚类;根据图的大小及其复杂度设定划分簇重排的数量;同时记录每个节点所属的聚类簇的编号,形成簇编号索引表inx_arr。

4.如权利要求1所述的加速图神经网络训练的分簇重排采样方法,其特征在于...

【技术特征摘要】

1.一种加速图神经网络训练的分簇重排采样方法,其特征在于,所述的加速图神经网络训练的分簇重排采样方法包括如下步骤:

2.如权利要求1所述的加速图神经网络训练的分簇重排采样方法,其特征在于,所述的步骤一将原图边序列存储为coo格式,其具体步骤如下:

3.如权利要求1所述的加速图神经网络训练的分簇重排采样方法,其特征在于,所述的步骤二根据给定的参数,对图中的节点进行算法聚类;根据图的大小及其复杂度设定划分簇重排的数量;同时记录每个节点所属的聚类簇的编号,形成簇编号索引表inx_arr。

4...

【专利技术属性】
技术研发人员:王耀彬伍欢罗溢宋英辰赵天翼雷宇航杨若瑄
申请(专利权)人:西南科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1