【技术实现步骤摘要】
一种图神经网络数据缓存方法、装置、设备及存储介质
[0001]本专利技术涉及数据缓存
,更具体地说,涉及一种图神经网络数据缓存方法、装置、设备及存储介质。
技术介绍
[0002]图数据作为一种非结构化的数据,已经广泛应用到推荐系统、社交网络、知识图谱等领域中,图神经网络已经成为处理图数据的有力工具。目前图神经网络模型训练有一个关键问题是从主存储器到GPU(graphics processing unit,图形处理器)显存的冗余数据加载。由于现实世界图数据中顶点的依赖性,图数据中不同训练顶点可能共享许多公共的邻居顶点。比如在引文网络图中,每个顶点是一篇论文,边表示论文之间的引用关系,一篇论文可以引用多篇文章,同一篇论文也可能被多个不同的论文引用,这种共同邻居顶点是因为图中的一个顶点很可能连接到多个训练顶点,使得扩展不同训练顶点的邻域时可能会重复采样部分顶点到样本批次中。这种不同训练批次之间的数据重叠模式加重了数据加载的负担。因此,对于每个训练迭代,加载的顶点数目会是原始图数据集顶点数目的几十倍。由于GPU只能在数据加载后 ...
【技术保护点】
【技术特征摘要】
1.一种图神经网络数据缓存方法,其特征在于,包括:通过图聚类算法对图数据集进行聚类,确定各顶点的聚类信息;在每个聚类中确定训练顶点,并根据每个训练顶点的聚类信息向不同图形处理器分配对应的目标训练顶点;对不同图形处理器的目标训练顶点进行邻域扩展,确定与每个图形处理器对应的邻域顶点;其中,邻域扩展的扩展层数与图神经网络层数一致;从主存储器中获取与每个图形处理器对应的邻域顶点的特征数据,并将所述特征数据缓存至对应的图形处理器的显存。2.根据权利要求1所述的图神经网络数据缓存方法,其特征在于,所述在每个聚类中确定训练顶点,包括:获取顶点映射表;所述顶点映射表中记录了所述图数据集中聚类前各顶点与聚类后各顶点的对应关系;根据所述图数据集中聚类前各顶点的顶点类型以及所述顶点映射表,在每个聚类中确定训练顶点。3.根据权利要求2所述的图神经网络数据缓存方法,其特征在于,所述根据每个训练顶点的聚类信息向不同图形处理器分配对应的目标训练顶点,包括:根据图形处理器的总数量以及每个训练顶点的聚类信息,将属于不同聚类的训练顶点平均分配至不同图形处理器,确定每个图形处理器对应的目标训练顶点;其中,属于同一聚类的训练顶点均分配至同一图形处理器。4.根据权利要求1所述的图神经网络数据缓存方法,其特征在于,所述对不同图形处理器的目标训练顶点进行邻域扩展,确定与每个图形处理器对应的邻域顶点,包括:确定图神经网络的层数;根据所述层数对不同图形处理器的目标训练顶点进行邻域扩展,以确定与计算相关的每个图形处理器的邻域顶点。5.根据权利要求1至4中任意一项所述的图神经网络数据缓存方法,其特征在于,所述将所述特征数据缓存至对应的图形处理器的显存之后,还包括:通过训练进程获取每个训练批次中的顶点编号;根据所述顶点编号及全局索引表确定与每个顶点编号对应的存储位置;利用所述存储位置从图形处理器的显存中获取对应的目标特...
【专利技术属性】
技术研发人员:李东升,张立志,赖志权,刘锋,黄震,乔林波,梅松竹,牛新,
申请(专利权)人:中国人民解放军国防科技大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。