一种针对分布式图神经网络的历史嵌入管理系统技术方案

技术编号：41765009 阅读：11 留言：0更新日期：2024-06-21 21:44

本发明专利技术提供一种针对分布式图神经网络的历史嵌入管理系统，在基于历史嵌入的数据并行图神经网络训练过程中，待训练图中的节点在同一时刻或相近时刻可能被多个不同采样器生成的小批量。所述用于分布式图神经网络的历史嵌入管理系统是一个分布式存储系统，可以做到充分利用不同机器上产生的历史嵌入与机器间的通信带宽,并使训练系统在使用其他机器上产生的历史嵌入与本地逻辑上保持一致。本发明专利技术，通过结合分布式图神经网络的历史嵌入维护算法，设计了分布式图神经网络的历史嵌入管理系统使训练系统，在使用其他机器上产生的历史嵌入与本地逻辑上保持一致，并优化了机器间的通信带宽，提高分布式图神经网络的运行性能。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及分布式深度学习领域，一种针对分布式图神经网络的历史嵌入管理系统。

技术介绍

1、图神经网络(gnn)在分析非欧几里得图数据方面取得了很大的成功，在包括社交网络、推荐系统和知识图谱等各种应用中都取得了良好的效果。然而，在面对大规模的图数据时，现有的硬件技术，特别是显存大小成为了扩大图数据规模的阻碍。现有框架为了处理这种大规模图神经网络，采用了非全图训练方法，将图数据划分为多个子集，逐子集进行训练。进一步地，为了引入更多的计算与存储资源，加快训练速度，减少显存负担，将多个小批量并行地在多台机器上进行分布式训练。但在使用这些方法的训练过程中，在显存与内存间会存在的大量的图特征传输开销以及机器间的网络通信开销，这些为了将小批量加载进训练器而引入的数据加载开销成为了大规模图训练的性能瓶颈。部分工作采用采样的方法以减少数据加载开销，但同时会损失训练精度。因此，如何在保证精度的同时缓解该瓶颈已经成为扩大图神经网络规模的重大挑战。为了解决这一挑战，相关工作提出了使用节点历史嵌入(即中间训练状态)对非当前待训练子集内的依赖节点进行全部替换的方法，有效减小了每次迭代的数据加载量，进而提高了神经网络训练单次迭代的速度。但是，这种方法会带来不可控的训练精度损失，进而严重影响模型收敛速度与效果。由于图结构的各节点中心性具有差异，选择性地使用历史嵌入进行替换，给同时保证数据加载速度与精度带来了机会。在基于历史嵌入的数据并行图神经网络训练过程中，待训练图中的节点在同一时刻或相近时刻可能被多个不同采样器生成的小批量。只在本机上进行历史嵌入替换的选

技术实现思路

1、本专利技术的目的是为了解决现有的基于历史嵌入的分布式图神经网络训练框架中存在的缺点，提出历史嵌入的分布式存储问题解决方案。

2、为了实现上述目的，本专利技术采用了如下技术方案：充分利用不同机器上产生的历史嵌入与机器间的通信带宽,并使训练系统在使用其他机器上产生的历史嵌入与本地逻辑上保持一致。

3、优选的，包括以下步骤：

4、s1：接收并储存来自本地训练器的历史嵌入。接收并储存来自本地训练器的历史嵌入是历史嵌入服务器的基本功能。在训练中，历史嵌入服务器与gpu进行通信，上传到内存中的本轮全部的核心节点的历史嵌入储存。实现这一功能是主要需要考虑内存容量，给历史嵌入的存储条目数量设置合理的上限。

5、s2：访问与获取远程历史嵌入。为了增加历史嵌入选择替换问题的搜索空间，需要能够访问到非本地产生的历史嵌入。由于采样结果的随机性，使得每台机器上产生的图节点的历史嵌入随机的产生于各台机器上。因此，需要一个历史嵌入的位置信息维护方法。

6、s3：历史嵌入的时间戳维护。历史嵌入的时间戳维护是指，为了有效更新历史嵌入，每一条历史嵌入都需要有一个时间戳。

7、s4：历史嵌入的更新策略。历史嵌入服务器需要保证在其中存储的历史嵌入是可用的，保证其质量满足替换需求。

8、以上过程就是这个系统的整个训练流程。对比直接使用采样子图进行数据加载的方案，这个方案可以极大减小数据传输量，进而减少传输时间，同时尽可能保证这个小批量的前向计算精度，实现端到端的训练性能提升。

9、优选的，所述步骤s1中，指定的顶点选择数量为1000，顶点选择方法为多层全邻居采样。

10、优选的，所述步骤s2中，使用的历史嵌入选择算法为基于精度损失排名的历史嵌入算法。

11、优选的，所述步骤s4中，使用的模型是图卷积网络，即gcn模型。相关参数设置，图卷积网络层数为3层，隐藏特征设置为256。

12、优选的，所述步骤s5中，微调阶段继承预训练得到的所有超参数。

13、优选的，所述步骤s5中，深度学习模型采用优化器adam，学习率为1×e-4。每次迭代，反向传播时，梯度下降以此优化模型。

14、与现有技术相比，本专利技术的优点和积极效果在于，

15、本专利技术中，本优化方法不会使用额外的显存，进而不会提高神经网络训练的硬件要求。同时相比于使用舍弃部分图信息以减少节点依赖的方法，本方法引入的精度损失更小。最终，数据加载速度接近于完全历史嵌入训练，整体收敛精度接近于原始数据训练，其最高可以在单项数据集中提高50％的性能，平均约4％，并且保障精度损失在15％以内。

本文档来自技高网...

【技术保护点】

1.一种针对分布式图神经网络的历史嵌入管理系统，用于减少潜在的替换机会浪费与信息浪费。其特征在于：充分利用不同机器上产生的历史嵌入与机器间的通信带宽,并使训练系统在使用其他机器上产生的历史嵌入与本地逻辑上保持一致。

2.根据权利要求1所述的一种历史嵌入管理方法，其特征在于：包括以下步骤：

3.根据权利要求2所述的一种新的历史嵌入管理系统，其特征在于：所述步骤S1中，在训练中，历史嵌入服务器与GPU进行通信，上传到内存中的本轮全部的核心节点的历史嵌入储存。

4.根据权利要求2所述的一种新的历史嵌入管理系统，其特征在于：所述步骤S2中，记录产生历史嵌入的位置信息，并进行位置信息的主动交换，然后在收集历史嵌入时对其进行跨节点通信访问。

5.根据权利要求2所述的一种新的历史嵌入管理系统，其特征在于：所述步骤S3中，使用轮号作为时间戳，并使用历史嵌入质量作为其时间戳的辅助维护变量。

6.根据权利要求2所述的一种新的历史嵌入管理系统，其特征在于：所述步骤S4中，引入了触发式的历史嵌入服务器同步，获得远程历史嵌入的向量值，使它转化为本

...

【技术特征摘要】

2.根据权利要求1所述的一种历史嵌入管理方法，其特征在于：包括以下步骤：

3.根据权利要求2所述的一种新的历史嵌入管理系统，其特征在于：所述步骤s1中，在训练中，历史嵌入服务器与gpu进行通信，上传到内存中的本轮全部的核心节点的历史嵌入储存。

4.根据权利要求2所述的一种新的历史嵌入管理...

【专利技术属性】
技术研发人员：李洪亮，李想，韩俊泽，徐海啸，徐哲文，
申请(专利权)人：吉林大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人