一种图神经网络训练的方法、装置及系统制造方法及图纸

技术编号：32862275 阅读：26 留言：0更新日期：2022-04-02 11:43

本申请公开了一种图神经网络训练的方法，应用于分布式系统或并行系统，该方法包括：中心装置获取第一关系图，根据第一关系图确定N个不同的第二关系图，第二关系图为第一关系图的子图，其中，任意两个第二关系图中各自所包括的训练顶点的数量的差值小于预设阈值，且第二关系图中包含训练顶点的邻居顶点；向N个训练执行装置发送N个第二关系图的信息，进而执行对图神经网络的训练。本申请方案中，不仅各第二关系图中训练顶点的数量基本相当，而且，训练顶点及其对应的邻居顶点基本被划分到同一个第二关系图中，这样，既做到了各训练执行装置的计算均衡，也减少了跨训练执行装置的网络开销，提高了图神经网络的训练效率。提高了图神经网络的训练效率。提高了图神经网络的训练效率。

全部详细技术资料下载

【技术实现步骤摘要】
一种图神经网络训练的方法、装置及系统

[0001]本申请涉及计算机
，具体涉及一种图神经网络训练的方法、装置及系统。

技术介绍

[0002]真实世界的数据常常以图的方式进行组织，其中的实体联系蕴含了很强的因果关系，这些具备因果关系的图可以统称为关系图，如：社交网络图、用户商品关系图、知识图谱和蛋白质结构图等。这些关系图的数据会应用到对需要图神经网络(graph neural networks，GNN)的训练中，这样，训练好的GNN就可以用于推理该类型关系图中的因果关系，例如：某类型的用户倾向性的商品或某类型的商品的适用人群等。GNN是一种运行在图结构化数据上的多层神经网络，其中每一层神经网络，以顶点为中心进行聚合和更新。聚合：通过收集邻居顶点的特征信息，并采用如：累加和平均等的聚合操作获得一个融合邻居顶点信息的聚合信息。更新：将聚合信息通过如全连接层产生新的输出，作为下一层图神经网络的特征信息的输入。
[0003]现实世界中，很多场景中的关系图非常大，经常一个关系图由上亿个顶点和超过上千亿条边组成，面向这种大规...

【技术保护点】

【技术特征摘要】
1.一种图神经网络训练的方法，其特征在于，包括：获取用于图神经网络训练的第一关系图，所述第一关系图包括多个顶点和多条边，其中，每条边用于连接两个顶点，所述多个顶点中包括用于训练所述图神经网络的训练顶点；根据所述第一关系图确定N个不同的第二关系图，所述第二关系图为所述第一关系图的子图，所述N为训练执行装置的数量，所述N为大于1的整数；其中，任意两个第二关系图中各自所包括的所述训练顶点的数量的差值小于预设阈值，且所述第二关系图中包含所述训练顶点的邻居顶点；向所述N个训练执行装置发送N个第二关系图的信息，所述N个训练执行装置与所述N个第二关系图一一对应，所述N个第二关系图分别用于对应的训练执行装置训练所述图神经网络。2.根据权利要求1所述的方法，其特征在于，所述根据所述第一关系图确定N个不同的第二关系图，包括：根据目标顶点对应N个分区中每个分区的评估分数，将所述目标顶点，以及所述目标顶点的多个邻居顶点划分到所述目标顶点的评估分数最高的分区中，所述目标顶点为所述第一关系图中的一个训练顶点，所述评估分数用于指示所述目标顶点与在分配所述目标顶点之前所述每个分区中已分配的顶点的相关度，其中，所述N个分区中每个分区对应一个训练执行装置，在所述第一关系图中的每个训练顶点都被分配后，所述每个分区中的顶点被包括在对应该分区的训练执行装置的第二关系图内。3.根据权利要求2所述的方法，其特征在于，所述方法还包括：根据跳数信息获取所述目标顶点的所述多个邻居顶点，所述跳数信息指示从所述目标顶点到所述多个邻居顶点中每个顶点的路径中边的最大数量。4.根据权利要求2或3所述的方法，其特征在于，所述目标顶点在第一分区的评估分数与所述第一分区的重合数正相关，所述第一分区的重合数用于指示所述多个邻居顶点和所述第一分区中已分配的顶点重合的数量，所述第一分区为所述N个分区中的任意一个。5.根据权利要求4所述的方法，其特征在于，所述第一分区的评估分数为所述第一分区的重合数与所述第一分区的均衡比的乘积，所述均衡比用于指示所述目标顶点划分到所述第一分区的概率，所述均衡比为第一差值与所述第一分区加入多个邻居顶点后的顶点数量的比值，所述第一差值为预先配置的所述第一分区的顶点数量上限值与所述...

【专利技术属性】
技术研发人员：林郅琦，李诚，王云鹏，
申请(专利权)人：中国科学技术大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人