模型训练方法及计算系统技术方案

技术编号：30823571 阅读：11 留言：0更新日期：2021-11-18 12:13

本申请实施例提供一种模型训练方法及计算系统。在本申请实施例中，将数据量较小的图拓扑结构数据存放到采样用并行处理单元，而数据量较大的图顶点特征数据存放到处理单元的内存中。利用并行处理单元的高速计算性能对图拓扑结构数据进行采样，提高了图采样效率，处理单元可基于采样用并行处理单元采样的子图的拓扑结构数据中的顶点标识，从内存存储的图顶点特征数据中获取子图的顶点特征数据；训练用并行处理单元可利用子图的拓扑结构数据和顶点特征数据进行图神经网络训练。对于训练用并行处理单元来说，图采样效率提高，可降低训练用并行处理单元等待采样结果的时间，有助于提高训练用并行处理单元利用率。提高训练用并行处理单元利用率。提高训练用并行处理单元利用率。

全部详细技术资料下载

【技术实现步骤摘要】
模型训练方法及计算系统

[0001]本申请涉及计算机
，尤其涉及一种模型训练方法及计算系统。

技术介绍

[0002]图神经网络是一种将图结构数据和深度学习技术相结合的神经网络模型，在点分类以及用于个性化推荐的边预测等领域应用广泛。
[0003]在实际中，用于图神经网络训练的图数据的规模比较大，一般用于图神经网络训练的硬件设备包括通用处理单元和并行处理单元。通用处理单元一般是进行常规串行处理操作的计算单元，例如，中央处理器CPU。并行处理单元常具有较大的并行处理能力，一般用于处理大规模数据流，例如，图形计算或图计算。并行处理单元的示例可以是图形处理单元，人工智能加速单元，等具有高速并行计算能力的计算单元，并广泛应用于深度学习模型训练中。
[0004]本案的研究者注意到，现有图神经网络模型训练技术中，考虑到并行处理单元的内存相对较小但并行计算能力强而通用处理单元的内存相对较大但并行计算能力相对弱，一般采用通用处理单元对规模大的原始图进行采样得到规模较小的子图；采用并行处理单元对子图进行训练。但由于通用处理单元的并行计算性能比并行计算单元弱，导致并行计算单元的大部分时间在等待通用处理单元的采样计算结果的空闲状态，并行计算单元利用率较低。

技术实现思路

[0005]本申请的多个方面提供一种模型训练方法及计算系统，用以提高图采样效率，有助于提高并行处理单元利用率。
[0006]本申请实施例提供一种计算系统，包括：中央处理器处理单元和多个图形处理器并行处理单元；所述处理单元与所述多个...

【技术保护点】

【技术特征摘要】
1.一种计算系统，其特征在于，包括：处理单元和多个并行处理单元；所述处理单元与所述多个并行处理单元之间通信连接；所述处理单元，用于将获取的图数据集存储至所述处理单元的内存中，并控制所述多个并行处理单元中的第一并行处理单元从所述处理单元的内存中读取所述图数据集中的图拓扑结构数据；所述第一并行处理单元，用于对所述图拓扑结构数据进行采样，得到子图的拓扑结构数据；所述处理单元，还用于控制所述多个并行处理单元中的第二并行处理单元获取所述子图的拓扑结构数据；以及，基于所述子图的拓扑结构数据中的顶点标识，从所述图数据集中的顶点特征数据中获取所述子图的顶点特征数据；并控制所述第二并行处理单元从所述处理单元的内存中读取所述子图的顶点特征数据；所述第二并行处理单元，用于以所述子图的拓扑结构数据和顶点特征数据为样本，进行图神经网络训练。2.根据权利要求1所述的系统，其特征在于，所述处理单元具体用于：从所述第一并行处理单元中读取所述子图的拓扑结构数据，并存储至所述处理单元的内存中；控制所述第二并行处理单元从所述处理单元的内存中读取所述子图的拓扑结构数据。3.根据权利要求1所述的系统，其特征在于，所述多个并行处理单元之间通过通信连接；所述处理单元，具体用于：控制所述第二并行处理单元从所述第一并行处理单元中读取所述子图的拓扑结构数据。4.根据权利要求1
‑
3任一项所述的系统，其特征在于，所述处理单元还用于：在所述第一并行处理单元从所述处理单元的内存中读取所述图拓扑结构数据之后，释放与所述图拓扑结构数据对应的处理单元的内存区域。5.根据权利要求4所述的系统，其特征在于，所述处理单元为至少两个，并且其中：所述至少两个处理单元中的第一处理单元执行上述数据控制操作，第二处理单元执行基于所述子图的拓扑结构数据中的顶点标识从所述图数据集中的顶点特征数据中获取所述子图的顶点特征数据的计算操作。6.一种模型训练方法，其特征在于，包括：将获取的图数据集存储至处理单元的内存中；控制第一并行处理单元从处理单元的内存中读取图数据集中的图拓扑结构数据；控制所述第一并行处理单元对所述图拓扑结构数据采样，得到子图的拓扑结构数据；基于所述子图的拓扑结构数据中的顶点标识，从所述处理单元的内存存储的图数据集中的顶点特征数据中获取所述子图的顶点特征数据；控制第二并行处理单元获取所述子图的拓扑结构数据和顶点特征数据；控制所述第二并行处理单元以所述子图的拓扑结构数据和顶点特征数据为样本进行图神经网络训练。7.根据权利要求6所述的方法，其特征在于，包括：启动多个线程；利用所述多个线程循环执行以下步骤，直至所述图神经网络满足设定
的条件：利用第一线程控制所述第一并行处理单元对所述图拓扑结构...

【专利技术属性】
技术研发人员：杨健邦，陈榕，王磊，尹强，于文渊，周靖人，
申请(专利权)人：阿里巴巴达摩院杭州科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人