分布式训练方法、并行深度学习框架及电子设备技术

技术编号：35707580 阅读：18 留言：0更新日期：2022-11-23 15:05

本发明专利技术提供了一种分布式训练方法、并行深度学习框架及电子设备，该方法应用于并行深度学习框架，包括：获取待计算的计算图，并基于图神经网络将计算图划分为多个计算子图；将每个计算子图发送到不同的计算节点；在每个计算节点对计算子图进行并行计算。本发明专利技术能够提高分布式训练的性能。布式训练的性能。布式训练的性能。

全部详细技术资料下载

【技术实现步骤摘要】
分布式训练方法、并行深度学习框架及电子设备

[0001]本专利技术涉及深度学习
，尤其是涉及一种分布式训练方法、并行深度学习框架及电子设备。

技术介绍

[0002]深度学习算法常常被应用于各行各业中，例如计算机视觉、自然语言处理、自动驾驶等等。深度学习需要使用大规模数据来进行训练以及推理。然而在使用现有的深度学习框架，例如TensorFlow或者PyTorch对大规模数据进行训练或者推理时，现有的框架会产生大量的计算开销从而导致很低的性能以及很高的时间开销；使用分布式算法来对大规模深度学习模型进行训练是另一种处理方式，但是直接在深度学习模型上进行分布式学习将会导致GPU资源利用率非常低以及计算开销以及通信开销很高。因此，使用现有的深度学习框架进行分布式训练，性能较差。

技术实现思路

[0003]有鉴于此，本专利技术的目的在于提供一种分布式训练方法、并行深度学习框架及电子设备，能够提高分布式训练的性能。
[0004]为了实现上述目的，本专利技术实施例采用的技术方案如下：第一方面，本专利技术实施例提供了一种分布式训练方法，该方法应用于并行深度学习框架，包括：获取待计算的计算图，并基于图神经网络将计算图划分为多个计算子图；将每个计算子图发送到不同的计算节点；在每个计算节点对计算子图进行并行计算。
[0005]在一种实施方式中，基于图神经网络将计算图划分为多个计算子图，包括：基于计算图确定多种计算图划分策略；基于图神经网络预测每种计算图划分策略的运行时间；基于计算图划分策略的运行时间确定...

【技术保护点】

【技术特征摘要】
1.一种分布式训练方法，其特征在于，所述方法应用于并行深度学习框架，包括：获取待计算的计算图，并基于图神经网络将所述计算图划分为多个计算子图；将每个所述计算子图发送到不同的计算节点；在每个所述计算节点对所述计算子图进行并行计算。2.根据权利要求1所述的方法，其特征在于，基于图神经网络将所述计算图划分为多个计算子图，包括：基于所述计算图确定多种计算图划分策略；基于所述图神经网络预测每种所述计算图划分策略的运行时间；基于所述计算图划分策略的运行时间确定目标计算图划分策略，并基于所述目标计算图划分策略对所述计算图进行划分，得到多个计算子图。3.根据权利要求2所述的方法，其特征在于，基于所述图神经网络预测每种所述计算图划分策略的运行时间，包括：对于每种所述计算图划分策略，基于所述图神经网络预测所述计算图划分策略对应的每个子图的运行时间；将每个所述子图的运行时间的和，确定为所述计算图划分策略的运行时间。4.根据权利要求2所述的方法，其特征在于，基于所述计算图划分策略的运行时间确定目标计算图划分策略，包括：采用贪心算法或者动态规划算法确定所述计算图划分策略的运行时间的最小运行时间；将所述最小运行时间对应的所述计算图划分策略确定为目标计算图划分策略。5.根据权利要求1所述的方法，其特征在于，所述计算节点包括多个图形处理器GPU；在每个所述计算节点对所述计算子图进行并行计算，包括：将所述计算子...

【专利技术属性】
技术研发人员：宦成颖，卢亿雷，
申请(专利权)人：北京白海科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人