一种用于分布式训练同步阶段的自动优化方法技术

技术编号：34617308 阅读：20 留言：0更新日期：2022-08-20 09:23

本发明专利技术提供一种用于分布式训练同步阶段的自动优化方法，所述方法包括在每个回合执行如下步骤：S1、获取在当前回合网络状态满足预设的系统要求的节点组成激活节点列表；S2、基于激活节点列表中的所有节点构建自动优化策略以从激活节点列表中选出使分布式系统效率最大的激活节点组合作为自动优化策略，并将自动优化策略对应的节点加入分布式训练。其中，所述激活节点列表包括当前回合已存在的激活节点列表以及当前回合新加入的新增激活节点列表，其中，所述当前回合新加入的新增激活节点列表是在当前回合网络状态满足系统要求的非激活节点组成的列表，所述非激活节点是指当前回合之前未加入分布式训练的节点。前回合之前未加入分布式训练的节点。前回合之前未加入分布式训练的节点。

全部详细技术资料下载

【技术实现步骤摘要】
一种用于分布式训练同步阶段的自动优化方法

[0001]本专利技术涉及人工智能领域，具体来说，涉及应用于深度神经网络的分布式训练系统领域，更具体地说，涉及深度神经网络分布式训练过程中的同步阶段，即一种用于分布式训练同步阶段的自动优化方法。

技术介绍

[0002]随着科学技术技术的进步，现在信息的收集变得越来越容易。通过挖掘有用的信息，深度神经网络(Deep Neural Network，DNN)可以帮助人们完成日常生活中的各种任务，如图像识别、语言翻译、个人推荐等。然而，数据量的极速增加使其分析变得非常复杂和耗时，例如，微软的COCO数据集的大小达到25GB，包含330K图片，而ImageNet
‑
22K的大小达到1TB，包含超过15M图片，对这些数据集进行分析可能需要几天甚至几周的时间。此外，深度神经网络(DNN)的模型大小也随着任务难度的增加而增加，如ResNet
‑
50(98MB)和VGG
‑
16(525MB)。由于上述两个原因，DNN的训练非常耗时，由此，人们提出了针对深度神经网络的分布式训练方法。分布式训练通过并行化策略为减少DNN的训练时间提供了一种有效的解决方案。
[0003]在分布式训练中，有两种模式，分别为模型并行和数据并行。模型并行模式是指一个DNN模型被划分为多个部分，分布式系统中不同的节点分布负责计算各个部分，但由于其划分工作复杂，在通信开销大的系统中效率较低，在实际应用中很少使用。如今，数据并行模式越来越普遍，数据并行模式包括计算阶...

【技术保护点】

【技术特征摘要】
1.一种用于分布式训练同步阶段的自动优化方法，其特征在于，所述方法包括在分布式训练的每个回合执行如下步骤：S1、获取在当前回合网络状态满足预设的系统要求的节点组成激活节点列表；S2、基于激活节点列表中的所有节点构建自动优化策略以从激活节点列表中选出使分布式系统效率最大的激活节点组合作为自动优化策略，并将自动优化策略对应的节点加入分布式训练。2.根据权利要求1所述的方法，其特征在于，所述激活节点列表包括当前回合已存在的激活节点列表以及当前回合新加入的新增激活节点列表，其中，所述当前回合新加入的新增激活节点列表是在当前回合网络状态满足系统要求的非激活节点组成的列表，所述非激活节点是指当前回合之前未加入分布式训练的节点。3.根据权利要求2所述的方法，其特征在于，通过如下步骤判断是否需要将非激活节点加入新增激活节点列表：对所有非激活节点进行网络状态统计，所述网络状态指的是在每个回合中非激活节点的网络速度；将在当前回合之前的连续达到第一预设阈值个数的回合中网络速度均大于或等于预设的网络速度阈值的非激活节点加入新增激活节点列表。4.根据权利要求3所述的方法，其特征在于，所述第一预设阈值为5。5.根据权利要求1所述的方法，其特征在于，所述步骤S2包括：S21、将激活节点列表中的所有节点按照其对应网络状态由差到好进行升序排序；S22、按照步骤S21的排序从前往后以步长为1依次删除节点并采用剩余节点构建自动优化策略以获得多个自动优化策略；S23、计算每个自动优化...

【专利技术属性】
技术研发人员：林海阳，严明玉，邹沫，王铎，李文明，叶笑春，唐志敏，范东睿，
申请(专利权)人：中国科学院计算技术研究所，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人