【技术实现步骤摘要】
使用加速器混合集的分布式深度学习的自适应批量数据集划分
本公开总体上涉及用于在高性能计算环境中加速数据处理的技术。
技术介绍
各种类型的专用处理器(诸如用于通用计算的图形处理单元(GPU)和其他类型的硬件加速器)已经被开发,以用于加速处理特定类型的工作负载。GPU设备和其他类型的硬件加速器的处理能力目前正被使用在各种应用中,以加速各种
中高度并行化的计算工作负载的处理。特别地,GPU上的通用计算(GPGPU)被用于计算内核的高吞吐量、加速处理,以用于表现出数据并行性的工作负载(例如,基于矢量的计算、基于矩阵的计算等)。例如,GPU用于加速高性能计算(HPC)和嵌入式计算系统中的数据处理,用于各种应用,诸如金融建模、科学研究、机器学习(ML)、深度学习(DL)、数据挖掘、视频数据转码、图像分析、图像识别、病毒模式匹配、增强现实、加密/解密、天气预报、大数据分析和比较、以及具有固有并行性质的计算工作负载的其他应用。在计算节点集群上包括大规模共享计算资源的分布式计算环境通常被用来支持新兴应用,诸如大数据分析和 ...
【技术保护点】
1.一种方法,包括:/n在计算系统的一个或多个服务器节点上提供多个加速器资源以执行分布式深度学习模型训练过程以训练深度学习模型;/n将训练数据集划分成多个小批量数据集;/n根据初始默认作业划分比率将初始小批量数据集划分成多个子批量数据集;/n通过所述加速器资源中的每个加速器资源处理所述初始小批量数据集的所述子批量数据集中对应的一个子批量数据集来执行所述分布式深度学习模型训练过程的初始小批量迭代;以及/n执行迭代批量大小调整过程以迭代地调整作业划分比率,以用于所述分布式深度学习模型训练过程的后续小批量迭代,其中所述迭代批量大小调整过程包括:/n确定针对所述加速器资源中的每个加 ...
【技术特征摘要】 【专利技术属性】
1.一种方法,包括:
在计算系统的一个或多个服务器节点上提供多个加速器资源以执行分布式深度学习模型训练过程以训练深度学习模型;
将训练数据集划分成多个小批量数据集;
根据初始默认作业划分比率将初始小批量数据集划分成多个子批量数据集;
通过所述加速器资源中的每个加速器资源处理所述初始小批量数据集的所述子批量数据集中对应的一个子批量数据集来执行所述分布式深度学习模型训练过程的初始小批量迭代;以及
执行迭代批量大小调整过程以迭代地调整作业划分比率,以用于所述分布式深度学习模型训练过程的后续小批量迭代,其中所述迭代批量大小调整过程包括:
确定针对所述加速器资源中的每个加速器资源的作业完成时间,以完成所述初始小批量数据集的所述子批量数据集中所述对应的一个子批量数据集的处理;
确定由于针对所述初始小批量迭代的所述初始默认作业划分比率导致的所述加速器资源的所述作业完成时间的标准偏差;
将所确定的所述标准偏差与预定的标准偏差阈值进行比较;
以及
响应于所述作业完成时间的所确定的所述标准偏差超过所述预定的标准偏差阈值,调整所述作业划分比率,以用于将下一小批量数据集划分成子批量数据集,以用于所述分布式深度学习模型训练过程的下一小批量迭代。
2.根据权利要求1所述的方法,其中调整所述作业划分比率以用于将所述下一小批量数据集划分成所述多个子批量数据集以用于所述分布式深度学习模型训练过程的所述下一小批量迭代包括:
确定具有针对所述初始小批量迭代的最快作业完成时间的加速器资源;
确定具有针对所述初始小批量迭代的最慢作业完成时间的加速器资源;以及
基于预先指定的作业划分比率调整值,调整被确定为具有所述最快作业完成时间和所述最慢作业完成时间的所述加速器资源之间的作业划分比率。
3.根据权利要求2所述的方法,其中调整被确定为具有所述最快作业完成时间和所述最慢作业完成时间的所述加速器资源之间的所述作业划分比率包括:
将被分配给被确定为具有所述最慢作业完成时间的所述加速器资源的所述子批量数据集的大小减小对应于所述预先指定的作业划分比率调整值的量;以及
将被分配给被确定为具有所述最快作业完成时间的所述加速器资源的所述子批量数据集的大小增加对应于所述预先指定的作业划分比率调整值的量。
4.根据权利要求1所述的方法,其中根据所述初始默认作业划分比率将所述初始小批量数据集划分成所述多个子批量数据集包括:将初所述始小批量数据集划分成多个相同大小的子批量数据集。
5.根据权利要求1所述的方法,其中根据所述初始默认作业划分比率将所述初始小批量数据集划分成所述多个子批量数据集包括:将初所述始小批量数据集划分成多个子批量数据集,其中所述子批量数据集中的至少一些子批量数据集是不同大小的。
6.根据权利要求1所述的方法,其中执行所述迭代批量大小调整过程以迭代地调整所述作业划分比率以用于所述分布式深度学习模型训练过程的后续小批量迭代进一步包括:
针对当前小批量迭代:
根据当前作业划分比率将当前小批量数据集划分成多个子批量数据集;
确定针对所述加速器资源中的每个加速器资源的作业完成时间,以完成所述当前小批量数据集的所述子批量数据集中所述对应的一个子批量数据集的处理;
确定由于针对所述当前小批量迭代的所述当前作业划分比率导致的所述加速器资源的所述作业完成时间的标准偏差;
将所确定的所述标准偏差与所述预定的标准偏差阈值进行比较;
响应于所述作业完成时间的所确定的所述标准偏差超过所述预定的标准偏差阈值,调整所述作业划分比率,以用于将下一小批量数据集划分成多个子批量数据集,以用于所述分布式深度学习模型训练过程的下一小批量迭代;以及
响应于所述作业完成时间的所确定的所述标准偏差未超过所述预定的标准偏差阈值,维持所述当前作业划分比率,以用于将剩余的小批量数据集划分成多个子批量数据集,以用于所述分布式深度学习模型训练过程的剩余的小批量迭代。
7.根据权利要求6所述的方法,进一步包括:
响应于针对所述当前小批量迭代的所述作业完成时间的所确定的所述标准偏差超过所述预定的标准偏差阈值,确定预先指定的迭代阈值是否已经被达到;以及
响应于确定所述预先指定的迭代阈值已经被达到,保持所述当前作业划分比率,以用于将剩余的小批量数据集划分成多个子批量数据集,以用于所述分布式深度学习模型训练过程的剩余的小批量迭代。
8.根据权利要求6所述的方法,其中调整所述作业划分比率以用于将所述下一小批量数据集划分成所述多个子批量数据集以用于所述分布式深度学习模型训练过程的所述下一小批量迭代包括:
确定具有针对所述当前小批量迭代的最快作业完成时间的加速器资源;
确定具有针对所述当前小批量迭代的最慢作业完成时间的加速器资源;以及
基于预先指定的作业划分比率调整值,调整被确定为具有所述最快作业完成时间和所述最慢作业完成时间的所述加速器资源之间的作业划分比率。
9.根据权利要求1所述的方法,其中提供所述多个加速器资源包括:提供图形处理单元(GPU)资源的混合集合。
10.根据权利要求1所述的方法,其中提供所述多个加速器资源包括:提供虚拟加速器资源的混合集合。
11.一种制品,其包括具有一个或多个软件程序的存储的程序代码的处理器可读存储介质,其中所述程序代码由一个或多个处理器可执行以实现方法步骤,所述方法步骤包括:
在计算系统的一个或多个服务器节点上提供多个加速器资源以执行分布式深度学习模型训练过程以训练深度学习模型;
将训练数据集划分成多个小批量数据集;
根据初始默认作业划分比率将初始小批量数据集划分成多个子批量数据集;
通过所述加速器资源中的每个加速器资源处理所述初始小批量数据集的所述子批量数据集中对应的一个子批量数据集来执行所述分布式深度学习模型训练过程的初始小批量迭代;以及
执行迭代批量大小调整过程以迭代地调整作业划分比率,以用于所述分布式深度学习模型训练过程的后续小批量迭代,其中所述迭代批量大小调整过程包括:
确定针对所述加速器资源中的每个加速器资源的作业完成时间,以完成所述初始小批量数据集的所述子批量数据集中所述对应的一个子批量数据集的处理;
确定由于针对所述初始小批量迭代的所述初始默认作业划分比率导致的所述加速器资源的所述作业完成时间的标准偏差;
将所确定的所述标准偏差与预定的标准偏差阈值进行比较;
以及
响应于所述作业完成时间的所确定的所述标准偏差超过所述预定的标准偏差阈值,调整所述作业划分比率,以用于将下一小批量数据集划分成多个子批量数据集,以用于所述分布式深度学习模型训练过程的下一小批量迭代。
12.根据权利要求11所述的制品,其中调整所述作业划分比率以用于将所述下一小批量数据集划分成多个子批量数据集以用于所述分布式深度学习模型训练过程的所述下一小批量迭代包括:
确定具有针对所述初始小批量迭代的最快作业完成时间的加速器资源;
确定具有针对所述初始小批量迭代的最慢作业完成时间的加速器资源;以及
基于预先指定的作业划分比率调整值,调整被确定为具有所述最快作业完成时间和所述最慢作业完成时间的所述加速器资源之间的作业划分比率。
技术研发人员:崔嵬,李三平,王鲲,
申请(专利权)人:伊姆西IP控股有限责任公司,
类型:发明
国别省市:美国;US
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。