分布式运算系统以及深度学习模型的模型训练优化方法技术方案

技术编号:41139905 阅读:25 留言:0更新日期:2024-04-30 18:10
本公开提供一种分布式运算系统以及深度学习模型的模型训练优化方法。分布式运算系统包括多个运算单元以及处理器。处理器耦接多个运算单元,并且用以执行模拟器以及优化器。模拟器模拟多个运算单元执行深度学习模型的分布式训练,并且计算深度学习模型进行分布式训练时分别在多个运算单元的每一个的总内存占用信息。优化器调用模拟器,以根据目标函数以及限制条件来调整分布式训练的模型配置参数。分布式训练包括流水线模型并行以及重计算。本公开的分布式运算系统以及深度学习模型的模型训练优化方法可有效提高内存的利用率以及提高混合并行训练的效率。

【技术实现步骤摘要】

本公开涉及一种分布式运算系统以及深度学习模型的模型训练优化方法


技术介绍

1、现有的分布式运算(distributed computing)系统执行分布式训练的方式,例如可以使用流水线模型(pipeline parallelism)并行或使用重计算(recompute)来进行。然而,在使用流水线模型并行的训练方式中,即便均等划分层(layer)数,各个阶段(stage)的内存的占用结果也会有很大差异。例如,流水线模型并行以及重计算是分开考虑的,因此容易导致流水线模型并行中的各阶段的计算量不平衡,并且可能因为重计算过多而导致内存的浪费和整体计算效率降低。


技术实现思路

1、本公开的实施例提供了一种分布式运算系统以及深度学习模型的模型训练优化方法,可有效优化深度学习模型的模型训练效率。

2、根据本公开的实施例,本公开的分布式运算系统包括多个运算单元以及处理器。处理器耦接多个运算单元,并且用以执行模拟器以及优化器。模拟器模拟多个运算单元执行深度学习模型的分布式训练,并且计算深度学习模型进行分布式训练时本文档来自技高网...

【技术保护点】

1.一种分布式运算系统,包括:

2.根据权利要求1所述的分布式运算系统,其中,所述模拟器计算并且加总转换层的激活值、所述重计算的重计算点、权重数据、优化器状态模型以及损失函数的至少其中之一的内存占用结果,以取得所述总内存占用信息。

3.根据权利要求1所述的分布式运算系统,其中,所述模拟器计算所述流水线模型并行的预热时间、冷却时间以及稳定状态时间,以取得所述流水线模型并行中的每一阶的计算时间。

4.根据权利要求3所述的分布式运算系统,其中,所述优化器被配置为最小化所述流水线模型并行中具有最长计算时间的其中一阶的所述计算时间。

<p>5.根据权利要求...

【技术特征摘要】

1.一种分布式运算系统,包括:

2.根据权利要求1所述的分布式运算系统,其中,所述模拟器计算并且加总转换层的激活值、所述重计算的重计算点、权重数据、优化器状态模型以及损失函数的至少其中之一的内存占用结果,以取得所述总内存占用信息。

3.根据权利要求1所述的分布式运算系统,其中,所述模拟器计算所述流水线模型并行的预热时间、冷却时间以及稳定状态时间,以取得所述流水线模型并行中的每一阶的计算时间。

4.根据权利要求3所述的分布式运算系统,其中,所述优化器被配置为最小化所述流水线模型并行中具有最长计算时间的其中一阶的所述计算时间。

5.根据权利要求4所述的分布式...

【专利技术属性】
技术研发人员:请求不公布姓名请求不公布姓名请求不公布姓名请求不公布姓名请求不公布姓名请求不公布姓名
申请(专利权)人:上海壁仞科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1