基于DAG结构深度学习模型任务放置的流水线训练优化方法技术

技术编号:43452859 阅读:23 留言:0更新日期:2024-11-27 12:54
本发明专利技术提供一种基于DAG结构深度学习模型任务放置的流水线训练优化方法,包含:异构GPU集群中计算节点内的并行模式确定问题、不同计算节点间的并行方案组合问题、有向无环计算图的任务放置问题。本发明专利技术首先设计了一种异构集群节点内的GPU并行模式求解算法,以获得适用于节点内部的所有可用的并行模式。然后针对每个计算节点的并行方案选择问题,利用隔板法确定不同类型节点的并行方案。最后通过贪心思想,设计有向无环图结点任务放置算法,分配深度学习模型对应的有向无环图中的每一个结点,基于流水线混合并行总时间为执行时间最长的阶段的训练时间这一原理,最终得到整体训练时间最小的最优方案。本发明专利技术提高了效率,可靠性高。

【技术实现步骤摘要】

本专利技术涉及分布式训练领域,尤其涉及一种基于dag结构深度学习模型任务放置的流水线训练优化方法。


技术介绍

1、随着深度学习技术的不断发展,大模型在各种行业领域内都取得了显著成果。在电力领域内,南方电网公司发布的电力大模型可以为各种用户提供服务:针对普通电力用户,可以和能源电力大模型畅聊电力政策法规、能源结构组成和“双碳”发展目标,可以向大模型了解电费电量、故障报修、电费扣款信息,帮助家庭节能诊断;针对专业电力市场用户,可以用来咨询电力设备供应和安装知识,获取电力安全、保护、节能的建议,听取电力设施维护和故障排除的指导;针对电力行业员工,可以向其发布指令,让其自动生成数据处理结果,准确识别缺陷场景的图像细节,帮助检索处理电力巡检过程中数据、识别缺陷以及自动生成报告。然而,随着深度学习模型参数规模不断增大,对训练和微调大模型所需的计算资源和训练算法的要求越来越高,需要利用分布式训练方法来提高其准确性和泛化能力。

2、分布式训练中最常用的就是结合数据并行和模型并行的流水线混合并行训练方法。数据并行可以实现训练加速,但无法支持那些不能放入单gpu显本文档来自技高网...

【技术保护点】

1.基于DAG结构深度学习模型任务放置的流水线训练优化方法,其特征在于:该方法包括:

2.根据权利要求1所述的基于DAG结构深度学习模型任务放置的流水线训练优化方法,其特征在于:确定节点内部可能的并行模式为:

3.根据权利要求2所述的基于DAG结构深度学习模型任务放置的流水线训练优化方法,其特征在于:求解确定节点并行模式的过程为:

4.根据权利要求3所述的基于DAG结构深度学习模型任务放置的流水线训练优化方法,其特征在于:

5.根据权利要求3所述的基于DAG结构深度学习模型任务放置的流水线训练优化方法,其特征在于:>

6.根据权利...

【技术特征摘要】

1.基于dag结构深度学习模型任务放置的流水线训练优化方法,其特征在于:该方法包括:

2.根据权利要求1所述的基于dag结构深度学习模型任务放置的流水线训练优化方法,其特征在于:确定节点内部可能的并行模式为:

3.根据权利要求2所述的基于dag结构深度学习模型任务放置的流水线训练优化方法,其特征在于:求解确定节点并行模式的过程为:

4.根据权利要求3所述的基于dag结构深度学习模型任务放置的流水线训练优化方法,其特征在于:

5.根据权利要求3所述的基于dag结构深度学习模型任务放置的流水线训练优化方法,其特征在于:

6.根据权利要求3所述的基于dag结构深度学习模型任务放置的流水线训练优化方法,其特征在于:

7.根据权利要求1所述的基于dag结构深度学习...

【专利技术属性】
技术研发人员:龚在刚霍雪松杜云龙戴强晟徐云清陈思宇丰颖薛晨周星辰薛钟兵
申请(专利权)人:国网江苏省电力有限公司扬州供电分公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1