用于非均匀异构芯片的最优并行策略及其搜索方法、装置制造方法及图纸

技术编号:46087612 阅读:7 留言:0更新日期:2025-08-12 18:08
本发明专利技术涉及一种用于非均匀异构芯片的最优并行策略及其搜索方法、装置。其中方法根据数据并行维度约束、异构芯片数量约束和张量并行维度约束,获取第一候选集合,第一候选集合包括所有种类异构芯片的数据并行维度、张量并行维度和流水线并行维度组合;根据映射约束、搜索空间约束和显存约束进行模型层数分配,确定并行策略候选集合,并行策略候选集合包括所有种类异构芯片的数据并行维度、张量并行维度、流水线并行维度和模型层数组合;对并行策略候选集合中的每种组合,计算单次迭代时间,并选取单次迭代时间最低的组合作为最优并行策略。与现有技术相比,本发明专利技术具有实现千卡级大规模异构芯片的负载分配和调度并达到最优流水线执行效率等优点。

【技术实现步骤摘要】

本专利技术涉及分布式训练,尤其是涉及一种用于非均匀异构芯片的最优并行策略及其搜索方法、装置


技术介绍

1、目前,异构集群训练面临的问题主要来自于带宽、算力和显存三个方面。具体而言,相较于同构芯片之间的互联互通,多种新制算力芯片的异构互联带宽更低,同时新制芯片之间的显存和算力也存在较大的差异,异构芯片的处理的能力有所不同,原有针对同构集群的并行策略在异构场景下难以发挥异构芯片的全部算力。

2、除流水线并行之外的其他的并行策略,如数据并行、张量并行,其要求同一并行维度下的芯片算力接近且相互之间可以高速互联。然而,现有的流水线并行策略也存在一定的局限性。一方面,在异构分布式混合训练系统中,硬件之间具有不同的特性,系统如何在算力分布不均匀的情况下,根据模型特征和系统的实时训练状态对任务进行均匀或非均匀的切分,保证算力的最大化利用,对大规模异构集群的高效训练有重要影响,但是现有的流水线并行策略针对的规模较小,主要集中在百卡量级,而在大规模下,异构流水线并行的搜索空间更大,现有流水线并行策略难以在千卡以上规模搜索出最优的异构并行策略;另一方面,现有的异构本文档来自技高网...

【技术保护点】

1.一种用于非均匀异构芯片的最优并行策略搜索方法,其特征在于,所述最优并行策略搜索方法基于预设的映射约束、搜索空间约束、数据并行维度约束、异构芯片数量约束、张量并行维度约束和显存约束实现,包括以下步骤:

2.根据权利要求1所述的用于非均匀异构芯片的最优并行策略搜索方法,其特征在于,在所述最优并行策略搜索方法中:

3.根据权利要求1所述的用于非均匀异构芯片的最优并行策略搜索方法,其特征在于,所述最优并行策略搜索方法还基于预设的计算卡约束实现,所述计算卡约束用于约束模型层数分配;

4.根据权利要求1所述的用于非均匀异构芯片的最优并行策略搜索方法,其特征在于...

【技术特征摘要】

1.一种用于非均匀异构芯片的最优并行策略搜索方法,其特征在于,所述最优并行策略搜索方法基于预设的映射约束、搜索空间约束、数据并行维度约束、异构芯片数量约束、张量并行维度约束和显存约束实现,包括以下步骤:

2.根据权利要求1所述的用于非均匀异构芯片的最优并行策略搜索方法,其特征在于,在所述最优并行策略搜索方法中:

3.根据权利要求1所述的用于非均匀异构芯片的最优并行策略搜索方法,其特征在于,所述最优并行策略搜索方法还基于预设的计算卡约束实现,所述计算卡约束用于约束模型层数分配;

4.根据权利要求1所述的用于非均匀异构芯片的最优并行策略搜索方法,其特征在于,所述s101具体包括:

5.根据权利要求4所述的用于非均匀异构芯片的最优并行策略搜索方法,其特征在于,所述微批次的数量为训练批次尺寸与数据并行维度之商。

6.根据权利要求4所述的用于非均匀异构芯片的最优并行策略搜索方法,其特征在于,所述s102具体包括:

7...

【专利技术属性】
技术研发人员:唐丁袁晟郑辉煌沈皓陈驰宇苏中玲麻津铭付蓉裴芝林邹彤余玥屈蕾张行程
申请(专利权)人:上海人工智能创新中心
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1