【技术实现步骤摘要】
本专利技术涉及分布式训练,尤其是涉及一种用于非均匀异构芯片的最优并行策略及其搜索方法、装置。
技术介绍
1、目前,异构集群训练面临的问题主要来自于带宽、算力和显存三个方面。具体而言,相较于同构芯片之间的互联互通,多种新制算力芯片的异构互联带宽更低,同时新制芯片之间的显存和算力也存在较大的差异,异构芯片的处理的能力有所不同,原有针对同构集群的并行策略在异构场景下难以发挥异构芯片的全部算力。
2、除流水线并行之外的其他的并行策略,如数据并行、张量并行,其要求同一并行维度下的芯片算力接近且相互之间可以高速互联。然而,现有的流水线并行策略也存在一定的局限性。一方面,在异构分布式混合训练系统中,硬件之间具有不同的特性,系统如何在算力分布不均匀的情况下,根据模型特征和系统的实时训练状态对任务进行均匀或非均匀的切分,保证算力的最大化利用,对大规模异构集群的高效训练有重要影响,但是现有的流水线并行策略针对的规模较小,主要集中在百卡量级,而在大规模下,异构流水线并行的搜索空间更大,现有流水线并行策略难以在千卡以上规模搜索出最优的异构并行策略;
...【技术保护点】
1.一种用于非均匀异构芯片的最优并行策略搜索方法,其特征在于,所述最优并行策略搜索方法基于预设的映射约束、搜索空间约束、数据并行维度约束、异构芯片数量约束、张量并行维度约束和显存约束实现,包括以下步骤:
2.根据权利要求1所述的用于非均匀异构芯片的最优并行策略搜索方法,其特征在于,在所述最优并行策略搜索方法中:
3.根据权利要求1所述的用于非均匀异构芯片的最优并行策略搜索方法,其特征在于,所述最优并行策略搜索方法还基于预设的计算卡约束实现,所述计算卡约束用于约束模型层数分配;
4.根据权利要求1所述的用于非均匀异构芯片的最优并行策略
...【技术特征摘要】
1.一种用于非均匀异构芯片的最优并行策略搜索方法,其特征在于,所述最优并行策略搜索方法基于预设的映射约束、搜索空间约束、数据并行维度约束、异构芯片数量约束、张量并行维度约束和显存约束实现,包括以下步骤:
2.根据权利要求1所述的用于非均匀异构芯片的最优并行策略搜索方法,其特征在于,在所述最优并行策略搜索方法中:
3.根据权利要求1所述的用于非均匀异构芯片的最优并行策略搜索方法,其特征在于,所述最优并行策略搜索方法还基于预设的计算卡约束实现,所述计算卡约束用于约束模型层数分配;
4.根据权利要求1所述的用于非均匀异构芯片的最优并行策略搜索方法,其特征在于,所述s101具体包括:
5.根据权利要求4所述的用于非均匀异构芯片的最优并行策略搜索方法,其特征在于,所述微批次的数量为训练批次尺寸与数据并行维度之商。
6.根据权利要求4所述的用于非均匀异构芯片的最优并行策略搜索方法,其特征在于,所述s102具体包括:
7...
【专利技术属性】
技术研发人员:唐丁,袁晟,郑辉煌,沈皓,陈驰宇,苏中玲,麻津铭,付蓉,裴芝林,邹彤,余玥,屈蕾,张行程,
申请(专利权)人:上海人工智能创新中心,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。