【技术实现步骤摘要】
本专利技术实施例涉及人工智能,尤其涉及一种混合专家模型分布式训练方法、装置、电子设备、存储介质及程序产品。
技术介绍
1、混合专家模型(mixture of expert,moe)是一种稀疏神经网络,可以在不增加模型计算量基础上极大增加模型参数量,提升模型的能力。同时,由于模型的稀疏性,通常每个token(模型所使用的输入数据的最小单元)选择1-2个专家(expert)进行处理,不同的数据由不同的专家来处理。
2、目前,在现有的moe训练框架中,会涉及6d并行训练的分布式训练方式。所谓6d并行训练,即同时采用ep(expert parallel,专家并行)、dp(data parallel,数据并行)、pp(pipeline parallel,流水并行)、sp(sequence parallel,序列并行)、cp(contextparallel,上下文并行)以及tp(tensor parallel,张量并行)。
3、专利技术人在实现本专利技术的过程中,发现现有技术存在如下缺陷:由于6d并行复杂度高,并行group
...【技术保护点】
1.一种混合专家模型分布式训练方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,所述根据各所述分布式训练策略对所述混合专家模型进行分布式训练时占用的存储资源,对各所述分布式训练策略进行筛选,得到目标分布式训练策略,包括:
3.根据权利要求2所述的方法,其特征在于,所述计算各所述分布式训练策略对所述混合专家模型进行分布式训练时占用的存储资源,包括:
4.根据权利要求3所述的方法,其特征在于,所述计算各所述分布式训练策略对所述混合专家模型进行分布式训练时占用的单卡实际显存,包括:
5.根据权利要求4所述的方
...【技术特征摘要】
1.一种混合专家模型分布式训练方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,所述根据各所述分布式训练策略对所述混合专家模型进行分布式训练时占用的存储资源,对各所述分布式训练策略进行筛选,得到目标分布式训练策略,包括:
3.根据权利要求2所述的方法,其特征在于,所述计算各所述分布式训练策略对所述混合专家模型进行分布式训练时占用的存储资源,包括:
4.根据权利要求3所述的方法,其特征在于,所述计算各所述分布式训练策略对所述混合专家模型进行分布式训练时占用的单卡实际显存,包括:
5.根据权利要求4所述的方法,其特征在于,所述计算各所述分布式训练策略对所述混合专家模型进行分布式训练时单卡权重存储占用的显存,包括:
6.根据权利要求5所述的方法,其特征在于,所述计算在不同优化技术下,各所述分布式训练策略对所述混合专家模型进行分布式训练时非moe模块权重存储占用的显存和moe模块权重存储占用的显存,包括:
7.根据权利要求4所述的方法,其特征...
【专利技术属性】
技术研发人员:郭敬明,刘彦,孟玉,
申请(专利权)人:上海燧原智能科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。