分布式系统建模方法、装置、设备、介质及程序产品制造方法及图纸

技术编号:43523276 阅读:16 留言:0更新日期:2024-12-03 12:11
本发明专利技术公开了一种分布式系统建模方法、装置、设备、介质及程序产品。该方法包括:获取待进行分布式建模的目标大模型的基准测试描述信息和用于部署目标大模型的分布式集群的集群信息;根据基准测试描述信息和集群信息,在多个备选分布式并行方案中确定出将目标大模型部署在分布式集群时的目标分布式并行方案;根据目标分布式并行方案,从算子级代价、设备级代价和集群级代价三个维度上,获取按照目标分布式并行方案将目标大模型部署在分布式集群时的系统性能分析结果。本发明专利技术实施例的技术方案提供了一种标准化的分布式建模方案,满足各类分布式部署以及性能评估需求。

【技术实现步骤摘要】

本专利技术涉及计算机,尤其涉及一种分布式系统建模方法、装置、设备、介质及程序产品


技术介绍

1、随着人工智能生成内容(artificial intelligence generated content aigc)和大语言模型(large language model,llm)的快速发展,深度学习模型正经历着快速的迭代更新。随之而来的是模型规模的不断扩大,以及对更大规模集群的需求。

2、因此,如何行之有效的进行分布式系统建模,以应对不断激增的大模型的分布式部署需求,是目前有待解决的一个重要问题。


技术实现思路

1、本专利技术实施例提供了一种分布式系统建模方法、装置、设备、介质及程序产品,以提供一种标准化的分布式建模方案,满足各类分布式部署以及性能评估需求。

2、根据本专利技术实施例的一方面,提供了一种分布式系统建模方法,包括:

3、获取待进行分布式建模的目标大模型的基准测试描述信息和用于部署目标大模型的分布式集群的集群信息;

4、其中,基准测试描述信息中包含目标本文档来自技高网...

【技术保护点】

1.一种分布式系统建模方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,获取待进行分布式建模的目标大模型的基准测试描述信息,包括:

3.根据权利要求2所述的方法,其特征在于,在根据目标大模型的源码文件,解析得到与目标大模型匹配的各模型算子之前,还包括:

4.根据权利要求2所述的方法,其特征在于,在根据与目标大模型匹配的分布式配置信息,对多个模型算子中的至少一个目标模型算子进行分布式切分信息的标注之前,还包括:

5.根据权利要求2所述的方法,其特征在于,分布式切分信息包括:至少一条分布式策略信息,每条分布式策略信息中包括分布...

【技术特征摘要】

1.一种分布式系统建模方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,获取待进行分布式建模的目标大模型的基准测试描述信息,包括:

3.根据权利要求2所述的方法,其特征在于,在根据目标大模型的源码文件,解析得到与目标大模型匹配的各模型算子之前,还包括:

4.根据权利要求2所述的方法,其特征在于,在根据与目标大模型匹配的分布式配置信息,对多个模型算子中的至少一个目标模型算子进行分布式切分信息的标注之前,还包括:

5.根据权利要求2所述的方法,其特征在于,分布式切分信息包括:至少一条分布式策略信息,每条分布式策略信息中包括分布式策略、切分语义以及切分参数;

6.根据权利要求2-5任一项所述的方法,其特征在于,根据对算子信息和/或分布式切分信息的标注结果,推导出全部模型算子的输入输出张量维度信息和分布式切分信息,包括:

7.根据权利要求6所述的方法,其特征在于,根据至少一个目标模型算子的分布式切分信息的标注结果,推导出全部模型算子的分布式切分信息,包括:

8.根据权利要求2-5任一项所述的方法,其特征在于,根据各模型算子的分布式切分信息,确定通信算子在各模型算子之间的候选插入位置,包括:

9.根据权利要求1所述的方法,其特征在于,根据基准测试描述信息和集群信息,在多个备选分布式并行方案中确定出将目标大模型部署在分布式集群时的目标分布式并行方案,包括:

10.根据权利要求9所述的方法,其特征在于,还包括:

11.根据权利要求10所述的方法,其特征在于,根据权重相关存储需求和激活相关存储需求,分别评估与每种备选分布式并行方案分别对应的单设备存储需求,包括:

12.根据权利要求9所述的方法,其特征在于,根据基准测试描述信息、与目标大模型匹配的计算任务和集群信息,确定出与各分布式策略对应的搜索集合,包括下述至少一项:

13.根据权利要求9所述的方法,其特征在于,根据基准测试描述信息,生成目标大模型在每个备选分布式并行方案下的单设备计算图,包括:

14.根据权利要求9所述的方法,其特征在于,计算每个单设备计算图的单设备计算耗时,包括:

15.根据权利要求14所述的方法,其特征在于,根据分布式集群的集群信息,计算目标单设备计算图中每个模型算子的第一类计算耗时,包括:

16.根据权利要求14所述的方法,其特征在于,根据分布式集群的集群信息,计算目标单设备计算图中每个通信算子...

【专利技术属性】
技术研发人员:陈教彦
申请(专利权)人:上海燧原科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1