大模型分布式训练过程的仿真方法、装置、设备及介质制造方法及图纸

技术编号：40421742 阅读：7 留言：0更新日期：2024-02-20 22:40

本发明专利技术公开了一种大模型分布式训练过程的仿真方法、装置、设备及介质。该方法包括：响应于仿真系统构建请求，对系统元素进行抽象建模，并将建模得到的各系统元素及其对应的可配置选项可视化展示；响应于针对目标系统元素配置的目标配置项，使用目标系统元素的目标配置项进行系统建模，得到AI集群模拟系统；响应于仿真启动指令，触发AI集群模拟系统中的目标系统元素协同运行，对目标大模型的分布式训练过程进行仿真；实时监控AI集群模拟系统中硬件模拟节点的仿真运行状态，评估使用实际AI集群系统对目标大模型进行分布式训练时的系统性能。本发明专利技术实施例的技术方案可以大大节省AI集群系统实际搭建过程中时间和资源的消耗。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及大模型的仿真，尤其涉及一种大模型分布式训练过程的仿真方法、装置、设备及介质。

技术介绍

1、随着深度学习的发展，深度神经网络模型的规模在持续增加，特别是近几年面向人工智能生成内容(aigc，ai-generated content)领域的大规模自然语言模型，其参数量正在急剧增长，一些模型已经达到了千亿甚至万亿参数量级别，模型参数的存储容量达到几百gb(千兆字节)。单卡或单机设备不可能训练这些大模型，需要设计大规模ai(artificial intelligence，人工智能)集群系统进行并行训练，这就促进了大规模ai集群系统的分布式训练技术的快速发展。

2、为了提高大规模ai集群系统训练大模型的效率，往往需要配合复杂的并行训练策略。设计大型ai集群系统面临诸多挑战，也引入诸多复杂性，包括了硬件、软件和系统多个层面。相关技术中，只有实际搭建出了ai集群系统，并在该ai集群系统实际进行大模型的训练后，才能实际确定出该ai集群系统的训练性能。

3、实际上，搭建实际大型ai集群系统往往需要耗费大量的时间和资源，且在该ai集群系统实际运行之前，无法确定该系统是否能够满足实际的训练需求。因此，如何能够为深度学习训练设计出更高性能的ai集群系统架构和算法，是目前ai集群系统设计中有待解决的一个重要难题。

技术实现思路

1、本专利技术提供了一种大模型分布式训练过程的仿真方法、装置、设备及介质，提供了一种在ai集群系统的实际搭建前，对其进行建模仿真的新方式，大大

2、根据本专利技术实施例的一方面，提供了一种大模型分布式训练过程的仿真方法，包括：

3、响应于仿真系统构建请求，对各系统元素进行抽象建模，并将建模得到的各系统元素，以及与系统元素对应的各可配置选项进行可视化展示；

4、响应于针对至少一个目标系统元素配置的至少一个目标配置项，使用各目标系统元素的各目标配置项进行系统建模，得到ai集群模拟系统；

5、响应于仿真启动指令，触发ai集群模拟系统中的各目标系统元素协同运行，共同实现对目标大模型的分布式训练过程的仿真；

6、实时监控ai集群模拟系统中硬件模拟节点的仿真运行状态，并根据监控结果，评估使用实际ai集群系统对目标大模型进行分布式训练时的系统性能。

7、根据本专利技术实施例的另一方面，还提供了一种大模型分布式训练过程的仿真装置，包括：

8、系统元素展示模块，用于响应于仿真系统构建请求，对各系统元素进行抽象建模，并将建模得到的各系统元素，以及与系统元素对应的各可配置选项进行可视化展示；

9、模拟系统生成模块，用于响应于针对至少一个目标系统元素配置的至少一个目标配置项，使用各目标系统元素的各目标配置项进行系统建模，得到ai集群模拟系统；

10、分布式仿真模块，用于响应于仿真启动指令，触发ai集群模拟系统中的各目标系统元素协同运行，共同实现对目标大模型的分布式训练过程的仿真；

11、系统性能评估模块，用于实时监控ai集群模拟系统中硬件模拟节点的仿真运行状态，并根据监控结果，评估使用实际ai集群系统对目标大模型进行分布式训练时的系统性能。

12、根据本专利技术实施例的另一方面，还提供了一种电子设备，所述电子设备包括：

13、至少一个处理器；以及

14、与所述至少一个处理器通信连接的存储器；其中，

15、所述存储器存储有可被所述至少一个处理器执行的计算机程序，所述计算机程序被所述至少一个处理器执行，以使所述至少一个处理器能够执行本专利技术任一实施例所述的大模型分布式训练过程的仿真方法。

16、根据本专利技术的实施例另一方面，还提供了一种计算机可读存储介质，所述计算机可读存储介质存储有计算机指令，所述计算机指令用于使处理器执行时实现本专利技术任一实施例所述的大模型分布式训练过程的仿真方法。

17、本专利技术实施例的技术方案，通过响应于仿真系统构建请求，对各系统元素进行抽象建模，并将建模得到的各系统元素，以及与系统元素对应的各可配置选项进行可视化展示；响应于针对至少一个目标系统元素配置的至少一个目标配置项，使用各目标系统元素的各目标配置项进行系统建模，得到ai集群模拟系统；响应于仿真启动指令，触发ai集群模拟系统中的各目标系统元素协同运行，共同实现对目标大模型的分布式训练过程的仿真；实时监控ai集群模拟系统中硬件模拟节点的仿真运行状态，并根据监控结果，评估使用实际ai集群系统对目标大模型进行分布式训练时的系统性能的技术手段，提供了一种在ai集群系统实际搭建前，对其进行建模，并对其上运行的大模型进行分布式训练仿真的新方式，架构师可以根据系统性能的评估结果，有效定位ai集群系统和算法的不足和性能瓶颈，为系统架构设计提供量化指导。整个过程可以通过纯软件的方式实现，大大节省ai集群系统实际搭建过程中时间和资源的消耗。

18、应当理解，本部分所描述的内容并非旨在标识本专利技术的实施例的关键或重要特征，也不用于限制本专利技术的范围。本专利技术的其它特征将通过以下的说明书而变得容易理解。

本文档来自技高网...

【技术保护点】

1.一种大模型分布式训练过程的仿真方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，响应于仿真系统构建请求，对各系统元素进行抽象建模，包括：

3.根据权利要求1所述的方法，其特征在于，所述系统元素包括：设备、网络拓扑结构、任务负载、算法以及运行中的突发事件。

4.根据权利要求3所述的方法，其特征在于，建模得到的设备包括：加速卡、服务器、交换机、通信信道以及通信链路；其中，加速卡、服务器和交换机属于硬件模拟节点；

5.根据权利要求3所述的方法，其特征在于，与建模得到的网络拓扑结构对应的可配置选项包括下述至少一项：物理拓扑结构以及逻辑拓扑结构；

6.根据权利要求1-5任一项所述的方法，其特征在于，在使用各目标系统元素的各目标配置项进行系统建模，得到AI集群模拟系统之后，还包括：

7.根据权利要求1-5任一项所述的方法，其特征在于，实时监控AI集群模拟系统中硬件模拟节点的仿真运行状态，包括：

8.一种大模型分布式训练过程的仿真装置，其特征在于，包括：

9.一种电子设备，其特征在于，所述电子设备包括：

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机指令，所述计算机指令用于使处理器执行时实现权利要求1-7中任一项所述的大模型分布式训练过程的仿真方法。

...

【技术特征摘要】

1.一种大模型分布式训练过程的仿真方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，响应于仿真系统构建请求，对各系统元素进行抽象建模，包括：

3.根据权利要求1所述的方法，其特征在于，所述系统元素包括：设备、网络拓扑结构、任务负载、算法以及运行中的突发事件。

5.根据权利要求3所述的方法，其特征在于，与建模得到的网络拓扑结构对应的可配置选项包括下述至少一项：物理拓扑结构以及逻辑拓扑...

【专利技术属性】
技术研发人员：朱绪钱，朱蒋俊，张亚林，李翔，
申请(专利权)人：上海燧原科技股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人