模型分布式并行训练方法、装置、电子设备和存储介质制造方法及图纸

技术编号：44536201 阅读：30 留言：0更新日期：2025-03-11 14:05

本发明专利技术提供一种模型分布式并行训练方法、装置、电子设备和存储介质，涉及人工智能技术领域，包括：确定在分布式计算系统中对目标模型进行训练的超参数组合；基于所述超参数组合生成粒子群；所述粒子群中各个粒子的速度是基于所述超参数组合中各个超参数的取值分布概率确定的；基于各个粒子生成的分布式训练执行脚本对所述目标模型进行训练，以所述分布式计算系统的训练吞吐性能为各个粒子的适应度值对各个粒子的速度和位置进行更新，确定超参数组合的最优解；基于所述超参数组合的最优解生成的分布式训练执行脚本，继续对所述目标模型进行训练。本发明专利技术提供的方法和装置，在分布式计算环境中提高了模型的训练效率和模型性能。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及人工智能，尤其涉及一种模型分布式并行训练方法、装置、电子设备和存储介质。

技术介绍

1、大语言模型（large language model，llm，也称大模型）分布式并行训练是指在分布式计算环境中训练大模型。在训练过程中，模型的性能不仅取决于训练算法本身，还受到分布式策略等超参数选择的极大影响。

2、相关技术通过网格搜索、随机搜索、动态规划等方法进行超参数搜索，但是这些方法在搜索效率、搜索成本、搜索精度和资源消耗等方面存在诸多不足，使得大模型的训练效率低、模型性能差且资源消耗高。

3、因此，如何在分布式计算环境中提高模型的训练效率和模型性能成为业界亟待解决的技术问题。

技术实现思路

1、本专利技术提供一种模型分布式并行训练方法、装置、电子设备和存储介质，用于解决如何在分布式计算环境中提高模型的训练效率和模型性能的技术问题。

2、本专利技术提供一种模型分布式并行训练方法，包括：

3、确定在分布式计算系统中对目标模型进行训练的超参数组合；

...

【技术保护点】

1.一种模型分布式并行训练方法，其特征在于，包括：

2.根据权利要求1所述的模型分布式并行训练方法，其特征在于，所述确定在分布式计算系统中对目标模型进行训练的超参数组合，包括：

3.根据权利要求1所述的模型分布式并行训练方法，其特征在于，所述基于所述超参数组合生成粒子群，包括：

4.根据权利要求1所述的模型分布式并行训练方法，其特征在于，所述基于各个粒子生成的分布式训练执行脚本对所述目标模型进行训练，以所述分布式计算系统的训练吞吐性能为各个粒子的适应度值对各个粒子的速度和位置进行更新，确定超参数组合的最优解，包括：

5.根据权利要求4所述的...

【技术特征摘要】

1.一种模型分布式并行训练方法，其特征在于，包括：

2.根据权利要求1所述的模型分布式并行训练方法，其特征在于，所述确定在分布式计算系统中对目标模型进行训练的超参数组合，包括：

3.根据权利要求1所述的模型分布式并行训练方法，其特征在于，所述基于所述超参数组合生成粒子群，包括：

5.根据权利要求4所述的模型分布式并行训练方法，其特征在于，所述基于所述个体最优位置和所述全局最优位置对各个粒子的速度进行更新，包括：

<...

【专利技术属性】
技术研发人员：请求不公布姓名，请求不公布姓名，请求不公布姓名，请求不公布姓名，
申请(专利权)人：广州壁仞集成电路有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人