【技术实现步骤摘要】
本专利技术涉及人工智能,尤其涉及一种模型分布式并行训练方法、装置、电子设备和存储介质。
技术介绍
1、大语言模型(large language model,llm,也称大模型)分布式并行训练是指在分布式计算环境中训练大模型。在训练过程中,模型的性能不仅取决于训练算法本身,还受到分布式策略等超参数选择的极大影响。
2、相关技术通过网格搜索、随机搜索、动态规划等方法进行超参数搜索,但是这些方法在搜索效率、搜索成本、搜索精度和资源消耗等方面存在诸多不足,使得大模型的训练效率低、模型性能差且资源消耗高。
3、因此,如何在分布式计算环境中提高模型的训练效率和模型性能成为业界亟待解决的技术问题。
技术实现思路
1、本专利技术提供一种模型分布式并行训练方法、装置、电子设备和存储介质,用于解决如何在分布式计算环境中提高模型的训练效率和模型性能的技术问题。
2、本专利技术提供一种模型分布式并行训练方法,包括:
3、确定在分布式计算系统中对目标模型进行训练的超参
...
【技术保护点】
1.一种模型分布式并行训练方法,其特征在于,包括:
2.根据权利要求1所述的模型分布式并行训练方法,其特征在于,所述确定在分布式计算系统中对目标模型进行训练的超参数组合,包括:
3.根据权利要求1所述的模型分布式并行训练方法,其特征在于,所述基于所述超参数组合生成粒子群,包括:
4.根据权利要求1所述的模型分布式并行训练方法,其特征在于,所述基于各个粒子生成的分布式训练执行脚本对所述目标模型进行训练,以所述分布式计算系统的训练吞吐性能为各个粒子的适应度值对各个粒子的速度和位置进行更新,确定超参数组合的最优解,包括:
5.
...【技术特征摘要】
1.一种模型分布式并行训练方法,其特征在于,包括:
2.根据权利要求1所述的模型分布式并行训练方法,其特征在于,所述确定在分布式计算系统中对目标模型进行训练的超参数组合,包括:
3.根据权利要求1所述的模型分布式并行训练方法,其特征在于,所述基于所述超参数组合生成粒子群,包括:
4.根据权利要求1所述的模型分布式并行训练方法,其特征在于,所述基于各个粒子生成的分布式训练执行脚本对所述目标模型进行训练,以所述分布式计算系统的训练吞吐性能为各个粒子的适应度值对各个粒子的速度和位置进行更新,确定超参数组合的最优解,包括:
5.根据权利要求4所述的模型分布式并行训练方法,其特征在于,所述基于所述个体最优位置和所述全局最优位置对各个粒子的速度进行更新,包括:
<...【专利技术属性】
技术研发人员:请求不公布姓名,请求不公布姓名,请求不公布姓名,请求不公布姓名,
申请(专利权)人:广州壁仞集成电路有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。