【技术实现步骤摘要】
本申请涉及模型训练,具体涉及一种模型训练检查点更新方法、装置、设备及存储介质。
技术介绍
1、随着大规模语言模型(llms)的不断发展,其训练过程面临着诸多挑战。训练过程需要数千至上万块gpu且持续数月运行,期间软硬件故障频繁发生,可能导致巨大的时间和资源浪费。现有的检查点机制虽能实现容错,但传统的全量检查点方法限制了检查点频率并消耗大量存储资源,而现有的异步检查点方法和检查点压缩方法各有局限性,难以满足高频故障场景下的容错需求。
2、传统全量检查点方案面临两大瓶颈:(1)存储开销大,(2)频率受限;例如:将检查点分别存储到当前节点cpu内存,下一个相邻节点的cpu内存,以及远程持久性存储。然而大语言模型单次检查点达tb级(如deepseek-r1为7.7tb),这种方法对存储集群硬件成本要求极高。例如,检查点间隔被迫延长至4-5小时,同时异步检查点持久化时延仍是瓶颈,无法高频保存,检查点压缩忽略60%优化器状态,压缩耗时长于写盘时间。
技术实现思路
1、本申请提供一种模型训练
...【技术保护点】
1.一种模型训练检查点更新方法,其特征在于,所述模型训练检查点更新方法包括以下步骤:
2.如权利要求1所述的模型训练检查点更新方法,其特征在于,所述的根据所述更新变化量超过变化量阈值的参数,更新所述参数对应层的变化量阈值,包括:
3.如权利要求2所述的模型训练检查点更新方法,其特征在于,所述的根据各层最近预设迭代次数的所述显著变化参数的比例,确定各层下一次迭代中的调整因子,包括:
4.如权利要求3所述的模型训练检查点更新方法,其特征在于,所述的根据各层所述显著变化参数的比例变化趋势值以及比例变化偏差,确定各层下一次迭代中的调整因子,
...
【技术特征摘要】
1.一种模型训练检查点更新方法,其特征在于,所述模型训练检查点更新方法包括以下步骤:
2.如权利要求1所述的模型训练检查点更新方法,其特征在于,所述的根据所述更新变化量超过变化量阈值的参数,更新所述参数对应层的变化量阈值,包括:
3.如权利要求2所述的模型训练检查点更新方法,其特征在于,所述的根据各层最近预设迭代次数的所述显著变化参数的比例,确定各层下一次迭代中的调整因子,包括:
4.如权利要求3所述的模型训练检查点更新方法,其特征在于,所述的根据各层所述显著变化参数的比例变化趋势值以及比例变化偏差,确定各层下一次迭代中的调整因子,包括:
5.如权利要求3所述的模型训练检查点更新方法,其特征在于,每层网络设计一个设定长度的滑动窗口,用于记录该层最近预设迭代次数所述显著变化参数的比例。
6.如权利要求2-5任一项所述的模型训练检查点更新方法,其特征在于,所述的根据各层下一次迭代中的所述调整因子,...
【专利技术属性】
技术研发人员:冉冀林,范思源,尹旭,
申请(专利权)人:重庆长安汽车股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。