一种模型训练检查点更新方法、装置、设备及存储介质制造方法及图纸

技术编号：46593539 阅读：1 留言：0更新日期：2025-10-10 21:27

本申请涉及模型训练技术领域，具体涉及一种模型训练检查点更新方法、装置、设备及存储介质，该模型训练检查点更新方法包括以下步骤：每次迭代后，保存每层更新变化量超过变化量阈值的参数至检查点；根据更新变化量超过所述变化量阈值的参数，更新所述参数对应层的变化量阈值。能够解决现有技术中采用全量检查点方案，存在存储开销大，以及频率受限的技术问题。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及模型训练，具体涉及一种模型训练检查点更新方法、装置、设备及存储介质。

技术介绍

1、随着大规模语言模型（llms）的不断发展，其训练过程面临着诸多挑战。训练过程需要数千至上万块gpu且持续数月运行，期间软硬件故障频繁发生，可能导致巨大的时间和资源浪费。现有的检查点机制虽能实现容错，但传统的全量检查点方法限制了检查点频率并消耗大量存储资源，而现有的异步检查点方法和检查点压缩方法各有局限性，难以满足高频故障场景下的容错需求。

2、传统全量检查点方案面临两大瓶颈：（1）存储开销大，（2）频率受限；例如：将检查点分别存储到当前节点cpu内存，下一个相邻节点的cpu内存，以及远程持久性存储。然而大语言模型单次检查点达tb级（如deepseek-r1为7.7tb），这种方法对存储集群硬件成本要求极高。例如，检查点间隔被迫延长至4-5小时，同时异步检查点持久化时延仍是瓶颈，无法高频保存，检查点压缩忽略60%优化器状态，压缩耗时长于写盘时间。

技术实现思路

1、本申请提供一种模型训练...

【技术保护点】

1.一种模型训练检查点更新方法，其特征在于，所述模型训练检查点更新方法包括以下步骤：

2.如权利要求1所述的模型训练检查点更新方法，其特征在于，所述的根据所述更新变化量超过变化量阈值的参数，更新所述参数对应层的变化量阈值，包括：

3.如权利要求2所述的模型训练检查点更新方法，其特征在于，所述的根据各层最近预设迭代次数的所述显著变化参数的比例，确定各层下一次迭代中的调整因子，包括：

4.如权利要求3所述的模型训练检查点更新方法，其特征在于，所述的根据各层所述显著变化参数的比例变化趋势值以及比例变化偏差，确定各层下一次迭代中的调整因子，包括：

...

【技术特征摘要】

1.一种模型训练检查点更新方法，其特征在于，所述模型训练检查点更新方法包括以下步骤：

5.如权利要求3所述的模型训练检查点更新方法，其特征在于，每层网络设计一个设定长度的滑动窗口，用于记录该层最近预设迭代次数所述显著变化参数的比例。

6.如权利要求2-5任一项所述的模型训练检查点更新方法，其特征在于，所述的根据各层下一次迭代中的所述调整因子，...

【专利技术属性】
技术研发人员：冉冀林，范思源，尹旭，
申请(专利权)人：重庆长安汽车股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人