一种基于改进ZeRO-Offload技术的大模型训练方法技术

技术编号：41269351 阅读：4 留言：0更新日期：2024-05-11 09:24

本发明专利技术提供一种基于改进ZeRO‑Offload技术的大模型训练方法，通过优化内存使用、提高计算效率以及优化数据加载和并行计算，有效处理大规模模型训练时的内存和计算资源挑战；使用ZeRO技术对模型参数进行压缩和去重，通过量化、哈夫曼编码等操作减少参数冗余，降低显存消耗；利用Offload技术将计算任务分配给可扩展的计算资源，将计算密集型任务如前向传播、反向传播等迁移到GPU进行计算，实现计算能力的线性扩展；优化数据加载和并行计算，通过数据预处理、批量处理等方式提高数据加载效率；通过多线程、多进程等方式实现并行计算，进一步提高训练速度；本发明专利技术还提出一种动态显存分配策略，根据当前显存使用情况和任务需求，动态调整模型参数的存储方式和计算任务的分配，以最大化利用显存资源。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及网络，尤其涉及一种基于改进zero-offload技术的大模型训练方法。

技术介绍

1、随着深度学习的发展，大模型训练已成为研究热点。然而，在大模型训练过程中，由于模型参数数量庞大，传统的内存管理方法常常面临显存不足导致oom(out of memory，内存溢出)的问题。因此，如何优化内存使用和提高计算效率成为大模型训练的关键挑战。

2、因此，急需一种针对性的基于改进zero-offload技术的大模型训练方法。

技术实现思路

1、本专利技术的目的是为了解决上述问题，提供一种基于改进zero-offload技术的大模型训练方法。

2、第一方面，本申请提供一种基于改进zero-offload技术的大模型训练方法，所述方法包括：

3、步骤1，准备训练数据和模型参数；

4、步骤2，使用zero技术对模型参数进行处理，该处理包括：根据模型参数得到参数集合，将其中连续的非零参数分割成单独的参数子集，并将对应的连续非零参数的个数作为表征该参数子集的权值，将该权值与所述参数子集组合，得到处理后的若干参数子集，并通过量化、哈夫曼编码减少参数冗余；

5、步骤3，利用offload技术将计算任务分配给可扩展的计算资源，其中包括：将计算任务进行分片，将所述分片从主内存卸载，分配给可扩展的计算资源，在主内存中将所述分片的计算结果合并；

6、步骤4，将计算密集型任务，其包括前向传播、反向传播，迁移到gpu进行计算；

<p>7、步骤5，根据动态显存分配策略动态调整所述处理后的若干参数子集的存储方式和分片后的计算任务的分配；重复步骤4和5直到训练完成；

8、步骤6，保存训练得到的模型参数和优化结果，其中包括：分别调用参数子集训练模型，得到不同的优化结果，从中选择精度匹配度最高的优化结果；或者，将调用的参数子集进行合并，训练模型得到唯一的优化结果，判断其精度的匹配度是否达标。

9、第二方面，本申请提供一种基于改进zero-offload技术的大模型训练系统，所述系统包括：

10、准备单元，用于准备训练数据和模型参数；

11、参数处理单元，用于使用zero技术对模型参数进行处理，该处理包括：根据模型参数得到参数集合，将其中连续的非零参数分割成单独的参数子集，并将对应的连续非零参数的个数作为表征该参数子集的权值，将该权值与所述参数子集组合，得到处理后的若干参数子集，并通过量化、哈夫曼编码减少参数冗余；

12、任务分配单元，用于利用offload技术将计算任务分配给可扩展的计算资源，其中包括：将计算任务进行分片，将所述分片从主内存卸载，分配给可扩展的计算资源，在主内存中将所述分片的计算结果合并；

13、计算迁移单元，用于将计算密集型任务，其包括前向传播、反向传播，迁移到gpu进行计算；

14、动态分配单元，用于根据动态显存分配策略动态调整所述处理后的若干参数子集的存储方式和分片后的计算任务的分配；重复计算迁移单元和动态分配单元的功能直到训练完成；

15、保存单元，用于保存训练得到的模型参数和优化结果，其中包括：分别调用参数子集训练模型，得到不同的优化结果，从中选择精度匹配度最高的优化结果；或者，将调用的参数子集进行合并，训练模型得到唯一的优化结果，判断其精度的匹配度是否达标。

16、第三方面，本申请提供一种基于改进zero-offload技术的大模型训练系统，所述系统包括处理器以及存储器：

17、所述存储器用于存储程序代码，并将所述程序代码传输给所述处理器；

18、所述处理器用于根据所述程序代码中的指令执行第一方面四种可能中任一项所述的方法。

19、第四方面，本申请提供一种计算机可读存储介质，所述计算机可读存储介质用于存储程序代码，所述程序代码用于执行第一方面四种可能中任一项所述的方法。

20、有益效果

21、本专利技术提供一种基于改进zero-offload技术的大模型训练方法，通过优化内存使用、提高计算效率以及优化数据加载和并行计算，有效处理大规模模型训练时的内存和计算资源挑战；使用zero技术对模型参数进行压缩和去重，通过量化、哈夫曼编码等操作减少参数冗余，降低显存消耗；利用offload技术将计算任务分配给可扩展的计算资源，将计算密集型任务如前向传播、反向传播等迁移到gpu进行计算，实现计算能力的线性扩展；优化数据加载和并行计算，通过数据预处理、批量处理等方式提高数据加载效率；通过多线程、多进程等方式实现并行计算，进一步提高训练速度；本专利技术还提出一种动态显存分配策略，根据当前显存使用情况和任务需求，动态调整模型参数的存储方式和计算任务的分配，以最大化利用显存资源。

22、本专利技术的基于改进zero-offload技术的大模型训练方法和系统具有以下优点：

23、通过减少显存消耗和提高计算效率，可以显著缩短训练时间并降低计算资源消耗。同时，通过优化数据加载和并行计算，可以进一步提高训练速度和效率。此外，通过动态显存分配策略和改进zero-offload技术，可以更好地应对显存不足导致oom的问题，提高大模型训练的稳定性和可靠性。

本文档来自技高网...

【技术保护点】

1.一种基于改进ZeRO-Offload技术的大模型训练方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于：所述动态显存分配策略是指，根据当前显存使用情况和任务需求，动态调整模型参数的存储方式和计算任务的分配。

3.根据权利要求2所述的方法，其特征在于：所述重复步骤4和5直到训练完成的过程，包括：所有的计算密集型任务迁移完毕，以及所有的计算任务执行完毕，则训练完成。

4.根据权利要求3所述的方法，其特征在于：在所述根据动态显存分配策略动态调整之前，包括：确定场景类型，对应得到规则，生成不同的动态显存分配策略。

5.一种基于改进ZeRO-Offload技术的大模型训练系统，其特征在于，所述系统包括：

6.一种基于改进ZeRO-Offload技术的大模型训练系统，其特征在于，所述系统包括处理器以及存储器：

7.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质用于存储程序代码，所述程序代码用于处理器执行实现权利要求1-4任一项所述的方法。

【技术特征摘要】

1.一种基于改进zero-offload技术的大模型训练方法，其特征在于，所述方法包括：

4.根据权利要求3所述的方法，其特征在于：在所...

【专利技术属性】
技术研发人员：洪万福，钱智毅，朱成忠，徐佳吉，张宏伟，
申请(专利权)人：厦门渊亭信息科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人