System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种基于大语言模型的GPU高性能精调训练方法及系统技术方案_技高网

一种基于大语言模型的GPU高性能精调训练方法及系统技术方案

技术编号:40553930 阅读:7 留言:0更新日期:2024-03-05 19:14
本发明专利技术公开了一种基于大语言模型的GPU高性能精调训练方法及系统,该方法包括以下步骤:S1、获取大语言模型、初始训练数据,所述大语言模型包括若干个工作节点、若干个参数矩阵,所述大语言模型为每个所述工作节点分配对应的所述参数矩阵;S2、将所述大语言模型的训练划分为模型推理阶段和梯度通信阶段;S3、在所述模型推理阶段,基于低秩分解策略将所述参数矩阵划分为低维子矩阵,并得到梯度矩阵;S4、在所述梯度通信阶段,基于双重压缩对所述梯度矩阵进行压缩,替换并更新所述参数矩阵;S5、基于替换更新后的参数矩阵在对应的工作节点中进行训练。本发明专利技术基于大语言模型的GPU高性能精调训练方法及系统具有计算速度快、占用内存少的特点。

【技术实现步骤摘要】

本专利技术涉及分布式深度学习领域,具体涉及一种基于大语言模型的gpu高性能精调训练方法及系统。


技术介绍

1、近些年来,伴随着gpu硬件的发展,基于神经网络的深度学习的浪潮引发了新一轮的人工智能革命。其中,大语言模型作为集成自然语言处理、计算机视觉、情感计算等等热门技术的大成者,是人工智能发展阶段的里程碑。大语言模型的应用最早可以追溯到google公司于2019年开发的t5大语言模型,通过针对海量数据的标注以及基于专家的反馈机制,使得大语言模型开始拥有近乎常人的思维理解能力。在2022年年末openai公司开发出最新版本的大语言模型-chatgpt,在面向人工智能的工业界和学术界引发了强烈的反响。与此同时,在2023年国内外涌现出了多种多样的大语言模型。然而,就开发人员而言,如何根据通用的大语言模型自行依照需求,给予训练数据语料从而完善大语言模型的精调,设计出满足工作需求的行业大模型成为现今的热点。

2、正因为大语言模型的数据以及模型规模庞大,针对其训练场景需要满足多级多卡机制,因此通常对于大语言模型的训练常常需要涉及到分布式深度学习领域。大语言模型的结构是由多层深度神经网络模型构成的,然而这些深度神经网络层在推理运算时会产生大量的张量数据,不仅仅消耗了gpu内存,同时这些这些庞大的深度神经网络层也会严重滞后大语言模型的推理速度,与此同时,由于深度神经网络模型采用并行方式比如数据并行、张量并行、流水线并行等对训练模型以及数据进行切分,因此需要定期的进行数据聚合来抵消由于训练数据带来的误差。而在数据聚合的gpu节点通信交流过程中,大规模的参数或者梯度矩阵也会带来严重的通信负荷问题。

3、由此可知,基于分布式深度学习的大语言模型训练任务主要存在以下两个问题。一方面,在模型推理模块中,高维大规模的参数矩阵的计算以及更新会导致模型的计算时间变慢以及占据gpu内存。另一方面,在模型交流通信模块中,受限于gpu通信带宽受限的条件下,高维大规模的参数或者梯度矩阵会产生严重的网络通信拥塞问题,最终会导致大语言模型训练时间的延长。


技术实现思路

1、专利技术目的:本专利技术目的是提供一种计算速度快、内存占用少的基于大语言模型的gpu高性能精调训练方法及系统。

2、技术方案:本专利技术所述的基于大语言模型的gpu高性能精调训练方法,包括以下步骤:

3、s1、获取大语言模型、初始训练数据,所述大语言模型包括若干个工作节点、若干个参数矩阵,所述若干个参数矩阵由所述初始训练数据预处理后输入到大语言模型中得到;所述大语言模型为每个所述工作节点分配对应的所述参数矩阵;

4、s2、所述大语言模型用于依次在所述工作节点中按所述参数矩阵进行训练,将所述大语言模型的训练划分为模型推理阶段和梯度通信阶段;

5、s3、在所述模型推理阶段,基于低秩分解策略将所述参数矩阵划分为低维子矩阵,将所述低维子矩阵进行梯度计算,得到梯度矩阵;

6、s4、在所述梯度通信阶段,基于双重压缩对所述梯度矩阵进行压缩,生成压缩结果,利用所述压缩结果替换并更新所述参数矩阵;

7、s5、基于替换更新后的参数矩阵在对应的工作节点中训练所述大语言模型,训练完成。

8、进一步的,步骤s3中,所述梯度矩阵包括若干个初始元素,所述初始元素表示梯度值。

9、进一步的,所述梯度通信阶段包括梯度上传阶段、梯度下行阶段。

10、进一步的,所述双重压缩包括梯度稀疏化操作、无偏量化操作。

11、进一步的,所述梯度稀疏化操作包括以下步骤:

12、s411、取所述初始元素梯度值的绝对值,并将初始元素按所述绝对值的大小排序,一个初始元素对应一个排序号;

13、s412、设置压缩率,并基于所述压缩率按排序选择一部分初始元素,将未选择的另一部分初始元素的梯度值赋值为零;

14、s413、保存选择的初始元素的排序号以及梯度值。

15、进一步的,所述梯度上传阶段将所述选择的初始元素的排序号以及梯度值聚合为次梯度矩阵;所述次梯度矩阵包括若干非零元素,所述非零元素表示梯度值。

16、进一步的,所述无偏量化操作包括以下步骤:

17、s421、计算所述次梯度矩阵的二阶范式;

18、s422、取所述非零元素梯度值的绝对值,并将所有非零元素的绝对值依次除以所述二阶范式,得到非零元素的概率;

19、s423、基于所述概率划分量化级数,并将非零元素归约到对应的量化级,生成压缩结果。

20、进一步的,在所述梯度下行阶段中,将所述压缩结果替换更新对应的参数矩阵。

21、进一步的,所述梯度稀疏化操作基于top-k算法实现、所述无偏量化操作基于qsgd算法实现。

22、技术方案:本专利技术所述的基于大语言模型的gpu高性能精调训练系统包括:

23、模型获取模块,用以获取大语言模型、初始训练数据,所述大语言模型包括若干个工作节点,预处理所述初始训练数据得到若干个参数矩阵;所述大语言模型为每个所述工作节点分配对应的所述参数矩阵;

24、训练划分模块,所述大语言模型用于依次在所述工作节点中按所述参数矩阵进行训练,用以将所述大语言模型的训练划分为模型推理阶段和梯度通信阶段;

25、模型推理模块,用以在所述模型推理阶段,基于低秩分解策略将所述参数矩阵划分为低维子矩阵,将所述低维子矩阵进行梯度计算,得到梯度矩阵;

26、梯度通信模块,用以在所述梯度通信阶段,基于双重压缩对所述梯度矩阵进行压缩,生成压缩结果;采用所述压缩结果替换并更新所述参数矩阵;

27、模型训练模块,用以基于替换更新后的参数矩阵在对应的工作节点中训练所述大语言模型,训练完成。

28、有益效果:本专利技术具有如下显著效果:1、本专利技术训练时计算速度快:针对大语言模型的模型推理训练阶段采取低秩分解技术,通过将深度神经网络模型的参数矩阵进行特征矩阵分解得到更小规模的低维子矩阵,并对这些低维子矩阵基于随机梯度下降法进行参数更新从而节省时间,采用梯度压缩技术,融合有损的梯度稀疏化技术top-k算法以及数学期望上统计无偏的数值量化策略qsgd来进行梯度压缩从而节省训练时间,达到计算速度快的效果;2、本专利技术训练时占用内存少:通过对面向分布式的大模型训练架构的模型推理以及梯度通信训练阶段进行优化,从而在节省模型训练时间的同时减少模型负载的损耗;同时通过大语言模型训练框架减少了模型性能的降级。梯度张量的稀疏化是通过排序选取梯度矩阵中绝对值数值较大的元素加以传输,而梯度的量化是对于高比特位表示的梯度矩阵使用更低比特位加以表示,这里主要是采取错误补偿机制来减小误差。

本文档来自技高网...

【技术保护点】

1.一种基于大语言模型的GPU高性能精调训练方法,其特征在于,所述方法包括以下步骤:

2.根据权利要求1所述的基于大语言模型的GPU高性能精调训练方法,其特征在于,步骤S3中,所述梯度矩阵包括若干个初始元素,所述初始元素表示梯度值。

3.根据权利要求2所述的基于大语言模型的GPU高性能精调训练方法,其特征在于,所述梯度通信阶段包括梯度上传阶段、梯度下行阶段。

4.根据权利要求3所述的基于大语言模型的GPU高性能精调训练方法,其特征在于,所述双重压缩包括梯度稀疏化操作、无偏量化操作。

5.根据权利要求4所述的基于大语言模型的GPU高性能精调训练方法,其特征在于,所述梯度稀疏化操作包括以下步骤:

6.根据权利要求5所述的基于大语言模型的GPU高性能精调训练方法,其特征在于,所述梯度上传阶段将所述选择的初始元素的排序号以及梯度值聚合为次梯度矩阵;所述次梯度矩阵包括若干非零元素,所述非零元素表示梯度值。

7.根据权利要求6所述的基于大语言模型的GPU高性能精调训练方法,其特征在于,所述无偏量化操作包括以下步骤:>

8.根据权利要求3所述的基于大语言模型的GPU高性能精调训练方法,其特征在于,在所述梯度下行阶段中,将所述压缩结果替换更新对应的参数矩阵。

9.根据权利要求4所述的基于大语言模型的GPU高性能精调训练方法,其特征在于,所述梯度稀疏化操作基于Top-k算法实现、所述无偏量化操作基于Qsgd算法实现。

10.一种基于大语言模型的GPU高性能精调训练系统,其特征在于,包括:

...

【技术特征摘要】

1.一种基于大语言模型的gpu高性能精调训练方法,其特征在于,所述方法包括以下步骤:

2.根据权利要求1所述的基于大语言模型的gpu高性能精调训练方法,其特征在于,步骤s3中,所述梯度矩阵包括若干个初始元素,所述初始元素表示梯度值。

3.根据权利要求2所述的基于大语言模型的gpu高性能精调训练方法,其特征在于,所述梯度通信阶段包括梯度上传阶段、梯度下行阶段。

4.根据权利要求3所述的基于大语言模型的gpu高性能精调训练方法,其特征在于,所述双重压缩包括梯度稀疏化操作、无偏量化操作。

5.根据权利要求4所述的基于大语言模型的gpu高性能精调训练方法,其特征在于,所述梯度稀疏化操作包括以下步骤:

6.根据权利要求5所述的基于大语言模型...

【专利技术属性】
技术研发人员:李雪中张锦辉王鹏王想赵裕啸汪苏杰赵宇轩胡健王妤琼
申请(专利权)人:江苏瑞中数据股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1