【技术实现步骤摘要】
本公开涉及计算机,尤其涉及一种大模型训练方法、大模型训练装置、电子设备、计算机可读存储介质和计算机程序产品。
技术介绍
1、在人工智能和机器学习领域,大模型训练已成为一个重要的研究方向。随着大模型的规模的增加和训练数据的扩展,大模型的性能和能力得到了显著提升,但同时也带来了一系列技术挑战,尤其是在硬件资源的利用和优化方面。
2、在大模型的训练过程中,显存的占用是限制模型规模和训练效率的关键因素。显存的占用主要由以下几个部分构成:
3、模型数据:包括模型的权重和偏置参数,这些参数在训练过程中需要被存储和更新。
4、优化器数据:用于存储优化算法(如sgd、adam等)的状态,如动量和梯度平方的累积值。
5、模型梯度:在反向传播过程中计算得到的梯度,用于更新模型参数。
6、激活值:在模型的前向传播过程中,每一层的输出(激活值)需要被存储,以便在反向传播中使用。
7、随着训练文本长度的增加,激活值占用的显存比例显著提升,这给超长上下文的大模型训练带来了挑战。
>技术实本文档来自技高网...
【技术保护点】
1.一种大模型训练方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,所述从所述非易失性存储器读取所述分段数据至显存,包括:
3.根据权利要求1所述的方法,其特征在于,所述方法还包括:
4.根据权利要求1所述的方法,其特征在于,GPU计算与数据传输能够并行执行;
5.根据权利要求4所述的方法,其特征在于,所述GPU计算通过默认流执行,所述数据传输通过预取流执行,所述默认流域与所述预取流能够并行工作,且所述默认流在对每份分段数据执行GPU计算之前执行创建空张量操作。
6.根据权利要求1至5中任意
...【技术特征摘要】
1.一种大模型训练方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,所述从所述非易失性存储器读取所述分段数据至显存,包括:
3.根据权利要求1所述的方法,其特征在于,所述方法还包括:
4.根据权利要求1所述的方法,其特征在于,gpu计算与数据传输能够并行执行;
5.根据权利要求4所述的方法,其特征在于,所述gpu计算通过默认流执行,所述数据传输通过预取流执行,所述默认流域与所述预取流能够并行工作,且所述默认流在对每份分段数据执行gpu计算之前执行创建空张量操作。
6.根据权利要求1至5中任意一项所述的方法,其特征在于,
7.根据权利要求1至5中任意一项所述的方法,其特征在于,所述通过gpu对所述分段数据执行前向传播计算,得到所述分段数据对应的激活值,包括:
8.根据权利要求7所述的方法,其特征在于,所述通过gpu对所述分段数据执行多层感知器计算,得到所述分段数据对应的多层感知器输出结果,包括:
9.根据权利要求1至5中任意一项所述的方法,其特征在于,在所述得到所述...
【专利技术属性】
技术研发人员:请求不公布姓名,
申请(专利权)人:摩尔线程智能科技北京股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。