预训练模型训练处理方法、装置、电子设备及存储介质制造方法及图纸

技术编号:33952669 阅读:12 留言:0更新日期:2022-06-29 22:47
本发明专利技术提供一种预训练模型训练处理方法、装置、电子设备及存储介质,所述方法应用于对待处理模型进行训练处理的服务器,所述服务器包括多个图形处理器,所述方法包括:将关于所述待处理模型的训练数据分摊至各个所述图形处理器;基于数据并行技术,通过各个所述图形处理器对所述训练数据进行分布式计算,用以实现对所述待处理模型进行训练。通过本发明专利技术提供的预训练模型训练处理方法,可以确保待处理模型能够在较小的空间占用下实现高效训练。型能够在较小的空间占用下实现高效训练。型能够在较小的空间占用下实现高效训练。

【技术实现步骤摘要】
预训练模型训练处理方法、装置、电子设备及存储介质


[0001]本专利技术涉及模型训练
,尤其涉及一种预训练模型训练处理方法、装置、电子设备及存储介质。

技术介绍

[0002]近年来,预训练模型成为研究热点,例如,预训练语言模型已成为自然语言处理领域的研究热点。预训练语言模型旨在让机器具有与人类相似的语言能力。其通过为模型提供合适的语料库,让模型从中进行自监督学习,最终具备一定的语言理解能力、辨析能力、生成能力等。随着深度学习技术的发展和GPU计算能力的提升,预训练语言模型逐渐向大规模预训练语言模型发展,旨在通过几十亿甚至百亿的参数量和超大规模的语料库,让模型具备更强大的语言能力。迄今为止,这些大型模型已经在许多语言任务上取得了可喜的成果。
[0003]然而,如此大规模的对预训练语言模型的预训练,通常需要和非常长时间的人力物力投入,消耗巨量的计算资源,这无疑会在时间、存储、金钱等方面产生巨大的成本。

技术实现思路

[0004]本专利技术提供一种预训练模型训练处理方法、装置、电子设备及存储介质,用以解决现有技术中对于大规模预训练模型在训练过程中存在的高成本、低效率缺陷,实现了大规模预训练模型得以在较小的空间占用下,不失高效地训练。
[0005]本专利技术提供一种预训练模型训练处理方法,所述方法应用于对待处理模型进行训练处理的服务器,所述服务器包括多个图形处理器,所述方法包括:将关于所述待处理模型的训练数据分摊至各个所述图形处理器;基于数据并行技术,通过各个所述图形处理器对所述训练数据进行分布式计算,用以实现对所述待处理模型进行训练。
[0006]根据本专利技术提供的一种预训练模型训练处理方法,所述通过各个所述图形处理器对所述训练数据进行分布式计算,用以实现对所述待处理模型进行训练,包括:通过各个所述图形处理器对所述训练数据进行分布式计算,得到关于所述待处理模型的模型参数;将所述模型参数分摊至各个所述图形处理器,并通过各个所述图形处理器对所述模型参数进行分布式计算,用以实现对所述待处理模型进行训练。
[0007]根据本专利技术提供的一种预训练模型训练处理方法,所述图形处理器包括第一图形处理器,所述将所述模型参数分摊至各个所述图形处理器,并通过各个所述图形处理器对所述模型参数进行分布式计算,包括:响应于所述第一图形处理器发起请求指令,基于通信传输获取第二图形处理器中的模型参数,其中,所述请求指令为关于获取所述第二图形处理器中的模型参数的请求,所述第二图形处理器为除所述第一图形处理器之外的其他图形处理器;基于所述第二图形处理器中的模型参数和所述第一图形处理器中的模型参数,通过所述第一图像处理器进行计算,并在计算完毕后从所述第一图形处理器中释放所述第二图形处理器中的模型参数。
[0008]根据本专利技术提供的一种预训练模型训练处理方法,所述服务器包括中央处理器,在所述将所述模型参数分摊至各个所述图形处理器,并通过各个所述图形处理器对所述模型参数进行分布式计算之后,所述方法还包括:将所述模型参数的优化参数卸载至所述中央处理器进行存储;响应于各个所述图形处理器进行所述模型参数的优化处理,将所述优化参数由所述中央处理器加载至所述图形处理器中进行所述模型参数的优化处理;响应于优化处理完成,将加载至所述图形处理器中的所述优化参数在所述图形处理器中进行释放。
[0009]根据本专利技术提供的一种预训练模型训练处理方法,所述方法还包括:将所述图形处理器的显存至少划分出第一显存池和第二显存池;所述将所述优化参数由所述中央处理器加载至所述图形处理器中进行所述模型参数的优化处理,包括:在同一时刻,基于所述第一显存池和所述第二显存池交替执行相邻所述优化参数由所述中央处理器加载至所述图形处理器的加载处理,以及在所述图形处理器中基于所述优化参数进行所述模型参数的优化处理。
[0010]根据本专利技术提供的一种预训练模型训练处理方法,在所述将所述模型参数分摊至各个所述图形处理器,并通过各个所述图形处理器对所述模型参数进行分布式计算之后,所述方法还包括:将检查点保存至所述图形处理器,其中,所述检查点为在正向传播过程中计算得到的呈离散状分布的隐状态;在反向传播过程中,基于所述检查点对相邻所述检查点之间的信息进行正向传播计算,以得到重放信息;通过所述图形处理器获取所述重放信息,并基于所述重放信息对所述待处理模型进行反向传播训练,并在训练完成后从所述图形处理器中释放所述重放信息。
[0011]根据本专利技术提供的一种预训练模型训练处理方法,在所述将所述模型参数分摊至各个所述图形处理器,并通过各个所述图形处理器对所述模型参数进行分布式计算之后,所述方法还包括:确定损失函数的初始放缩比例,其中,所述初始放缩比例大于或等于第一比例阈值;基于所述初始放缩比例对所述损失函数进行处理,并得到关于处理后损失函数的梯度;若所述梯度发生上溢,将减小所述初始放缩比例,直至基于减少后的初始放缩比例得到的梯度不发生上溢。
[0012]根据本专利技术提供的一种预训练模型训练处理方法,在所述若所述梯度发生上溢,将减小所述初始放缩比例,直至基于减少后的初始放缩比例得到的梯度不发生上溢之后,所述方法还包括:在预设时间间隔后,将增加所述初始放缩比例,并监测基于增加后的初始放缩比例得到的梯度是否发生上溢;若所述梯度不发生上溢,则将增加后的初始放缩比例作为当前时间间隔内最终的初始放缩比例,并重复执行基于所述初始放缩比例对所述损失函数进行处理的步骤。
[0013]本专利技术还提供一种预训练模型训练处理装置,所述装置应用于对待处理模型进行训练处理的服务器,所述服务器包括多个图形处理器,所述装置包括:分摊模块,用于将关于所述待处理模型的训练数据分摊至各个所述图形处理器;处理模块,用于基于数据并行技术,通过各个所述图形处理器对所述训练数据进行分布式计算,用以实现对所述待处理模型进行训练。
[0014]本专利技术还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述的预训练模型
训练处理方法。
[0015]本专利技术还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述的预训练模型训练处理方法。
[0016]本专利技术还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上述任一种所述的预训练模型训练处理方法。
[0017]本专利技术提供的预训练模型训练处理方法、装置、电子设备及存储介质,通过各个图形处理器对训练数据进行分布式计算来实现对待处理模型进行训练,可以确保待处理模型能够在较小的空间占用下进行高效训练,从而提高了训练效率、减少了训练成本。
附图说明
[0018]为了更清楚地说明本专利技术或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种预训练模型训练处理方法,其特征在于,所述方法应用于对待处理模型进行训练处理的服务器,所述服务器包括多个图形处理器,所述方法包括:将关于所述待处理模型的训练数据分摊至各个所述图形处理器;基于数据并行技术,通过各个所述图形处理器对所述训练数据进行分布式计算,用以实现对所述待处理模型进行训练。2.根据权利要求1所述的预训练模型训练处理方法,其特征在于,所述通过各个所述图形处理器对所述训练数据进行分布式计算,用以实现对所述待处理模型进行训练,包括:通过各个所述图形处理器对所述训练数据进行分布式计算,得到关于所述待处理模型的模型参数;将所述模型参数分摊至各个所述图形处理器,并通过各个所述图形处理器对所述模型参数进行分布式计算,用以实现对所述待处理模型进行训练。3.根据权利要求2所述的预训练模型训练处理方法,其特征在于,所述图形处理器包括第一图形处理器,所述将所述模型参数分摊至各个所述图形处理器,并通过各个所述图形处理器对所述模型参数进行分布式计算,包括:响应于所述第一图形处理器发起请求指令,基于通信传输获取第二图形处理器中的模型参数,其中,所述请求指令为关于获取所述第二图形处理器中的模型参数的请求,所述第二图形处理器为除所述第一图形处理器之外的其他图形处理器;基于所述第二图形处理器中的模型参数和所述第一图形处理器中的模型参数,通过所述第一图像处理器进行计算,并在计算完毕后从所述第一图形处理器中释放所述第二图形处理器中的模型参数。4.根据权利要求2所述的预训练模型训练处理方法,其特征在于,所述服务器包括中央处理器,在所述将所述模型参数分摊至各个所述图形处理器,并通过各个所述图形处理器对所述模型参数进行分布式计算之后,所述方法还包括:将所述模型参数的优化参数卸载至所述中央处理器进行存储;响应于各个所述图形处理器进行所述模型参数的优化处理,将所述优化参数由所述中央处理器加载至所述图形处理器中进行所述模型参数的优化处理;响应于优化处理完成,将加载至所述图形处理器中的所述优化参数在所述图形处理器中进行释放。5.根据权利要求4所述的预训练模型训练处理方法,其特征在于,所述方法还包括:将所述图形处理器的显存至少划分出第一显存池和第二显存池;所述将所述优化参数由所述中央处理器加载至所述图形处理器中进行所述模型参数的优化处理,包括:在同一时刻,基于所述第一显存池和所述第二显存池交替执行相邻所述优化参数由所述中央处理器加载至所述图形处理器的加载处理,以及在所述图形处理器中基于所述优化参数进行所述模型参数的优化处理。6.根据权利要求2所述的...

【专利技术属性】
技术研发人员:贾超郑直
申请(专利权)人:北京智源人工智能研究院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1