预训练模型训练处理方法、装置、电子设备及存储介质制造方法及图纸

技术编号：33952669 阅读：12 留言：0更新日期：2022-06-29 22:47

本发明专利技术提供一种预训练模型训练处理方法、装置、电子设备及存储介质，所述方法应用于对待处理模型进行训练处理的服务器，所述服务器包括多个图形处理器，所述方法包括：将关于所述待处理模型的训练数据分摊至各个所述图形处理器；基于数据并行技术，通过各个所述图形处理器对所述训练数据进行分布式计算，用以实现对所述待处理模型进行训练。通过本发明专利技术提供的预训练模型训练处理方法，可以确保待处理模型能够在较小的空间占用下实现高效训练。型能够在较小的空间占用下实现高效训练。型能够在较小的空间占用下实现高效训练。

全部详细技术资料下载

【技术实现步骤摘要】
预训练模型训练处理方法、装置、电子设备及存储介质

[0001]本专利技术涉及模型训练
，尤其涉及一种预训练模型训练处理方法、装置、电子设备及存储介质。

技术介绍

[0002]近年来，预训练模型成为研究热点，例如，预训练语言模型已成为自然语言处理领域的研究热点。预训练语言模型旨在让机器具有与人类相似的语言能力。其通过为模型提供合适的语料库，让模型从中进行自监督学习，最终具备一定的语言理解能力、辨析能力、生成能力等。随着深度学习技术的发展和GPU计算能力的提升，预训练语言模型逐渐向大规模预训练语言模型发展，旨在通过几十亿甚至百亿的参数量和超大规模的语料库，让模型具备更强大的语言能力。迄今为止，这些大型模型已经在许多语言任务上取得了可喜的成果。
[0003]然而，如此大规模的对预训练语言模型的预训练，通常需要和非常长时间的人力物力投入，消耗巨量的计算资源，这无疑会在时间、存储、金钱等方面产生巨大的成本。

技术实现思路

[0004]本专利技术提供一种预训练模型训练处理方法、装置、电子设备及存储介质，用以解决现有技术中对于大规模预训练模型在训练过程中存在的高成本、低效率缺陷，实现了大规模预训练模型得以在较小的空间占用下，不失高效地训练。
[0005]本专利技术提供一种预训练模型训练处理方法，所述方法应用于对待处理模型进行训练处理的服务器，所述服务器包括多个图形处理器，所述方法包括：将关于所述待处理模型的训练数据分摊至各个所述图形处理器；基于数据并行技术，通过各个所述图形处理器对所述训练数据...

【技术保护点】

【技术特征摘要】
1.一种预训练模型训练处理方法，其特征在于，所述方法应用于对待处理模型进行训练处理的服务器，所述服务器包括多个图形处理器，所述方法包括：将关于所述待处理模型的训练数据分摊至各个所述图形处理器；基于数据并行技术，通过各个所述图形处理器对所述训练数据进行分布式计算，用以实现对所述待处理模型进行训练。2.根据权利要求1所述的预训练模型训练处理方法，其特征在于，所述通过各个所述图形处理器对所述训练数据进行分布式计算，用以实现对所述待处理模型进行训练，包括：通过各个所述图形处理器对所述训练数据进行分布式计算，得到关于所述待处理模型的模型参数；将所述模型参数分摊至各个所述图形处理器，并通过各个所述图形处理器对所述模型参数进行分布式计算，用以实现对所述待处理模型进行训练。3.根据权利要求2所述的预训练模型训练处理方法，其特征在于，所述图形处理器包括第一图形处理器，所述将所述模型参数分摊至各个所述图形处理器，并通过各个所述图形处理器对所述模型参数进行分布式计算，包括：响应于所述第一图形处理器发起请求指令，基于通信传输获取第二图形处理器中的模型参数，其中，所述请求指令为关于获取所述第二图形处理器中的模型参数的请求，所述第二图形处理器为除所述第一图形处理器之外的其他图形处理器；基于所述第二图形处理器中的模型参数和所述第一图形处理器中的模型参数，通过所述第一图像处理器进行计算，并在计算完毕后从所述第一图形处理器中释放所述第二图形处理器中的模型参数。4.根据权利要求2所述的预训练模型训练处理方法，其特征在于，所述服务器包括中央处理器，在所述将所述模型参数分摊至各个所述图形处理器，并通过各个所述图形处理器对所述模型参数进行分布式计算之后，所述方法还包括：将所述模型参数的优化参数卸载至所述中央处理器进行存储；响应于各个所述图形处理器进行所述模型参数的优化处理，将所述优化参数由所述中央处理器加载至所述图形处理器中进行所述模型参数的优化处理；响应于优化处理完成，将加载至所述图形处理器中的所述优化参数在所述图形处理器中进行释放。5.根据权利要求4所述的预训练模型训练处理方法，其特征在于，所述方法还包括：将所述图形处理器的显存至少划分出第一显存池和第二显存池；所述将所述优化参数由所述中央处理器加载至所述图形处理器中进行所述模型参数的优化处理，包括：在同一时刻，基于所述第一显存池和所述第二显存池交替执行相邻所述优化参数由所述中央处理器加载至所述图形处理器的加载处理，以及在所述图形处理器中基于所述优化参数进行所述模型参数的优化处理。6.根据权利要求2所述的...

【专利技术属性】
技术研发人员：贾超，郑直，
申请(专利权)人：北京智源人工智能研究院，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人