大模型的训练方法和装置制造方法及图纸

技术编号：40358174 阅读：8 留言：0更新日期：2024-02-09 14:44

本说明书实施例提供一种大模型的训练方法和装置，所述大模型包括具有相同第一结构的第一数目个第一网络层；方法包括：在第一约束条件下对所述大模型进行初步训练；所述第一约束条件限定，在所述初步训练过程中，不同的第一网络层采用相同的参数；在取消所述第一约束条件限制的情况下，对初步训练后的所述大模型进行继续训练。能够保证模型快速收敛。

全部详细技术资料下载

【技术实现步骤摘要】

本说明书一个或多个实施例涉及计算机领域，尤其涉及大模型的训练方法和装置。

技术介绍

1、在人工智能领域，大模型是指具有大量参数的模型，例如，拥有超过10亿个参数的深度神经网络，它们能够处理海量数据、完成各种复杂的任务，如自然语言处理、计算机视觉、语音识别等。随着计算机硬件性能的不断提升和深度学习算法的不断优化，大模型的发展也越来越快速。大模型的参数规模不断扩大，训练时间也越来越长，性能也随之提升。现在，大模型已经成为人工智能领域的重要研究方向之一，许多企业和机构都在研发自己的大模型，以期在各种任务上取得更好的表现。

2、现有技术中，可以搜集大量样本数据来训练自己的大模型，其中，样本数据可能涉及用户的隐私数据，需要保护隐私数据不被泄露。此外，在训练大模型时，由于模型的参数量过大常常造成模型不收敛。

技术实现思路

1、本说明书一个或多个实施例描述了一种大模型的训练方法和装置，能够保证模型快速收敛。

2、第一方面，提供了一种大模型的训练方法，大模型包括具有相同第一结构的第一数目个第一网络层；方法包括：

3、在第一约束条件下对所述大模型进行初步训练；所述第一约束条件限定，在所述初步训练过程中，不同的第一网络层采用相同的参数；

4、在取消所述第一约束条件限制的情况下，对初步训练后的所述大模型进行继续训练。

5、在一种可能的实施方式中，所述第一结构包括第一网络部分和第二网络部分；所述继续训练包括，先后进行的具有第二约束条件的第一子训练

6、进一步地，所述大模型具体为适用于图片模态和文本模态的多模态大模型，所述第一网络部分包括自注意力子层，所述第二网络部分包括，对应于图片模态的第一前馈神经网络子层和对应于文本模态的第二前馈神经网络子层。

7、在一种可能的实施方式中，所述大模型还包括具有相同第二结构的第二数目个第二网络层；所述第一约束条件还限定，在所述初步训练过程中，不同的第二网络层采用相同的参数。

8、进一步地，所述第二结构包括第三网络部分和第四网络部分；所述继续训练包括，先后进行的具有第二约束条件的第一子训练和取消第二约束条件的第二子训练；所述第二约束条件限定，在子训练过程中，不同的第二网络层的第三网络部分采用相同的参数。

9、进一步地，所述第一结构包括第一网络部分和第二网络部分；所述第二约束条件还限定，在子训练过程中，不同的第一网络层的第一网络部分采用相同的参数。

10、进一步地，所述大模型具体为适用于图片模态和文本模态的多模态大模型，所述第一网络部分包括自注意力子层，所述第二网络部分包括，对应于图片模态的第一前馈神经网络子层和对应于文本模态的第二前馈神经网络子层；所述第三网络部分为两个模态共享的自注意力子层，所述第四网络部分包括两个模态共享的第三前馈神经网络子层。

11、在一种可能的实施方式中，所述大模型为适用于图片模态和文本模态的多模态大模型，其输入包括图片模态的第一初始向量和文本模态的第二初始向量，输出包括图片模态的第一融合向量和文本模态的第二融合向量；所述第一初始向量包括样本图片的图片嵌入向量和其中多个图像块分别对应的块嵌入向量，所述第二初始向量包括样本句子的句子嵌入向量和其中多个分词分别对应的词嵌入向量，所述第一融合向量包括样本图片的图片融合向量和所述多个图像块分别对应的块融合向量，所述第二融合向量包括样本句子的句子融合向量和所述多个分词分别对应的词融合向量。

12、进一步地，所述初步训练和/或所述继续训练包括如下的训练方式：通过最大化正样本对中包括的样本图片和样本句子的相似性分数，并且最小化负样本对中包括的样本图片和样本句子的相似性分数，调整模型参数；相似性分数根据样本图片的图片融合向量和样本句子的句子融合向量的向量相似度而确定。

13、进一步地，所述初步训练和/或所述继续训练包括如下的训练方式：随机掩盖所述第一初始向量中部分图像块对应的块嵌入向量，或者，随机掩盖所述第二初始向量中部分分词对应的词嵌入向量，通过模型的输出预测掩盖的图像块或分词，根据预测的掩盖对象和实际的掩盖对象，调整模型参数。

14、第二方面，提供了一种大模型的训练装置，大模型包括具有相同第一结构的第一数目个第一网络层；装置包括：

15、第一训练单元，用于在第一约束条件下对所述大模型进行初步训练；所述第一约束条件限定，在所述初步训练过程中，不同的第一网络层采用相同的参数；

16、第二训练单元，用于在取消所述第一约束条件限制的情况下，对所述第一训练单元得到的初步训练后的所述大模型进行继续训练。

17、第三方面，提供了一种计算机可读存储介质，其上存储有计算机程序，当所述计算机程序在计算机中执行时，令计算机执行第一方面的方法。

18、第四方面，提供了一种计算设备，包括存储器和处理器，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，实现第一方面的方法。

19、通过本说明书实施例提供的方法和装置，针对大模型包括具有相同第一结构的第一数目个第一网络层这样的结构特征，采用了如下的训练方式：首先在第一约束条件下对所述大模型进行初步训练；所述第一约束条件限定，在所述初步训练过程中，不同的第一网络层采用相同的参数；然后在取消所述第一约束条件限制的情况下，对初步训练后的所述大模型进行继续训练。由上可见，本说明书实施例，在所述初步训练过程中，不同的第一网络层采用相同的参数，使得模型训练中待调整的参数量相对于原参数量大大减小，后续在所述继续训练过程中，再逐步扩大待调整的参数量，能够保证模型快速收敛。

本文档来自技高网...

【技术保护点】

1.一种大模型的训练方法，所述大模型包括具有相同第一结构的第一数目个第一网络层；所述方法包括：

2.如权利要求1所述的方法，其中，所述第一结构包括第一网络部分和第二网络部分；所述继续训练包括，先后进行的具有第二约束条件的第一子训练和取消第二约束条件的第二子训练；其中，所述第二约束条件限定，子训练过程中不同的第一网络层的第一网络部分采用相同的参数。

3.如权利要求2所述的方法，其中，所述大模型具体为适用于图片模态和文本模态的多模态大模型，所述第一网络部分包括自注意力子层，所述第二网络部分包括，对应于图片模态的第一前馈神经网络子层和对应于文本模态的第二前馈神经网络子层。

4.如权利要求1所述的方法，其中，所述大模型还包括具有相同第二结构的第二数目个第二网络层；所述第一约束条件还限定，在所述初步训练过程中，不同的第二网络层采用相同的参数。

5.如权利要求4所述的方法，其中，所述第二结构包括第三网络部分和第四网络部分；所述继续训练包括，先后进行的具有第二约束条件的第一子训练和取消第二约束条件的第二子训练；所述第二约束条件限定，在子训练过程中

6.如权利要求5所述的方法，其中，所述第一结构包括第一网络部分和第二网络部分；所述第二约束条件还限定，在子训练过程中，不同的第一网络层的第一网络部分采用相同的参数。

7.如权利要求6所述的方法，其中，所述大模型具体为适用于图片模态和文本模态的多模态大模型，所述第一网络部分包括自注意力子层，所述第二网络部分包括，对应于图片模态的第一前馈神经网络子层和对应于文本模态的第二前馈神经网络子层；所述第三网络部分为两个模态共享的自注意力子层，所述第四网络部分包括两个模态共享的第三前馈神经网络子层。

8.如权利要求1所述的方法，其中，所述大模型为适用于图片模态和文本模态的多模态大模型，其输入包括图片模态的第一初始向量和文本模态的第二初始向量，输出包括图片模态的第一融合向量和文本模态的第二融合向量；所述第一初始向量包括样本图片的图片嵌入向量和其中多个图像块分别对应的块嵌入向量，所述第二初始向量包括样本句子的句子嵌入向量和其中多个分词分别对应的词嵌入向量，所述第一融合向量包括样本图片的图片融合向量和所述多个图像块分别对应的块融合向量，所述第二融合向量包括样本句子的句子融合向量和所述多个分词分别对应的词融合向量。

9.如权利要求8所述的方法，其中，所述初步训练和/或所述继续训练包括如下的训练方式：通过最大化正样本对中包括的样本图片和样本句子的相似性分数，并且最小化负样本对中包括的样本图片和样本句子的相似性分数，调整模型参数；相似性分数根据样本图片的图片融合向量和样本句子的句子融合向量的向量相似度而确定。

10.如权利要求8所述的方法，其中，所述初步训练和/或所述继续训练包括如下的训练方式：随机掩盖所述第一初始向量中部分图像块对应的块嵌入向量，或者，随机掩盖所述第二初始向量中部分分词对应的词嵌入向量，通过模型的输出预测掩盖的图像块或分词，根据预测的掩盖对象和实际的掩盖对象，调整模型参数。

11.一种大模型的训练装置，所述大模型包括具有相同第一结构的第一数目个第一网络层；所述装置包括：

12.一种计算机可读存储介质，其上存储有计算机程序，当所述计算机程序在计算机中执行时，令计算机执行权利要求1-10中任一项的所述的方法。

13.一种计算设备，包括存储器和处理器，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，实现权利要求1-10中任一项的所述的方法。

...

【技术特征摘要】

1.一种大模型的训练方法，所述大模型包括具有相同第一结构的第一数目个第一网络层；所述方法包括：

5.如权利要求4所述的方法，其中，所述第二结构包括第三网络部分和第四网络部分；所述继续训练包括，先后进行的具有第二约束条件的第一子训练和取消第二约束条件的第二子训练；所述第二约束条件限定，在子训练过程中，不同的第二网络层的第三网络部分采用相同的参数。

【专利技术属性】
技术研发人员：徐富荣，郭清沛，杨铭，
申请(专利权)人：支付宝杭州信息技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人