一种多任务大模型的训练方法及装置制造方法及图纸

技术编号：41385264 阅读：2 留言：0更新日期：2024-05-20 19:06

本说明书实施例涉及一种多任务大模型的训练方法及装置，所述大模型包括已训练的目标网络层，以及待训练的旁路任务网络，旁路任务网络包括若干通用适配器以及与多个专用适配器，所述方法包括：获取第一样本对应的第一嵌入向量，第一样本具有第一任务类型。然后，将第一嵌入向量分别输入目标网络层进行目标处理，以及输入旁路任务网络进行旁路处理，旁路处理包括，利用若干通用适配器，以及对应于第一任务类型的第一专用适配器分别处理第一嵌入向量，将各适配器处理结果加权求和，得到第二嵌入向量。然后，基于第二嵌入向量以及目标处理输出的第三嵌入向量确定预测结果。最后，根据预测结果对应的损失，更新旁路任务网络。

全部详细技术资料下载

【技术实现步骤摘要】

本说明书一个或多个实施例涉及人工智能领域，尤其涉及一种多任务大模型的训练方法及装置。

技术介绍

1、随着计算机硬件算力的提升以及大规模数据集的可用性的提高，拥有庞大规模参数、能力更强的大模型走进了人们的视野。大模型一般在大规模数据集上进行预训练(pre-training)之后，再根据下游的具体任务使用相应的小规模数据集进行微调(fine-tuning)，以适应具体的任务。

2、如果想让大模型同时适用于多种任务类型的任务，则需要在多个任务类型的数据集上分别或同时对大模型进行微调。然而，不同任务类型的任务信号可能会相互干扰，产生“跷跷板效应”(seesaw phenomenon)，即在强化大模型针对于某种任务类型的任务的能力时，大模型针对于其它任务类型的能力会降低。同时，由于下游任务的数据集与预训练时的数据集之间存在异质性，直接进行微调难以达到很好的效果，甚至可能会产生负向迁移(negative transfer)，即微调后的大模型的效果还不如微调之前的大模型。因此，需要一种更好的方法，在多任务场景下对大模型进行微调，使得微调后的大模型能够同时适用于多种任务类型的任务。

技术实现思路

1、本说明书一个或多个实施例描述了一种多任务大模型的训练方法及装置，可以增强训练后的大模型的泛化效果，以同时适用于多种任务场景。

2、第一方面，提供了一种多任务大模型的训练方法，所述大模型包括已训练的目标网络层，以及待训练的旁路任务网络，所述旁路任务网络包括若干通用适配器以及与多个

3、获取第一样本对应的第一嵌入向量，其中，所述第一样本包括图像数据和文本数据中的至少一项，并具有第一任务类型，所述第一任务类型属于所述多个预设任务类型；

4、将所述第一嵌入向量分别输入所述目标网络层进行目标处理，以及输入所述旁路任务网络进行旁路处理，所述旁路处理包括，利用所述若干通用适配器，以及所述多个专用适配器中对应于所述第一任务类型的第一专用适配器分别处理所述第一嵌入向量，并根据所述权重参数，将各适配器处理结果加权求和，得到第二嵌入向量；

5、基于所述第二嵌入向量以及所述目标处理输出的第三嵌入向量确定输出向量，根据所述输出向量确定预测结果；

6、根据所述预测结果对应的损失，更新所述旁路任务网络。

7、在一种可能的实施方式中，当所述第一样本为图像数据时，所述任务类型至少包括：图像分类、目标检测、图像分割、图像描述；

8、当所述第一样本为文本数据时，所述任务类型至少包括：文本分类、命名实体识别、文本摘要、文本问答、文本情感识别。

9、在一种可能的实施方式中，所述第一样本包括图像数据以及文本数据；所述多个预设任务类型是与图像和文本之间的关联相关的任务。

10、在一种可能的实施方式中，所述大模型包括图像编码器，桥接网络，自然语言处理网络；所述桥接网络连接在所述图像编码器与自然语言处理网络之间，用于将图像编码器的编码结果转换到文本表征空间；所述目标网络层属于所述桥接网络，所述第一嵌入向量对应于所述图像数据。

11、在一种可能的实施方式中，所述大模型包括图像编码器，桥接网络，自然语言处理网络；所述桥接网络连接在所述图像编码器与自然语言处理网络之间，用于将图像编码器的编码结果转换到文本表征空间；所述目标网络层包括第一目标层和第二目标层，所述旁路任务网络包括作为第一目标层旁路的第一任务网络，和作为第二目标层旁路的第二任务网络；所述第一目标层属于所述桥接网络，所述第二目标层属于所述自然语言处理网络。

12、在一种可能的实施方式中，所述权重参数包括，第一参数矩阵和第二参数集，所述第一参数矩阵的行列数目分别对应预设任务类型的数目和通用适配器的数目，其中，任意位置的第一权重参数指示对应的通用适配器在对应任务类型下的权重；所述第二参数集至少包括，所述多个专用适配器分别对应的第二权重参数。

13、在一种可能的实施方式中，所述专用适配器包括多个子适配器，任一专用适配器对应的所述第二权重参数包括多个子适配器对应的多个子权重参数。

14、在一种可能的实施方式中，根据所述权重参数，将各适配器处理结果加权求和，得到第二嵌入向量，包括：

15、从所述第一参数矩阵中获取所述第一任务类型下各个通用适配器的第一权重参数；以及从所述第二参数集中获取所述第一专用适配器对应的第二权重参数；

16、将各个通用适配器处理所述第一嵌入向量的各个第一结果，和所述第一专用适配器处理所述第一嵌入向量的第二结果进行加权求和，得到第二嵌入向量，其中，各个第一结果的权重因子根据所述第一权重参数确定，所述第二结果的权重因子根据所述第二权重参数确定。

17、在一种可能的实施方式中，所述各个第一结果的权重因子根据以下方法确定：

18、将所述第一参数矩阵中所述第一任务类型下各个通用适配器的第一权重参数分别输入到gumbel sigmoid函数中，将输出结果输入到softmax层中，得到所述各个第一结果的权重因子。

19、在一种可能的实施方式中，所述适配器至少包含以下之一：lora适配器、adalora适配器、(ia)3适配器。

20、在一种可能的实施方式中，所述大模型为基于transformer架构的模型；所述目标网络层为以下之一：query层、key层、value层、output层、mlp层。

21、第二方面，提供了一种多任务大模型的训练装置，所述大模型包括已训练的目标网络层，以及待训练的旁路任务网络，所述旁路任务网络包括若干通用适配器以及与多个预设任务类型分别对应的多个专用适配器，并具有各适配器对应的权重参数；所述装置包括：

22、获取单元，配置为，获取第一样本对应的第一嵌入向量，其中，所述第一样本包括图像数据和文本数据中的至少一项，并具有第一任务类型，所述第一任务类型属于所述多个预设任务类型；

23、嵌入向量处理单元，配置为，将所述第一嵌入向量分别输入所述目标网络层进行目标处理，以及输入所述旁路任务网络进行旁路处理，所述旁路处理包括，利用所述若干通用适配器，以及所述多个专用适配器中对应于所述第一任务类型的第一专用适配器分别处理所述第一嵌入向量，并根据所述权重参数，将各适配器处理结果加权求和，得到第二嵌入向量；

24、预测结果确定单元，配置为，基于所述第二嵌入向量以及所述目标处理输出的第三嵌入向量确定输出向量，根据所述输出向量确定预测结果；

25、旁路网络更新单元，配置为，根据所述预测结果对应的损失，更新所述旁路任务网络。

26、第三方面，提供了一种计算机可读存储介质，其上存储有计算机程序，当所述计算机程序在计算机中执行时，令计算机执行第一方面的方法。

27、第四方面，提供了一种计算设备，包括存储器和处理器，其中，所述存储器本文档来自技高网...

【技术保护点】

1.一种多任务大模型的训练方法，所述大模型包括已训练的目标网络层，以及待训练的旁路任务网络，所述旁路任务网络包括若干通用适配器以及与多个预设任务类型分别对应的多个专用适配器，并具有各适配器对应的权重参数；所述方法包括：

2.根据权利要求1所述的方法，其中，当所述第一样本为图像数据时，所述任务类型至少包括：图像分类、目标检测、图像分割、图像描述；

3.根据权利要求1所述的方法，其中，所述第一样本包括图像数据以及文本数据；所述多个预设任务类型是与图像和文本之间的关联相关的任务。

4.根据权利要求3所述的方法，其中，所述大模型包括图像编码器，桥接网络，自然语言处理网络；所述桥接网络连接在所述图像编码器与自然语言处理网络之间，用于将图像编码器的编码结果转换到文本表征空间；所述目标网络层属于所述桥接网络，所述第一嵌入向量对应于所述图像数据。

5.根据权利要求3所述的方法，其中，所述大模型包括图像编码器，桥接网络，自然语言处理网络；所述桥接网络连接在所述图像编码器与自然语言处理网络之间，用于将图像编码器的编码结果转换到文本表征空间；所述目标网络

6.根据权利要求1所述的方法，其中，所述权重参数包括，第一参数矩阵和第二参数集，所述第一参数矩阵的行列数目分别对应预设任务类型的数目和通用适配器的数目，其中，任意位置的第一权重参数指示对应的通用适配器在对应任务类型下的权重；所述第二参数集至少包括，所述多个专用适配器分别对应的第二权重参数。

7.根据权利要求6所述的方法，其中，所述专用适配器包括多个子适配器，任一专用适配器对应的所述第二权重参数包括多个子适配器对应的多个子权重参数。

8.根据权利要求6所述的方法，其中，根据所述权重参数，将各适配器处理结果加权求和，得到第二嵌入向量，包括：

9.根据权利要求8所述的方法，其中，所述各个第一结果的权重因子根据以下方法确定：

10.根据权利要求1所述的方法，其中，所述适配器至少包含以下之一：LoRA适配器、AdaLoRA适配器、(IA)3适配器。

11.根据权利要求1所述的方法，其中，所述大模型为基于Transformer架构的模型；所述目标网络层为以下之一：Query层、Key层、Value层、Output层、MLP层。

12.一种多任务大模型的训练装置，所述大模型包括已训练的目标网络层，以及待训练的旁路任务网络，所述旁路任务网络包括若干通用适配器以及与多个预设任务类型分别对应的多个专用适配器，并具有各适配器对应的权重参数；所述装置包括：

13.一种计算机可读存储介质，其上存储有计算机程序，当所述计算机程序在计算机中执行时，令计算机执行权利要求1-11中任一项所述的方法。

14.一种计算设备，包括存储器和处理器，其中，所述存储器中存储有可执行代码，所述处理器执行所述可执行代码时，实现权利要求1-11中任一项所述的方法。

...

【技术特征摘要】

2.根据权利要求1所述的方法，其中，当所述第一样本为图像数据时，所述任务类型至少包括：图像分类、目标检测、图像分割、图像描述；

3.根据权利要求1所述的方法，其中，所述第一样本包括图像数据以及文本数据；所述多个预设任务类型是与图像和文本之间的关联相关的任务。

5.根据权利要求3所述的方法，其中，所述大模型包括图像编码器，桥接网络，自然语言处理网络；所述桥接网络连接在所述图像编码器与自然语言处理网络之间，用于将图像编码器的编码结果转换到文本表征空间；所述目标网络层包括第一目标层和第二目标层，所述旁路任务网络包括作为第一目标层旁路的第一任务网络，和作为第二目标层旁路的第二任务网络；所述第一目标层属于所述桥接网络，所述第二目标层属于所述自然语言处理网络。

6.根据权利要求1所述的方法，其中，所述权重参数包括，第一参数矩阵和第二参数集，所述第一参数矩阵的行列数目分别对应预设任务类型的数目和通用适配器的数目，其中，任意位置...

【专利技术属性】
技术研发人员：王昊文，孙涛，
申请(专利权)人：支付宝杭州信息技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人