一种任务处理方法及相关装置制造方法及图纸

技术编号:39518376 阅读:18 留言:0更新日期:2023-11-25 18:56
本申请实施例公开了一种人工智能领域的任务处理方法及相关装置,通过多任务处理模型中的预训练模型,根据获取的待处理数据确定目标通用特征;通过多任务处理模型中的适配器,根据待处理数据或者预训练模型处理待处理数据时生成的参考特征,确定多个任务各自的目标私有特征,适配器中的共享投影结构用于提取参考通用特征,多个任务各自对应的知识提取结构用于基于参考通用特征提取其对应的任务的参考私有特征,任务的目标私有特征根据任务的参考私有特征确定;通过多任务处理模型中的每个解码器,根据解码器对应的任务的目标私有特征以及目标通用特征,确定解码器对应的任务的处理结果

【技术实现步骤摘要】
一种任务处理方法及相关装置


[0001]本申请涉及人工智能
,尤其涉及一种任务处理方法及相关装置


技术介绍

[0002]如今,预训练微调范式已在很多领域取得了显著的成功

但是,随着预训练模型的模型参数越来越庞大,所应用的下游任务越来越多,为每个下游任务均单独微调预训练模型的所有模型参数所需耗费的成本极高,需要很高的算力和存储资源支持

[0003]基于此,适配器(
Adapter
)应运而生,其是插入到预训练模型中的一种可学习参数量极少的瓶颈结构

针对下游任务微调预训练模型时,可以只对适配器的模型参数进行训练调整,而保持预训练模型原有的模型参数不变,并且可以达到和微调预训练模型中所有模型参数相近

甚至更优的效果

[0004]当将预训练模型同时应用于多个下游任务时,相关技术中基于适配器的预训练模型微调方案的实现效果普遍不够理想,插入适配器的预训练模型在下游任务中的性能不佳


技术实现思路

[0005]本申请实施例提供了一种任务处理方法及相关装置,以提高插入有适配器的预训练模型在下游任务中的性能

[0006]本申请第一方面提供了一种任务处理方法,该方法包括:获取待处理数据;通过多任务处理模型中的预训练模型,根据待处理数据,确定目标通用特征;多任务处理模型用于基于输入的数据执行多个任务;通过多任务处理模型中的适配器,根据待处理数据或者预训练模型处理待处理数据时生成的参考特征,确定多个任务各自的目标私有特征;适配器中包括共享投影结构和多个任务各自对应的知识提取结构,共享投影结构用于提取参考通用特征,知识提取结构用于基于参考通用特征提取其对应的任务的参考私有特征,任务的目标私有特征根据任务的参考私有特征确定;通过多任务处理模型中的每个解码器,根据解码器对应的任务的目标私有特征以及目标通用特征,确定解码器对应的任务的处理结果;多任务处理模型中包括多个任务各自对应的解码器

[0007]本申请第二方面提供了一种任务处理装置,该装置包括:数据获取模块,用于获取待处理数据;第一特征提取模块,用于通过多任务处理模型中的预训练模型,根据待处理数据,确定目标通用特征;多任务处理模型用于基于输入的数据执行多个任务;第二特征提取模块,用于通过多任务处理模型中的适配器,根据待处理数据或者预训练模型处理待处理数据时生成的参考特征,确定多个任务各自的目标私有特征;适配
器中包括共享投影结构和多个任务各自对应的知识提取结构,共享投影结构用于提取参考通用特征,知识提取结构用于基于参考通用特征提取其对应的任务的参考私有特征,任务的目标私有特征根据任务的参考私有特征确定;解码模块,用于通过多任务处理模型中的每个解码器,根据解码器对应的任务的目标私有特征以及目标通用特征,确定解码器对应的任务的处理结果;多任务处理模型中包括多个任务各自对应的解码器

[0008]本申请第三方面提供了一种计算机设备,所述设备包括处理器和存储器:所述存储器用于存储计算机程序;所述处理器用于根据所述计算机程序,执行如上述第一方面所述的任务处理方法的步骤

[0009]本申请第四方面提供了一种计算机可读存储介质,所述计算机可读存储介质用于存储计算机程序,所述计算机程序用于执行上述第一方面所述的任务处理方法的步骤

[0010]本申请第五方面提供了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中

计算机设备的处理器从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述第一方面所述的任务处理方法的步骤

[0011]从以上技术方案可以看出,本申请实施例具有以下优点:本申请实施例提供的任务处理方法,通过用于基于输入的数据执行多个任务的多任务处理模型中的预训练模型,根据获取的待处理数据确定目标通用特征;然后通过多任务处理模型中的适配器,根据待处理数据或者预训练模型处理待处理数据时生成的参考特征,确定多个任务各自的目标私有特征,适配器中包括共享投影结构和多个任务各自对应的知识提取结构,其中,共享投影结构用于提取参考通用特征,知识提取结构用于基于参考通用特征提取其对应的任务的参考私有特征,任务的目标私有特征根据任务的参考私有特征确定;然后通过多任务处理模型中的每个解码器,根据解码器对应的任务的目标私有特征以及目标通用特征,确定解码器对应的任务的处理结果,多任务处理模型中包括多个任务各自对应的解码器

其中,适配器中的共享投影结构可以基于多个任务各自的训练样本进行训练,在训练过程中可以跨任务地进行信息交互,具备较优的参考通用特征学习能力,适配器中的知识提取结构可以在共享投影结构提取的参考通用特征的基础上,提取单个任务的参考私有特征,具备较优的参考私有特征学习能力,当将多任务处理模型(即插入有适配器的预训练模型)应用于多个任务时,基于适配器的共享投影结构和知识提取结构可以更好地学习每个任务下的特征表示,从而提高该多任务处理模型在下游任务中的性能

附图说明
[0012]图
1a
为相关技术提供的一种特定任务适配器的示意图;图
1b
为相关技术提供的一种共享任务适配器的示意图;图
1c
为本申请实施例提供的一种适配器的示意图;图2为本申请实施例提供的一种任务处理方法的场景示意图;图3为本申请实施例提供的一种任务处理方法的流程图;图4为本申请实施例提供的一种多任务处理模型的示意图;
图5为本申请实施例提供的一种任务处理场景的示意图;图6为本申请实施例提供的一种任务处理装置的结构示意图;图7为本申请实施例提供的终端设备的结构示意图;图8为本申请实施例提供的一种服务器的结构示意图

具体实施方式
[0013]为了使本
的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚

完整地描述,显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例

基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围

[0014]本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序

应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施

此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程

方法
...

【技术保护点】

【技术特征摘要】
1.
一种任务处理方法,其特征在于,所述方法包括:获取待处理数据;通过多任务处理模型中的预训练模型,根据所述待处理数据,确定目标通用特征;所述多任务处理模型用于基于输入的数据执行多个任务;通过所述多任务处理模型中的适配器,根据所述待处理数据或者所述预训练模型处理所述待处理数据时生成的参考特征,确定所述多个任务各自的目标私有特征;所述适配器中包括共享投影结构和所述多个任务各自对应的知识提取结构,所述共享投影结构用于提取参考通用特征,所述知识提取结构用于基于所述参考通用特征提取其对应的任务的参考私有特征,所述任务的目标私有特征根据所述任务的参考私有特征确定;通过所述多任务处理模型中的每个解码器,根据所述解码器对应的任务的目标私有特征以及所述目标通用特征,确定所述解码器对应的任务的处理结果;所述多任务处理模型中包括所述多个任务各自对应的解码器
。2.
根据权利要求1所述的方法,其特征在于,所述通过所述多任务处理模型中的适配器,根据所述待处理数据或者所述预训练模型处理所述待处理数据时生成的参考特征,确定所述多个任务各自的目标私有特征,包括:通过所述适配器中的所述共享投影结构,根据所述待处理数据或者所述参考特征,确定所述参考通用特征;通过所述适配器中的门控结构,根据所述参考通用特征,确定第一子参考通用特征和第二子参考通用特征;通过所述适配器中的每个所述知识提取结构,根据所述第二子参考通用特征,确定所述知识提取结构对应的任务的参考私有特征;针对每个所述任务,根据所述第一子参考通用特征以及所述任务的参考私有特征,确定所述任务的目标私有特征
。3.
根据权利要求2所述的方法,其特征在于,所述通过所述适配器中的所述共享投影结构,根据所述待处理数据或者所述参考特征,确定所述参考通用特征,包括:通过所述共享投影结构中的下采样投影层,对所述待处理数据或者所述参考特征进行下采样处理,得到参考下采样特征;通过所述共享投影结构中的非线性层,对所述参考下采样特征进行非线性变换处理,得到参考变换特征;通过所述共享投影结构中的上采样投影层,对所述参考变换特征进行上采样处理,得到所述参考通用特征
。4.
根据权利要求2所述的方法,其特征在于,所述通过所述适配器中的每个所述知识提取结构,根据所述第二子参考通用特征,确定所述知识提取结构对应的任务的参考私有特征,包括:通过所述知识提取结构中的比例因子,对所述第二子参考通用特征进行缩放处理,得到参考缩放特征;通过所述知识提取结构中的移位因子,对所述参考缩放特征进行移位处理,得到所述任务的参考私有特征
。5.
根据权利要求1至4任一项所述的方法,其特征在于,所述预训练模型中包括多个子
编码结构,所述多任务处理模型中包括所述多个子编码结构各自对应的适配器;所述通过多任务处理模型中的预训练模型,根据所述待处理数据,确定目标通用特征,包括:通过所述预训练模型中的每个所述子编码结构,根据所述子编码结构的输入数据,确定所述子编码结构输出的目标通用特征;所述子编码结构的输入数据为所述待处理数据

或者其它所述子编码结构输出的目标通用特征;所述通过所述多任务处理模型中的适配器,根据所述待处理数据或者所述预训练模型处理所述待处理数据时生成的...

【专利技术属性】
技术研发人员:辛毅杜俊珑鄢科
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1