多任务模型推理、多任务信息处理的方法和装置制造方法及图纸

技术编号:35081940 阅读:19 留言:0更新日期:2022-09-28 11:50
本公开提供了多任务模型推理、多任务信息处理的方法和装置,涉及人工智能领域,具体涉及自然语言处理、深度学习、预训练模型技术,可应用在智慧城市、智慧政务场景下。具体实现方案为:获取至少两个任务的样本集。将固定长度字符输入前缀模型,得该任务的适配向量;将该任务的适配向量和所选取的样本中的文本信息输入预训练模型,得到输出向量;将输出向量输入该任务对应的输出层,得到预测结果;根据预测结果和所选取的样本中的标注信息的比较结果确定损失值;基于损失值调整前缀模型和输出层的相关参数。基于预训练模型、每个任务的输出层、每个任务的适配向量获得多任务模型。该实施方式降低了预训练模型在多个任务上部署推理服务的成本。推理服务的成本。推理服务的成本。

【技术实现步骤摘要】
多任务模型推理、多任务信息处理的方法和装置


[0001]本公开涉及人工智能领域,具体涉及自然语言处理、深度学习、预训练模型技术,可应用在智慧城市、智慧政务场景下,具体为一种多任务模型推理、多任务信息处理的方法和装置。

技术介绍

[0002]随着机器学习技术的发展,特别是近年来预训练模型技术的迅猛发展,大大提升了NLP(Natural Language Processing,自然语言处理)各任务的效果,使得预训练模型受到越来越多的青睐,并被应用到各类任务和多种场景中。以智慧城市为例,为了解决智慧城市应用中横跨部门多、纵贯层级多、协同效能低的痛点,研发者需要提供事件智能感知、自动流程处置、舆情前瞻洞察、未诉先办等一系列场景化NLP预训练模型。预训练模型虽然效果显著,但在使用过程中也带来了使用成本问题,预训练模型参数量都很大,这就要求必须使用高性能GPU(graphics processing unit,图形处理器)部署推理服务才能获得可用的处理耗时。同时,1个任务就需要1个预训练模型,在多任务集成系统中,就需要更多的GPU硬件,造成了使用成本的显著增加。特别是在智慧城市场景中,服务都是以私有云方式进行部署的,资源成本并不能像在公有云那样通过接入更多流量进行摊薄。因此提升GPU硬件使用效率显得尤为重要。

技术实现思路

[0003]本公开提供了一种训练多任务模型和多任务信息处理的方法、装置、设备、存储介质以及计算机程序产品。
[0004]根据本公开的第一方面,提供了一种多任务模型推理方法,包括:获取至少两个任务的样本集,其中,每个任务的样本集中的每个样本包括文本信息和标注信息;对于每个任务,从该任务的样本集中选取样本,执行如下训练步骤:将固定长度字符输入前缀模型,得该任务的适配向量;将该任务的适配向量和所选取的样本中的文本信息输入预训练模型,得到输出向量;将所述输出向量输入该任务对应的输出层,得到预测结果;将所选取的样本中的标注信息作为期望结果与所述预测结果进行比较,确定出损失值;当该任务对应的损失值大于预定阈值时,重新选择样本继续执行上述训练步骤;对于每个任务,若当该任务对应的损失值小于等于所述预定阈值时,存储该任务的适配向量和该任务的输出层的相关参数;基于所述预训练模型、每个任务的输出层、每个任务的适配向量获得多任务模型。
[0005]根据本公开的第二方面,提供了一种多任务信息处理方法,包括:响应于接收到待处理的数据,获取根据第一方面所述的方法得到的多任务模型,其中,所述多任务模型包括至少一个任务的适配向量、输出层的参数和预训练模型;对于每个任务,将该任务的适配向量和所述数据输入所述预训练模型,得到输出向量;根据该任务对应的输出层的参数配置输出层;将所述输出向量输入配置完成的输出层,得到该任务的处理结果。
[0006]根据本公开的第三方面,提供了一种多任务模型推理装置,包括:获取单元,被配
置成获取至少两个任务的样本集,其中,每个任务的样本集中的每个样本包括文本信息和标注信息;训练单元,被配置成对于每个任务,从该任务的样本集中选取样本,执行如下训练步骤:将固定长度字符输入前缀模型,得该任务的适配向量;将该任务的适配向量和所选取的样本中的文本信息输入预训练模型,得到输出向量;将所述输出向量输入该任务对应的输出层,得到预测结果;将所选取的样本中的标注信息作为期望结果与所述预测结果进行比较,确定出损失值;当该任务对应的损失值大于预定阈值时,重新选择样本继续执行上述训练步骤;存储单元,被配置成对于每个任务,当该任务对应的损失值小于等于所述预定阈值时,存储该任务的适配向量和该任务的输出层的相关参数;输出单元,被配置成基于所述预训练模型、每个任务的输出层、每个任务的适配向量获得多任务模型。
[0007]根据本公开的第四方面,提供了一种多任务信息处理装置,包括:获取单元,被配置成响应于接收到待处理的数据,获取根据第三方面中任一项所述的装置得到的多任务模型,其中,所述多任务模型包括至少一个任务的适配向量、输出层的参数和预训练模型;处理单元,被配置成对于每个任务,将该任务的适配向量和所述数据输入所述预训练模型,得到输出向量;根据该任务对应的输出层的参数配置输出层;将所述输出向量输入配置完成的输出层,得到该任务的处理结果。
[0008]根据本公开的第五方面,提供了一种电子设备,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行第一方面或第二方面中任一项所述的方法。
[0009]根据本公开的第六方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行第一方面或第二方面中任一项所述的方法。
[0010]根据本公开的第七方面,提供了一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现第一方面或第二方面中任一项所述的方法。
[0011]本公开的实施例提供的训练多任务模型、多任务信息处理的方法和装置,在训练和推理两个部署都做了改进,在训练阶段,冻结预训练模型的参数,不进行更新。同时,构造少量可以更新的参数,使得预训练模型可以适配下游任务。使得在推理服务部署时,使用1个GPU部署1个预训练模型可以支持多任务推理预测。该方法在智慧城市的应用中,极大地降低了部署成本与处理耗时。
[0012]应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
[0013]附图用于更好地理解本方案,不构成对本公开的限定。其中:图1是本公开的一个实施例可以应用于其中的示例性系统架构图;图2是根据本公开的多任务模型推理方法的一个实施例的流程图;图3a

3c是根据本公开的多任务模型推理方法的应用场景的示意图;图4是根据本公开的多任务信息处理方法的一个实施例的流程图;图5a

5e是根据本公开的多任务信息处理的方法的应用场景的示意图;
图6是根据本公开的多任务模型推理装置的一个实施例的结构示意图;图7是根据本公开的多任务信息处理装置的一个实施例的结构示意图;图8是适于用来实现本公开的实施例的电子设备的计算机系统的结构示意图。
具体实施方式
[0014]以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
[0015]图1示出了可以应用本公开实施例的多任务模型推理方法、多任务模型推理装置、多任务信息处理方法或多任务信息处理装置的示例性系统架构100。
[0016]如图1所示,系统架构100可以包括终端本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种多任务模型推理方法,包括:获取至少两个任务的样本集,其中,每个任务的样本集中的每个样本包括文本信息和标注信息;对于每个任务,从该任务的样本集中选取样本,执行如下训练步骤:将固定长度字符输入前缀模型,得该任务的适配向量;将该任务的适配向量和所选取的样本中的文本信息输入预训练模型,得到输出向量;将所述输出向量输入该任务对应的输出层,得到预测结果;将所选取的样本中的标注信息作为期望结果与所述预测结果进行比较,确定出损失值;当该任务对应的损失值大于预定阈值时,重新选择样本继续执行上述训练步骤;对于每个任务,当该任务对应的损失值小于等于所述预定阈值时,存储该任务的适配向量和该任务的输出层的相关参数;基于所述预训练模型、每个任务的输出层、每个任务的适配向量获得多任务模型。2.根据权利要求1所述的方法,其中,分类任务的输出层包括全连接层和softmax函数,输出向量包括分类向量,分类任务的样本包括文本信息和类别的标注信息;以及所述将所述输出向量输入该任务对应的输出层,得到预测结果,包括:将所述分类向量输入全连接层,得到全连接向量;将所述全连接向量输入softmax函数,得到预测类别的概率。3.根据权利要求1所述的方法,其中,抽取任务的输出层包括softmax函数,输出向量包括至少一个字符向量,抽取任务的样本包括文本信息、问题、答案的标注信息;以及所述将所述输出向量输入该任务对应的输出层,得到预测结果,包括:将所述至少一个字符向量分别输入softmax函数,得到每个字符向量是答案的起始位置或结束位置的概率。4.根据权利要求1所述的方法,其中,所述前缀模型包括嵌入层和记忆网络。5.根据权利要求1所述的方法,其中,所述将该任务的适配向量和所选取的样本中的文本信息输入预训练模型,得到输出向量,包括:将该任务的适配向量分别与所述文本信息在所述预训练模型中每一层的输出结果相乘,在最后一层得到输出向量。6.根据权利要求1所述的方法,其中,所述方法还包括:当该任务对应的损失值大于预定阈值时,调整所述前缀模型的相关参数和该任务对应的输出层的相关参数,固定所述预训练模型的相关参数。7.根据权利要求1所述的方法,其中,所述方法还包括:根据任务的数量设置适配向量的长度,其中,所述长度与所述任务的数量正相关。8.根据权利要求4所述的方法,其中,所述记忆网络采用双向长短期记忆神经网络。9.一种多任务信息处理方法,包括:响应于接收到待处理的数据,获取根据权利要求1

8中任一项所述的方法得到的多任务模型,其中,所述多任务模型包括至少一个任务的适配向量、输出层的参数和预训练模型;对于每个任务,将该任务的适配向量和所述数据输入所述预训练模型,得到输出向量;根据该任务对应的输出层的参数配置输出层;将所述输出向量输入配置完成的输出层,得到该任务的处理结果。
10.根据权利要求9所述的方法,所述方法还包括:对于每个任务,若该任务的处理结果为类别,则获取所述类别对应的抽取任务的适配向量;对于每个类别的抽取任务,将该抽取任务的适配向量和所述数据输入所述预训练模型,得到至少一个字符向量;将所述至少一个字符向量分别输入softmax函数,得到该抽取任务的关键信息的起始位置和结束位置。11.一种多任务模型推理装置,包括:获取单元,被配置成获取至少两个任务的样本集,其中,每个任务的样本集中的每个样本包括文本信息和标注信息;训练单元,被配置成对于每个任务,从该任务的样本集中选取样本,执行如下训练步骤:将固定长度字符输入前缀模型,得该任务的...

【专利技术属性】
技术研发人员:韩磊龚建娄杰尹何举贾巍戴岱刘凯孙珂刘捷沈抖
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1