多任务模型推理、多任务信息处理的方法和装置制造方法及图纸

技术编号：35081940 阅读：19 留言：0更新日期：2022-09-28 11:50

本公开提供了多任务模型推理、多任务信息处理的方法和装置，涉及人工智能领域，具体涉及自然语言处理、深度学习、预训练模型技术，可应用在智慧城市、智慧政务场景下。具体实现方案为：获取至少两个任务的样本集。将固定长度字符输入前缀模型，得该任务的适配向量；将该任务的适配向量和所选取的样本中的文本信息输入预训练模型，得到输出向量；将输出向量输入该任务对应的输出层，得到预测结果；根据预测结果和所选取的样本中的标注信息的比较结果确定损失值；基于损失值调整前缀模型和输出层的相关参数。基于预训练模型、每个任务的输出层、每个任务的适配向量获得多任务模型。该实施方式降低了预训练模型在多个任务上部署推理服务的成本。推理服务的成本。推理服务的成本。

全部详细技术资料下载

【技术实现步骤摘要】
多任务模型推理、多任务信息处理的方法和装置

[0001]本公开涉及人工智能领域，具体涉及自然语言处理、深度学习、预训练模型技术，可应用在智慧城市、智慧政务场景下，具体为一种多任务模型推理、多任务信息处理的方法和装置。

技术介绍

[0002]随着机器学习技术的发展，特别是近年来预训练模型技术的迅猛发展，大大提升了NLP（Natural Language Processing，自然语言处理）各任务的效果，使得预训练模型受到越来越多的青睐，并被应用到各类任务和多种场景中。以智慧城市为例，为了解决智慧城市应用中横跨部门多、纵贯层级多、协同效能低的痛点，研发者需要提供事件智能感知、自动流程处置、舆情前瞻洞察、未诉先办等一系列场景化NLP预训练模型。预训练模型虽然效果显著，但在使用过程中也带来了使用成本问题，预训练模型参数量都很大，这就要求必须使用高性能GPU（graphics processing unit，图形处理器）部署推理服务才能获得可用的处理耗时。同时，1个任务就需要1个预训练模型，在多任务集成系统中，就需要更多的GPU硬件，造成了使用成本的显著增加。特别是在智慧城市场景中，服务都是以私有云方式进行部署的，资源成本并不能像在公有云那样通过接入更多流量进行摊薄。因此提升GPU硬件使用效率显得尤为重要。

技术实现思路

[0003]本公开提供了一种训练多任务模型和多任务信息处理的方法、装置、设备、存储介质以及计算机程序产品。
[0004]根据本公开的第一方面，提供了一种多任务模型推理方法，包括：获取至...

【技术保护点】

【技术特征摘要】
1.一种多任务模型推理方法，包括：获取至少两个任务的样本集，其中，每个任务的样本集中的每个样本包括文本信息和标注信息；对于每个任务，从该任务的样本集中选取样本，执行如下训练步骤：将固定长度字符输入前缀模型，得该任务的适配向量；将该任务的适配向量和所选取的样本中的文本信息输入预训练模型，得到输出向量；将所述输出向量输入该任务对应的输出层，得到预测结果；将所选取的样本中的标注信息作为期望结果与所述预测结果进行比较，确定出损失值；当该任务对应的损失值大于预定阈值时，重新选择样本继续执行上述训练步骤；对于每个任务，当该任务对应的损失值小于等于所述预定阈值时，存储该任务的适配向量和该任务的输出层的相关参数；基于所述预训练模型、每个任务的输出层、每个任务的适配向量获得多任务模型。2.根据权利要求1所述的方法，其中，分类任务的输出层包括全连接层和softmax函数，输出向量包括分类向量，分类任务的样本包括文本信息和类别的标注信息；以及所述将所述输出向量输入该任务对应的输出层，得到预测结果，包括：将所述分类向量输入全连接层，得到全连接向量；将所述全连接向量输入softmax函数，得到预测类别的概率。3.根据权利要求1所述的方法，其中，抽取任务的输出层包括softmax函数，输出向量包括至少一个字符向量，抽取任务的样本包括文本信息、问题、答案的标注信息；以及所述将所述输出向量输入该任务对应的输出层，得到预测结果，包括：将所述至少一个字符向量分别输入softmax函数，得到每个字符向量是答案的起始位置或结束位置的概率。4.根据权利要求1所述的方法，其中，所述前缀模型包括嵌入层和记忆网络。5.根据权利要求1所述的方法，其中，所述将该任务的适配向量和所选取的样本中的文本信息输入预训练模型，得到输出向量，包括：将该任务的适配向量分别与所述文本信息在所述预训练模型中每一层的输出结果相乘，在最后一层得到输出向量。6.根据权利要求1所述的方法，其中，所述方法还包括：当该任务对应的损失值大于预定阈值时，调整所述前缀模型的相关参数和该任务对应的输出层的相关参数，固定所述预训练模型的相关参数。7.根据权利要求1所述的方法，其中，所述方法还包括：根据任务的数量设置适配向量的长度，其中，所述长度与所述任务的数量正相关。8.根据权利要求4所述的方法，其中，所述记忆网络采用双向长短期记忆神经网络。9.一种多任务信息处理方法，包括：响应于接收到待处理的数据，获取根据权利要求1
‑
8中任一项所述的方法得到的多任务模型，其中，所述多任务模型包括至少一个任务的适配向量、输出层的参数和预训练模型；对于每个任务，将该任务的适配向量和所述数据输入所述预训练模型，得到输出向量；根据该任务对应的输出层的参数配置输出层；将所述输出向量输入配置完成的输出层，得到该任务的处理结果。
10.根据权利要求9所述的方法，所述方法还包括：对于每个任务，若该任务的处理结果为类别，则获取所述类别对应的抽取任务的适配向量；对于每个类别的抽取任务，将该抽取任务的适配向量和所述数据输入所述预训练模型，得到至少一个字符向量；将所述至少一个字符向量分别输入softmax函数，得到该抽取任务的关键信息的起始位置和结束位置。11.一种多任务模型推理装置，包括：获取单元，被配置成获取至少两个任务的样本集，其中，每个任务的样本集中的每个样本包括文本信息和标注信息；训练单元，被配置成对于每个任务，从该任务的样本集中选取样本，执行如下训练步骤：将固定长度字符输入前缀模型，得该任务的...

【专利技术属性】
技术研发人员：韩磊，龚建，娄杰，尹何举，贾巍，戴岱，刘凯，孙珂，刘捷，沈抖，
申请(专利权)人：北京百度网讯科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人