自然语言处理模型的训练方法、自然语言处理方法及装置制造方法及图纸

技术编号：29979653 阅读：32 留言：0更新日期：2021-09-08 10:10

本公开提供了一种自然语言处理模型的训练方法，涉及人工智能领域，尤其涉及自然语言处理领域。具体实现方案为：对输入文本进行针对多任务的语义学习，得到针对多任务的语义特征，其中，多任务包括多个分支任务；基于语义特征分别进行针对各个分支任务的特征学习，得到针对各个分支任务的第一输出结果；根据针对各个分支任务的第一输出结果，计算针对各个分支任务的损失；以及根据针对各个分支任务的损失，调整自然语言处理模型的参数。本公开还提供了一种自然语言处理模型的训练装置、自然语言处理方法及其装置、电子设备和存储介质。电子设备和存储介质。电子设备和存储介质。

全部详细技术资料下载

【技术实现步骤摘要】
自然语言处理模型的训练方法、自然语言处理方法及装置

[0001]本公开涉及人工智能
，尤其涉及自然语言处理技术。更具体地，本公开提供了一种自然语言处理模型的训练方法及其装置、自然语言处理方法及其装置、电子设备和存储介质。

技术介绍

[0002]近年来随着自然语言处理技术的不断发展，基于大规模语料的预训练语言模型已逐渐成为了经典的框架。但目前业内关于语义理解和语言生成等不同任务的语言模型的研究普遍是独立进行的，语义理解模型不具备语言生成的能力，反之亦然。
[0003]因此，如何使一个模型同时具备语义理解和语言生成的能力成为待解决的问题。

技术实现思路

[0004]本公开提供了一种自然语言处理模型的训练方法及其装置、自然语言处理方法及其装置、电子设备和存储介质。
[0005]根据第一方面，提供了一种自然语言处理模型的训练方法，该方法包括：对输入文本进行针对多任务的语义学习，得到针对多任务的语义特征，其中，多任务包括多个分支任务；基于语义特征分别进行针对各个分支任务的特征学习，得到针对各个分支任务的第一输出结果；根据针对各个分支任务的第一输出结果，计算针对各个分支任务的损失；以及根据针对各个分支任务的损失，调整自然语言处理模型的参数。
[0006]根据第二方面，提供了一种自然语言处理方法，该方法包括：获取针对预设分支任务的待处理文本；以及使用自然语言处理模型对待处理文本进行针对多任务的语义学习，得到针对多任务的语义特征，并根据语义特征进行针对预设分支任务的特征学习，得到针对预设...

【技术保护点】

【技术特征摘要】
1.一种自然语言处理模型的训练方法，包括：对输入文本进行针对多任务的语义学习，得到针对多任务的语义特征，其中，所述多任务包括多个分支任务；基于所述语义特征分别进行针对各个分支任务的特征学习，得到针对各个分支任务的第一输出结果；根据针对各个分支任务的第一输出结果，计算针对各个分支任务的损失；以及根据针对各个分支任务的损失，调整所述自然语言处理模型的参数。2.根据权利要求1所述的方法，其中，所述多任务包括用于语义理解的第一分支任务；所述基于所述语义特征分别进行针对各个分支任务的特征学习，得到针对各个分支任务的第一输出结果包括：针对所述输入文本中的每个字，基于所述语义特征确定位于所述字之前的上文信息以及位于所述字之后的下文信息；根据所述上文信息和下文信息，确定所述输入文本的语义理解信息，作为针对所述第一分支任务的第一输出结果。3.根据权利要求2所述的方法，还包括：根据所述上文信息和下文信息，计算所述输入文本中的多个语句之间的逻辑距离，作为针对第一分支任务的第一输出结果。4.根据权利要求2所述的方法，还包括：根据所述上文信息和下文信息，确定所述输入文本中的多个语句之间的逻辑顺序，作为针对第一分支任务的第一输出结果。5.根据权利要求1所述的方法，其中，所述多任务包括用于语言生成的第二分支任务；所述基于所述语义特征分别进行针对各个分支任务的特征学习，得到针对各个分支任务的第一输出结果包括：针对所述输入文本中的每个字，基于所述语义特征确定位于所述字之前的上文信息；基于所述上文信息，预测位于所述字之后的下文信息，作为针对第二分支任务的第一输出结果。6.根据权利要求1所述的方法，还包括：基于所述语义特征分别确定针对各个分支任务的第二输出结果。7.根据权利要求6所述的方法，其中，所述根据针对各个分支任务的第一输出结果，计算针对各个分支任务的损失包括：根据所述针对各个分支任务的第一输出结果和第二输出结果，计算针对各个分支任务的损失。8.根据权利要求6所述的方法，其中，所述多任务包括用于语义理解的第一分支任务；所述基于所述语义特征分别确定针对各个分支任务的第二输出结果包括以下之一：基于所述语义特征，确定所述输入文本的语义理解信息，作为针对第一分支任务的第二输出结果；基于所述语义特征，计算所述输入文本中的多个语句之间的逻辑距离，作为针对第一分支任务的第二输出结果；基于所述语义特征，确定所述输入文本中的多个语句之间的逻辑顺序，作为针对第一
分支任务的第二输出结果。9.根据权利要求6所述的方法，其中，所述多任务包括用于语言生成的第二分支任务；所述基于所述语义特征分别确定针对各个分支任务的第二输出结果包括：针对所述输入文本中的每个字，基于所述语义特征预测所述字的下文信息，作为针对第二分支任务的第二输出结果。10.一种自然语言处理方法，包括：获取针对预设分支任务的待处理文本；以及使用自然语言处理模型对所述待处理文本进行针对多任务的语义学习，得到针对所述多任务的语义特征，并根据所述语义特征进行针对所述预设分支任务的特征学习，得到针对所述预设分支任务的处理结果；其中，所述多任务包括所述预设分支任务，所述自然语言处理模型是利用根据权利要求1至9中任一项所述的方法训练的。11.一种自然语言处理模型的训练装置，包括：语义学习模块，用于对输入文本进行针对多任务的语义学习，得到针对多任务的语义特征，其中，所述多任务包括多个分支任务；特征学习模块，用于基于所述语义特征分别进行针对各个分支任务的特征学习，得到针对各个分支任务的...

【专利技术属性】
技术研发人员：丁思宇，庞超，王硕寰，赵晏彬，尚骏远，孙宇，冯仕堃，田浩，吴华，王海峰，
申请(专利权)人：北京百度网讯科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人