基于持续预训练的语言模型训练方法和装置制造方法及图纸

技术编号：41013635 阅读：29 留言：0更新日期：2024-04-18 21:50

本说明书的实施例提供了一种基于持续预训练的语言模型训练方法和装置。在该基于持续预训练的语言模型训练方法中，利用当前软提示生成模型得到与当前领域的各个当前训练样本对应的软提示特征；进而利用当前语言模型根据各个文本数据和对应的软提示特征得到各个文本数据对应于当前领域的隐特征；再基于所得到的各个文本数据对应于当前领域的隐特征与相应基于所述初始当前语言模型而得到的对应于上一领域的隐特征之间的差异，确定跨域损失值；在不满足当前领域的训练结束条件时根据跨域损失值调整当模型参数；在满足当前领域的训练结束条件时继续利用下一领域的训练样本集重复执行上述模型训练过程，直至满足持续预训练的训练结束条件。

全部详细技术资料下载

【技术实现步骤摘要】

本说明书实施例通常涉及计算机，尤其涉及基于持续预训练的语言模型训练方法和装置。

技术介绍

1、预训练语言模型通常指在大规模语料库上进行无监督训练的语言模型(languagemodels)，它通过学习语言的通用特征，在各种自然语言处理(language models，nlp)任务，如文本分类、信息检索、命名实体识别、机器翻译、问答系统上都取得了突破性的成功。但预训练语言模型通常需要大量的训练语料，并拥有庞大的参数规模，传统的学习方法在面对新的数据时，需要从头重新训练模型，开销昂贵，无法有效实施。因此，如何使已有模型能够在学习新数据的同时保证预训练语言模型的泛化性且不遗忘过往知识成为需要解决的问题。

技术实现思路

1、鉴于上述，本说明书实施例提供了一种基于持续预训练的语言模型训练方法和装置。利用该方法、装置，可以实现有效提升预训练语言模型的训练效果。

2、根据本说明书的实施例的一个方面，提供一种基于持续预训练的语言模型训练方法，包括：利用当前领域的训练样本集循环执行下述模型训练过程...

【技术保护点】

1.一种基于持续预训练的语言模型训练方法，包括：

2.如权利要求1所述的语言模型训练方法，其中，所述相应基于所述初始当前语言模型而得到的对应于上一领域的隐特征通过将当前训练样本集中的各个文本数据和对应的上一领域软提示特征提供给所述初始当前语言模型而得到，所述对应的上一领域软提示特征通过将当前训练样本集中的各个文本数据对应的文本隐特征提供给与所述初始当前语言模型对应的软提示生成模型而得到，

3.如权利要求2所述的语言模型训练方法，其中，在所述根据所述跨域对抗损失值得到跨域对抗损失值之前，所述模型训练过程还包括：

4.如权利要求3所述的语言模型训练方法，其...

【技术特征摘要】

1.一种基于持续预训练的语言模型训练方法，包括：

3.如权利要求2所述的语言模型训练方法，其中，在所述根据所述跨域对抗损失值得到跨域对抗损失值之前，所述模型训练过程还包括：

4.如权利要求3所述的语言模型训练方法，其中，所述根据所述跨域损失值调整当前软提示生成模型和当前语言模型的模型参数包括：

5.如权利要求1到4中任一所述的语言模型训练方法，其中，所述将所述当前领域的当前训练样本集中的各个文本数据对应的文本隐特征提供给当前软提示生成模型，得到与各个当前训练样本对应的软提示特征包括：

6.如权利要求5所述的语言模型训练方法，其中，当前软提示生成模型包括当前特征编码子模型和当前投影子模型，

7.一种语言处理模型的微调方法，其中，所述语言处理模型包括微调软提示生成模型、微调语言模型和当前预测模型，所述方法包括：

8.如权利要求7所述的微调方法，其中，所述根据所述预测损失值调整...

【专利技术属性】
技术研发人员：蒋刚玮，魏颖，蒋才高，薛思乔，詹姆士·张，郝鸿延，冯晓云，王言，潘晨，周俊，
申请(专利权)人：支付宝杭州信息技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人