一种语言模型的训练方法、装置、设备及存储介质制造方法及图纸

技术编号：39992545 阅读：6 留言：0更新日期：2024-01-09 02:26

本申请公开了一种语言模型的训练方法、装置、设备及存储介质，通过确定预训练后的语言模型对应的待定模板，再对第一原始文本进行数据增强，得到增强文本，并将增强文本和待定模板进行组合后得到的第一组合结果输入语言模型中，得到增强文本的输出结果，最后再根据增强文本的输出结果和第一原始文本的标注之间的差距，来调整该语言模型对应的待定模板，以将调整完成的待定模板作为该语言模型匹配的目标模板。本申请通过对第一原始文本进行数据增强来确定增强文本，并通过增强文本对该语言模型对应的待定模板进行调整，使得该语言模型可通过调整完成的待定模板基于原始文本和增强文本都可准确执行自然语言处理任务，保证了语言模型的鲁棒性。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及计算机，尤其涉及一种语言模型的训练方法、装置、设备及存储介质。

技术介绍

1、自然语言处理(natural language processing，nlp)，是计算机科学领域与人工智能领域中的一个重要方向，它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。例如，利用自然语言处理技术可以对各种语料数据(如语音数据、文本数据等)进行处理。

2、目前，通常需获取目标文本信息，该目标文本信息为需要进行自然语言处理的文本信息。然后，将文本信息输入预先训练好的语言模型中，得到该语言模型输出的自然语言处理任务的执行结果。

3、但是，现有技术在训练语言模型时，通常会忽略语言模型的鲁棒性，导致语言模型的鲁棒性较低。

4、基于此，本说明书提供一种语言模型的训练方法。

技术实现思路

1、本申请提供一种语言模型的训练方法、装置、设备及存储介质，以部分的解决现有技术存在的上述问题。

2、本申请采用下述技术方案：

3、本说明书提供一种语言模型的训练方法，所述方法包括：

4、获取预先基于通用文本集预训练得到的语言模型；

5、确定第一原始文本，并对所述第一原始文本进行数据增强，得到增强文本；

6、确定预训练后的所述语言模型对应的待定模板，并将所述待定模板和所述增强文本进行组合，得到第一组合结果，以及将所述第一组合结果输入预训练后的所述语言模型中，得到所述语言模型输出的所述增强文本的输出结果；</p>

7、根据所述第一原始文本的标注和所述增强文本的输出结果之间的差距，确定损失，以所述损失最小化为优化目标，对所述待定模板进行调整，以将调整完成的所述待定模板作为所述语言模型对应的目标模板

8、本说明书提供一种语言模型的训练装置，所述装置包括：

9、获取模块，用于获取预先基于通用文本集预训练得到的语言模型；

10、确定模块，用于确定第一原始文本，并对所述第一原始文本进行数据增强，得到增强文本；

11、输出模块，用于确定预训练后的所述语言模型对应的待定模板，并将所述待定模板和所述增强文本进行组合，得到第一组合结果，以及将所述第一组合结果输入预训练后的所述语言模型中，得到所述语言模型输出的所述增强文本的输出结果；

12、调整模块，用于根据所述第一原始文本的标注和所述增强文本的输出结果之间的差距，确定损失，以所述损失最小化为优化目标，对所述待定模板进行调整，以将调整完成的所述待定模板作为所述语言模型对应的目标模板。

13、本申请提供了一种计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述语言模型的训练方法。

14、本申请提供了一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现上述语言模型的训练方法。

15、本申请采用的上述至少一个技术方案能够达到以下有益效果：

16、通过确定预训练后的语言模型对应的待定模板，再对第一原始文本进行数据增强，得到增强文本，并将增强文本和待定模板进行组合后得到的第一组合结果输入语言模型中，得到增强文本的输出结果，最后再根据增强文本的输出结果和第一原始文本的标注之间的差距，来调整该语言模型对应的待定模板，以将调整完成的待定模板作为该语言模型匹配的目标模板。

17、本申请通过对第一原始文本进行数据增强来确定增强文本，并通过增强文本对该语言模型对应的待定模板进行调整，使得该语言模型可通过调整完成的待定模板基于原始文本和增强文本都可准确执行自然语言处理任务，保证了语言模型的鲁棒性。

本文档来自技高网...

【技术保护点】

1.一种语言模型的训练方法，所述方法包括：

2.如权利要求1所述的方法，所述方法还包括：

3.如权利要求2所述的方法，根据所述第一差距和所述第二差距，确定损失，具体包括：

4.如权利要求3所述的方法，根据所述第一差距和所述第一权重，以及所述第二差距和所述第二权重，确定损失，具体包括：

5.如权利要求1所述的方法，所述待定模板包括第一模板特征和第二模板特征，所述第一模板特征在所述语言模型预训练过程中调整得到；

6.如权利要求1所述的方法，所述方法应用于模型训练系统，所述系统包括客户端和服务端，所述客户端中存储所述待定模板，所述服务端中预先部署有预训练后的所述语言模型；

7.如权利要求1所述的方法，所述语言模型用于执行多种语言处理任务，每种语言处理任务对应于不同的待定模板；

8.一种语言模型的训练装置，所述装置包括：

9.一种计算机可读存储介质，所述存储介质存储有计算机程序，所述计算机程序被处理器执行时实现上述权利要求1～7任一项所述的方法。

10.一种电子设备，包括存储器、处

...

【技术特征摘要】

1.一种语言模型的训练方法，所述方法包括：

2.如权利要求1所述的方法，所述方法还包括：

3.如权利要求2所述的方法，根据所述第一差距和所述第二差距，确定损失，具体包括：

4.如权利要求3所述的方法，根据所述第一差距和所述第一权重，以及所述第二差距和所述第二权重，确定损失，具体包括：

5.如权利要求1所述的方法，所述待定模板包括第一模板特征和第二模板特征，所述第一模板特征在所述语言模型预训练过程中调整得到；

6.如权利要求1所述的方法，所述方法应用于模型训练系统，所述系统包括客户端和服务端，...

【专利技术属性】
技术研发人员：许卓尔，崔世文，李志峰，孟昌华，
申请(专利权)人：支付宝杭州信息技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人