语言模型的训练方法、装置、计算机设备及介质制造方法及图纸

技术编号：40494412 阅读：7 留言：0更新日期：2024-02-26 19:23

本申请提供了一种语言模型的训练方法、装置、计算机设备及介质，属于自然语言处理领域。语言模型的训练方法包括：基于多条用户查询文本以及与多条用户查询文本对应的多条查询结果文本，构建第一样本数据集；基于多条用户查询文本中的至少一条用户查询文本以及与至少一条用户查询文本对应的判定结果，构建第二样本数据集；基于第一样本数据集以及第二样本数据集，确定语言模型的损失函数；以及基于损失函数，对语言模型进行优化，得到训练后的语言模型。

全部详细技术资料下载

【技术实现步骤摘要】

本公开涉及自然语言处理领域，特别是涉及一种语言模型的训练方法、装置、计算机设备及介质。

技术介绍

1、自然语言处理(natural language processing,nlp)是人工智能领域的一个热门子领域，旨在让计算机理解和处理人类语言。nlp大模型(large language models)则是nlp领域中的一种新型技术，具有强大的语言理解和生成能力，已经成为当前nlp领域的重要研究方向。

2、目前针对nlp大模型的训练一般分为三个训练过程：预训练、有监督学习(supervised fine tuning,sft)以及强化学习(reinforcement learning,rl)。由于资源的限制，在大多数应用场景中，会直接使用当前场景的数据对模型进行有监督学习训练，即通过极大似然估计(maximum likelihood estimation)的方式训练模型。这种极大似然估计的方式仅能最大化训练样本的概率，训练出的模型可能不是最优的。而如果在sft阶段后，再独立对nlp大模型进行强化学习，那么训练所需的数据量将会非常庞大，需要耗费大量的标注人力与标注成本。

技术实现思路

1、提供一种缓解、减轻或甚至消除上述问题中的一个或多个的机制将是有利的。

2、根据本公开的一方面，提供了一种语言模型的训练方法，包括：基于多条用户查询文本以及与多条用户查询文本对应的多条查询结果文本，构建第一样本数据集，其中，多条查询结果文本是通过调用与多条用户查询文本匹配的多个查

3、根据本公开的一方面，提供了一种语言模型的训练装置，包括：第一模块，被配置为基于多条用户查询文本以及与多条用户查询文本对应的多条查询结果文本，构建第一样本数据集，其中，多条查询结果文本是通过调用与多条用户查询文本各自匹配的多个查询工具得到的；第二模块，被配置为基于多条用户查询文本中的至少一条用户查询文本以及与至少一条用户查询文本对应的判定结果，构建第二样本数据集，其中，与至少一条用户查询文本对应的判定结果是对语言模型答复至少一条用户查询文本时生成的至少一条答复文本以及第一样本数据集中与至少一条用户查询文本对应的至少一条查询结果文本进行判定得到的；第三模块，被配置为基于第一样本数据集以及第二样本数据集，确定语言模型的损失函数；以及第四模块，被配置为基于损失函数，对语言模型进行优化，得到训练后的语言模型。

4、根据本公开的一方面，提供了一种计算机设备，包括：至少一个处理器；以及至少一个存储器，其上存储有指令，其中，指令在被至少一个处理器执行时，使至少一个处理器执行上述任一种方法。

5、根据本公开的一方面，提供了一种计算机可读存储介质，其上存储有指令，指令被一个或多个处理器执行时，使一个或多个处理器执行上述任一种方法。

6、根据本公开的一方面，提供了一种计算机程序产品，包括指令，指令被一个或多个处理器执行时，使一个或多个处理器执行上述任一种方法。

7、根据本公开的实施例，在针对nlp大模型的训练过程中，引入负样本，得到更优化的模型，缓解由于训练过程缺少负例导致的模型效果差的问题。同时，将有监督学习和强化学习结合，对nlp大模型进行混合训练，降低训练成本，缓解在有监督学习后独立进行强化学习导致的训练成本高的问题。

8、上述说明仅是本申请技术方案的概述，为了能够更清楚了解本申请的技术手段，而可依照说明书的内容予以实施，并且为了让本申请的上述和其它目的、特征和优点能够更明显易懂，以下特举本申请的具体实施方式。

本文档来自技高网...

【技术保护点】

1.一种语言模型的训练方法，其特征在于，包括：

2.根据权利要求1所述的训练方法，其特征在于，与所述至少一条用户查询文本对应的判定结果包括正向结果和负向结果，所述正向结果指示所述语言模型答复该用户查询文本时生成的答复文本优于所述第一样本数据集中与该用户查询文本对应的查询结果文本，所述负向结果指示所述语言模型答复该用户查询文本时生成的答复文本不优于所述第一样本数据集中与该用户查询文本对应的查询结果文本，并且所述第二样本数据集包括至少一条正样本以及至少一条负样本，其中

3.根据权利要求2所述的训练方法，其特征在于，所述基于所述第一样本数据集以及所述第二样本数据集，确定所述语言模型的损失函数包括：

4.根据权利要求3所述的训练方法，其特征在于，所述有监督学习损失函数包括交叉熵损失函数。

5.根据权利要求3所述的训练方法，其特征在于，所述利用所述第二样本数据集对所述语言模型进行强化学习训练，得到强化学习损失函数包括：

6.根据权利要求5所述的训练方法，其特征在于，所述获获取所述语言模型针对所述至少一条正样本的正向预测概率包括：</p>

7.根据权利要求5所述的训练方法，其特征在于，所述获取所述语言模型针对所述至少一条负样本的负向预测概率包括：

8.根据权利要求3-7中任一项所述的训练方法，其特征在于，所述基于所述有监督学习损失函数以及所述强化学习损失函数，确定所述语言模型的损失函数包括：

9.根据权利要求8所述的训练方法，其特征在于，所述基于与所述多条用户查询文本各自对应的损失函数，确定所述语言模型的损失函数包括：

10.一种语言模型的训练装置，其特征在于，包括：

11.一种计算机设备，包括：

12.一种计算机可读存储介质，存储有指令，所述指令当被计算机设备的一个或多个处理器单独或共同执行时，使所述计算机设备执行权利要求1至9中任一项所述的方法。

13.一种计算机程序产品，包括指令，所述指令当被计算机设备的一个或多个处理器单独或共同执行时，使所述计算机设备执行权利要求1至9中任一项所述的方法。

...

【技术特征摘要】

1.一种语言模型的训练方法，其特征在于，包括：

3.根据权利要求2所述的训练方法，其特征在于，所述基于所述第一样本数据集以及所述第二样本数据集，确定所述语言模型的损失函数包括：

4.根据权利要求3所述的训练方法，其特征在于，所述有监督学习损失函数包括交叉熵损失函数。

5.根据权利要求3所述的训练方法，其特征在于，所述利用所述第二样本数据集对所述语言模型进行强化学习训练，得到强化学习损失函数包括：

6.根据权利要求5所述的训练方法，其特征在于...

【专利技术属性】
技术研发人员：田效宇，陈亮宇，邹伟，陈开江，
申请(专利权)人：贝壳找房北京科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人