语言模型的训练方法、基于语言模型的人机交互方法技术

技术编号：43971294 阅读：13 留言：0更新日期：2025-01-10 19:59

本公开是关于一种语言模型的训练方法、基于语言模型的人机交互方法，该方法包括：获取训练数据集，其中，训练数据集包括多种不同领域的训练数据；确定待训练的多领域大语言模型，待训练的多领域大语言模型包括基础模型和不同领域的第一初始微调参数，基础模型的参数为预训练好的；利用多种不同领域的训练数据对待训练的多领域大语言模型进行微调训练，对不同领域的第一初始微调参数进行更新，以得到目标多领域大语言模型。由此，本公开的目标多领域大语言模型适用于多种不同领域，适用范围较广，且目标多领域大语言模型同时部署和动态加载不同领域的目标大语言模型，无需分别部署，降低了资源成本。

全部详细技术资料下载

【技术实现步骤摘要】

本公开涉及数据处理领域，尤其涉及深度学习、人机交互等人工智能。

技术介绍

1、大型语言模型(llm，large language model，其本质是生成式模型)，如chatgpt(chat generative pre-trained transformer，是openai机构研发的聊天机器人程序)，能够为许多下游任务(例如面向任务的对话和问题解答)生成类似人类的流畅响应。其中，大语言模型通过特定领域的问答数据进行训练，以使得大语言模型可以在特定领域的下游任务上获得较好的效果。

2、但是，不同领域对应的问答数据不同，特定领域的大语言模型仅适用于该领域的人机交互，适用范围局限，并且不同领域的大语言模型需要进行分别部署，增加了资源成本。因此，亟需一种适用于多领域的大语言模型，以使得大语言模型适用范围更加广泛。

技术实现思路

1、为克服相关技术中存在的问题，本公开提供一种基于语言模型的人机交互方法和基于语言模型的人机交互方法，以及对应的装置、电子设备及计算机可读存储介质。

<...

【技术保护点】

1.一种语言模型的训练方法，其特征在于，所述方法包括：

2.如权利要求1所述的方法，其特征在于，所述获取训练数据集，包括：

3.如权利要求1所述的方法，其特征在于，所述基础模型包括：Embedding层、N层转换Transformer层和预测层，其中，所述N为正整数。

4.如权利要求3所述的方法，其特征在于，所述训练数据包括问题数据和真实答案；所述利用所述多种不同领域的训练数据对所述待训练的多领域大语言模型进行微调训练，对所述不同领域的第一初始微调参数进行更新，以得到目标多领域大语言模型，包括：

5.如权利要求4所述的方法，其特征在于，所述...

【技术特征摘要】

1.一种语言模型的训练方法，其特征在于，所述方法包括：

2.如权利要求1所述的方法，其特征在于，所述获取训练数据集，包括：

3.如权利要求1所述的方法，其特征在于，所述基础模型包括：embedding层、n层转换transformer层和预测层，其中，所述n为正整数。

5.如权利要求4所述的方法，其特征在于，所述第一初始微调参数包括n层transformer层中每层transformer层对应的第二初始微调参数；所述将所述问题数据的第一向量表示与所述领域对应的第一初始微调参数输入至所述n层transformer层中，得到所述问题数据的目标向量表示，包括：

6.如权利要求4所述的方法，其特征在于，所述将所述目标向量表示输入至所述预测层，得到预测答案概率数据，...

【专利技术属性】
技术研发人员：高永伟，朱振华，王思佳，隋雨芊，管俊，王艳聪，张雨，朱蕾，
申请(专利权)人：北京小米移动软件有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人