大模型领域迁移的训练方法及系统、文本生成的方法及系统技术方案

技术编号：41874964 阅读：23 留言：0更新日期：2024-07-02 00:27

本说明书提供一种大模型领域迁移的训练方法及系统、文本生成方法及系统，能够使用少量的样本对训练由文本生成关键词组的模型，再使用该模型在已有的本文数据库上生成大量的样本对。之后调换样本对的输入和输出位置，训练由关键词组生成文本的模型。训练好的大模型能够接收关键词组类型的输入并输出文本类型的回答。

全部详细技术资料下载

【技术实现步骤摘要】

本说明书涉及人工智能，尤其涉及一种大模型领域迁移的训练方法及系统、文本生成的方法及系统。

技术介绍

1、现有的大模型虽然在进行日常对话时通常能够输出流畅的文本，但在处理专业领域任务时仍然存在一些问题。比如，存在专业知识局限性。虽然大语言模型能够基于其训练数据中的大量文本学习到一般性的知识和模式，但在专业领域，特别是高度专业化的金融、医学、法律、工程等领域，模型可能缺乏必要的深度和广度知识，导致答案不够准确或完全错误。比如，存在信息时效性问题。大模型的知识来源于其训练数据，如果训练数据截止日期较早，模型可能无法反映最新研究进展、法规变动或行业标准的变化。

2、为了应对专业领域的文本输出问题，可以使用专业领域的数据对大模型进行微调训练。然而，专业领域的训练数据一般需要专业人员参与标注，大批量标注成本很高。

3、因此，本说明书提供一种大模型领域迁移的训练方法，能够在使用少量标注数据的情况下，实现对大模型在专业领域上的迁移训练。

4、
技术介绍
部分的内容仅仅是申请人个人所知晓的信息，并不代表上述信息在本公开申请...

【技术保护点】

1.一种大模型领域迁移的训练方法，包括：

2.如权利要求1所述的方法，其中，所述关键词组类型包括三元组数组类型，所述三元组数组类型包括主体关键词、客体关键词以及关系类型关键词组成的数组，所述关系类型关键词用于表征所述主体关键词与所述客体关键词之间的关系。

3.如权利要求1所述的方法，其中，所述基座大模型包括生成式语言模型。

4.如权利要求1所述的方法，其中，所述基于第一样本集在基座大模型之上训练得到第一模型，包括：

5.如权利要求1所述的方法，其中，所述至少基于所述第一数据集和所述第二数据集生成目标样本集，包括：