大模型领域迁移的训练方法及系统、文本生成的方法及系统技术方案

技术编号:41874964 阅读:23 留言:0更新日期:2024-07-02 00:27
本说明书提供一种大模型领域迁移的训练方法及系统、文本生成方法及系统,能够使用少量的样本对训练由文本生成关键词组的模型,再使用该模型在已有的本文数据库上生成大量的样本对。之后调换样本对的输入和输出位置,训练由关键词组生成文本的模型。训练好的大模型能够接收关键词组类型的输入并输出文本类型的回答。

【技术实现步骤摘要】

本说明书涉及人工智能,尤其涉及一种大模型领域迁移的训练方法及系统、文本生成的方法及系统


技术介绍

1、现有的大模型虽然在进行日常对话时通常能够输出流畅的文本,但在处理专业领域任务时仍然存在一些问题。比如,存在专业知识局限性。虽然大语言模型能够基于其训练数据中的大量文本学习到一般性的知识和模式,但在专业领域,特别是高度专业化的金融、医学、法律、工程等领域,模型可能缺乏必要的深度和广度知识,导致答案不够准确或完全错误。比如,存在信息时效性问题。大模型的知识来源于其训练数据,如果训练数据截止日期较早,模型可能无法反映最新研究进展、法规变动或行业标准的变化。

2、为了应对专业领域的文本输出问题,可以使用专业领域的数据对大模型进行微调训练。然而,专业领域的训练数据一般需要专业人员参与标注,大批量标注成本很高。

3、因此,本说明书提供一种大模型领域迁移的训练方法,能够在使用少量标注数据的情况下,实现对大模型在专业领域上的迁移训练。

4、
技术介绍
部分的内容仅仅是申请人个人所知晓的信息,并不代表上述信息在本公开申请日之前已经进入公共领本文档来自技高网...

【技术保护点】

1.一种大模型领域迁移的训练方法,包括:

2.如权利要求1所述的方法,其中,所述关键词组类型包括三元组数组类型,所述三元组数组类型包括主体关键词、客体关键词以及关系类型关键词组成的数组,所述关系类型关键词用于表征所述主体关键词与所述客体关键词之间的关系。

3.如权利要求1所述的方法,其中,所述基座大模型包括生成式语言模型。

4.如权利要求1所述的方法,其中,所述基于第一样本集在基座大模型之上训练得到第一模型,包括:

5.如权利要求1所述的方法,其中,所述至少基于所述第一数据集和所述第二数据集生成目标样本集,包括:

6.如权利要求...

【技术特征摘要】

1.一种大模型领域迁移的训练方法,包括:

2.如权利要求1所述的方法,其中,所述关键词组类型包括三元组数组类型,所述三元组数组类型包括主体关键词、客体关键词以及关系类型关键词组成的数组,所述关系类型关键词用于表征所述主体关键词与所述客体关键词之间的关系。

3.如权利要求1所述的方法,其中,所述基座大模型包括生成式语言模型。

4.如权利要求1所述的方法,其中,所述基于第一样本集在基座大模型之上训练得到第一模型,包括:

5.如权利要求1所述的方法,其中,所述至少基于所述第一数据集和所述第二数据集生成目标样本集,包括:

6.如权利要求1所述的方法,其中,所述至少基于所述第一数据集和所述第二数据集生成目标样本集,包括:

7.如权利要求1所述的方法,其中,所述基于所述目标样本集在所述...

【专利技术属性】
技术研发人员:江洲钰孙梦姝钟玲张志强
申请(专利权)人:支付宝杭州信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1