一种基于自我反省的大模型训练方法及系统技术方案

技术编号：40933352 阅读：18 留言：0更新日期：2024-04-18 14:53

本申请公开了一种基于自我反省的大模型训练方法及系统，方法分为训练过程和推理过程，训练过程是通过使用训练数据令大模型拥有自我反省能力，并且将反省能力与原本大模型的生成能力结合在一起。推理过程是将用户的问题当做大模型的输入，大模型在基于用户问题的输入生成过程中，同时进行自我反省，在合适的时机进行检索并且将检索到的内容进行整合输出。从而让大模型学会何时使用检索引擎进行基于用户问题的检索增强回复。让大模型可以适配于复杂的对话系统当中，并且为用户提供满意的答案。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及自然语言处理，尤其涉及一种基于自我反省的大模型训练方法及系统。

技术介绍

1、随着以chatgpt为代表的大模型在各行各业的普遍应用，同时各种大模型的开源，人们越来越关注如何让大模型应用于自己的实际业务当中，而在人们尝试不同的大模型的时候，也发现了一些大模型的缺点。针对于用户的一些技术性问题，大多数大模型只能回答出一些比较宽泛的回复，却无法给出具体的细节。

2、当前比较流行的方式是先通过检索引擎去检索用户的技术性问题，针对于检索引擎给出的结果，通过大模型对检索结果进行整合，最终将整合的结果呈现给用户，此过程通过检索引擎给出更多具体的细节，再用大模型对这些技术答案进行整合，从而改善大模型单独很难生成较为详细的解决方案的问题。但此过程的模式较为固定，需要人为提前设计好检索以及整合的过程已经场景，针对于较为复杂的对话场景，工程师没办法去提前设计好什么时候让系统进行检索，什么时候让大模型进行整合。因此当前的检索增强的过程不太适应比较复杂的对话场景。

技术实现思路

1、本申请提...

【技术保护点】

1.一种基于自我反省的大模型训练方法，其特征在于，所述方法包括训练阶段以及推理阶段，在所述训练阶段中包括扩充词表、收集训练数据、训练判别模型、增强生成式大模型数据以及训练生成式大模型，具体地：

2.根据权利要求1所述的大模型训练方法，其特征在于，构建不同类型的反思token任务所对应的训练数据集，具体包括：

3.根据权利要求2所述的大模型训练方法，其特征在于，通过已有的大模型对原始问答数据集进行标注，构建不同类型的反思token任务所对应的训练数据集，具体包括：

4.根据权利要求2所述的大模型训练方法，其特征在于，利用所述训练数据集对不同类型的反思to...

【技术特征摘要】

2.根据权利要求1所述的大模型训练方法，其特征在于，构建不同类型的反思token任务所对应的训练数据集，具体包括：

4.根据权利要求2所述的大模型训练方法，其特征在于，利用所述训练数据集对不同类型的反思token任务进行训练得到训练完成的判别模型，包括：

5.根据权利要求2所述的大模型训练方法，其特征在于，基于训练完成的判别模型对原始问答数据集进行数据增强得到增强后的生成式训练数据集，具体包括：

6....

【专利技术属性】
技术研发人员：尤元岳，徐青伟，严长春，裴非，范娥媚，
申请(专利权)人：北京知呱呱科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人