基于知识库反馈的生成式大语言模型的训练方法和装置制造方法及图纸

技术编号：39307025 阅读：8 留言：0更新日期：2023-11-12 15:54

本发明专利技术公开了一种基于知识库反馈的生成式大语言模型的训练方法和装置，该方法利用领域知识库以及监督微调训练对大语言模型进行优化；采用基于知识库反馈的强化学习方法，利用领域知识库，构建奖励模型，对大语言模型生成的答案进行打分和反馈，构成了强化学习的流程。本发明专利技术的创新之处将知识图谱技术应用在奖励构建之中，从而可通过知识工程的自动化流程进行大语言模型微调，取代了基于人类反馈的强化学习，有利于节省大量人类反馈标注的高昂成本，基于确定性的知识推理得到领域应用的正确答案可修正生成式大语言模型捏造事实的关键缺陷，可使用在基于领域知识图谱构建行业垂直应用语言大模型的场景，适用性强。适用性强。适用性强。

全部详细技术资料下载

【技术实现步骤摘要】
基于知识库反馈的生成式大语言模型的训练方法和装置

[0001]本专利技术涉及知识工程和大语言模型微调训练领域，具体涉及强化学习和知识图谱人工智能
，尤其涉及一种基于知识库反馈的生成式大语言模型的训练方法和装置。

技术介绍

[0002]大语言模型(Large Language Model，LLM)如ChatGPT(Chat Generative Pre
‑
trained Transformer)、GPT4(Generative Pre
‑
trained Transformer 4)，能够以对话的形式为许多下游任务如面向任务的对话和问题解答生成类似人类的流畅响应，其中ChatGPT、GPT4是OpenAI机构研发的聊天机器人程序。
[0003]基于人类反馈的强化学习(Reinforcement Learning from Human Feedback，RLHF)以强化学习方式依据人类反馈优化语言模型，RLHF是一种先进的AI系统训练方法，它将强化学习与人类反馈相结合；它是一种通过将人类训练师的智慧和经验纳入模型训练过程中，创建更健壮的学习过程的方法；其中涉及使用人类反馈创建奖励信号，然后通过强化学习来改善模型的行为。
[0004]监督学习(Supervised Learning)是指从标注数据中学习预测模型的机器学习问题。标注数据表示输入输出的对应关系，预测模型对给定的输入产生相应的输出。监督学习的本质是学习输入到输出的映射的统计规律。
[0005]RLH...

【技术保护点】

【技术特征摘要】
1.一种基于知识库反馈的生成式大语言模型的训练方法，其特征在于，包括以下步骤：(1)采用开源的大语言模型作为基础，使用无标注数据对该大语言模型进行自监督训练，以获取预训练好的大语言模型；(2)从领域的问题库中抽取问题，利用Prompt提示从领域的知识库中检索问题对应的期望答案，根据问题和问题对应的期望答案构建领域的标记数据集；使用标记数据集中的标记数据对所述步骤(1)获取的预训练好的大语言模型进行监督微调训练，以获取监督微调训练好的大语言模型；(3)使用所述步骤(2)构建的领域的标记数据集中的问题，输入到所述步骤(2)获取的监督微调训练好的大语言模型中，获取多个预测答案并与标记数据集中该问题对应的期望答案共同构建多个问答对，并获取问答对所属的主题；在领域的知识图谱中对问题进行检索，以获取匹配的语义节点；根据匹配的语义节点和多个预测答案以及期望答案计算相似度，根据相似度对答案得分进行排序，并使用排序后的答案得分修正奖励模型；(4)将所述步骤(2)获取的监督微调训练好的大语言模型，基于所述步骤(3)获取的奖励模型输出的答案得分，以强化学习中的近端策略优化模型进行训练，以获取生成式大语言模型。2.根据权利要求1所述的基于知识库反馈的生成式大语言模型的训练方法，其特征在于，所述大语言模型包括自回归Transformer架构的Lamma2模型、中英双语双向预训练模型ChatGLM2
‑
6B模型、Chinchilla
‑
70B模型和PaLM
‑
540B模型。3.根据权利要求1所述的基于知识库反馈的生成式大语言模型的训练方法，其特征在于，所述步骤(2)中，所述从领域的问题库中抽取问题，利用Prompt提示从领域的知识库中检索问题对应的期望答案，根据问题和问题对应的期望答案构建领域的标记数据集，具体包括：根据监督微调训练的场景，从领域的问题库中抽取问题，通过向量嵌入在领域的知识库中进行检索以获取包含问题内容的相似文档，然后利用大语言模型的Prompt提示，将问题和检索到的相似文档嵌入到提示中，作为问题对应的期望答案；根据问题及其对应的期望答案构建领域的标记数据集，该标记数据集的样式为问答对<Question，Answer>。4.根据权利要求3所述的基于知识库反馈的生成式大语言模型的训练方法，其特征在于，所述问题对应的期望答案的确定方法具体包括：首先判断问题的主题类别是否包含在领域的知识库预先设定的主题类别范畴，若问题的主题类别未包含在领域的知识库预先设定的主题类别范畴，则通过人工补充问题对应的期望答案；若问题的主题类别包含在领域的知识库预先设定的主题类别范畴，则根据领域的知识库预先设定的数据内容判断问题对应的期望答案在检索到的相似文档中是否存在，若问题对应的期望答案在检索到的相似文档中存在，则根据问题与相似文档中存在的问题对应的期望答案判断二者的第二匹配度，若第二匹配度大于等于预设的第二匹配度阈值，则直接将相似文档中存在的问题对应的期望答案作为最终的问题对应的期望答案；若第二匹配度小于预设的第二匹配度阈值，则通过人工对相似文档中存在的问题对应的期望答案进行修正后作为最终的问题对应的期望答案；若问题对应的期望答案在检索到的相似文档中不存在，则将“我不知道”作为问题对应的期望答案。5.根据权利要求4所述的基于知识库反馈的生成式大语言模型的训练方法，其特征在
于，所述判断问题的主题类别是否包含在领域的知识库预先设定的主题类别范畴具体包括：通过问题中的主题词找到该问题在领域的知识...

【专利技术属性】
技术研发人员：黄飞，战凯，吴信东，
申请(专利权)人：之江实验室，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人