当前位置: 首页 > 专利查询>之江实验室专利>正文

基于知识库反馈的生成式大语言模型的训练方法和装置制造方法及图纸

技术编号:39307025 阅读:8 留言:0更新日期:2023-11-12 15:54
本发明专利技术公开了一种基于知识库反馈的生成式大语言模型的训练方法和装置,该方法利用领域知识库以及监督微调训练对大语言模型进行优化;采用基于知识库反馈的强化学习方法,利用领域知识库,构建奖励模型,对大语言模型生成的答案进行打分和反馈,构成了强化学习的流程。本发明专利技术的创新之处将知识图谱技术应用在奖励构建之中,从而可通过知识工程的自动化流程进行大语言模型微调,取代了基于人类反馈的强化学习,有利于节省大量人类反馈标注的高昂成本,基于确定性的知识推理得到领域应用的正确答案可修正生成式大语言模型捏造事实的关键缺陷,可使用在基于领域知识图谱构建行业垂直应用语言大模型的场景,适用性强。适用性强。适用性强。

【技术实现步骤摘要】
基于知识库反馈的生成式大语言模型的训练方法和装置


[0001]本专利技术涉及知识工程和大语言模型微调训练领域,具体涉及强化学习和知识图谱人工智能
,尤其涉及一种基于知识库反馈的生成式大语言模型的训练方法和装置。

技术介绍

[0002]大语言模型(Large Language Model,LLM)如ChatGPT(Chat Generative Pre

trained Transformer)、GPT4(Generative Pre

trained Transformer 4),能够以对话的形式为许多下游任务如面向任务的对话和问题解答生成类似人类的流畅响应,其中ChatGPT、GPT4是OpenAI机构研发的聊天机器人程序。
[0003]基于人类反馈的强化学习(Reinforcement Learning from Human Feedback,RLHF)以强化学习方式依据人类反馈优化语言模型,RLHF是一种先进的AI系统训练方法,它将强化学习与人类反馈相结合;它是一种通过将人类训练师的智慧和经验纳入模型训练过程中,创建更健壮的学习过程的方法;其中涉及使用人类反馈创建奖励信号,然后通过强化学习来改善模型的行为。
[0004]监督学习(Supervised Learning)是指从标注数据中学习预测模型的机器学习问题。标注数据表示输入输出的对应关系,预测模型对给定的输入产生相应的输出。监督学习的本质是学习输入到输出的映射的统计规律。
[0005]RLHF方法在ChatGPT的语言大模型中的训练过程中起到了关键作用,在此之前,传统的语言模型主要基于监督训练方法,通常只能生成符合语法规则的句子,但往往无法理解用户意图,导致生成的输出与用户期望不符。为了解决这个问题,所以希望引入一种使用人类反馈微调语言模型的方法,以更好地对齐用户意图。通过使用人类反馈来微调模型,使其能够更好地遵循各种书面指令,并生成更准确、更有逻辑连贯性和可读性的输出。
[0006]然而,出于工程和算法的原因,基于监督学习或RLHF方法对LLM进行训练和微调的成本过高,主要在于训练集需要的数量巨大(数亿到数十亿篇文档,10TB~100TB的文本量)因而人工标注成本高昂。同时,基于通用语言数据集训练的生成式大语言模型在回答领域专业问题时,由于生成式模型的机制和大语言模型只具备当前训练语料的知识,不可避免地存在幻觉现象(即胡说八道的现象)。例如,在询问“本公司的成立时间”等问题时,需要具体的领域知识和实时信息,无法单纯依靠LLM参数中蕴含的知识来生成,均需要依赖于外部的知识库才能生成准确的结果。

技术实现思路

[0007]本专利技术的目的在于针对现有技术中人工标注成本高昂以及大语言模型捏造事实的关键缺陷与领域应用中需要精确答案的矛盾的问题,提供一种基于知识库反馈的生成式大语言模型的训练方法和装置。
[0008]本专利技术的目的是通过以下技术方案来实现的:本专利技术实施例第一方面提供了一种
基于知识库反馈的生成式大语言模型的训练方法,包括以下步骤:
[0009](1)采用开源的大语言模型作为基础,使用无标注数据对该大语言模型进行自监督训练,以获取预训练好的大语言模型;
[0010](2)从领域的问题库中抽取问题,利用Prompt提示从领域的知识库中检索问题对应的期望答案,根据问题和问题对应的期望答案构建领域的标记数据集;使用标记数据集中的标记数据对所述步骤(1)获取的预训练好的大语言模型进行监督微调训练,以获取监督微调训练好的大语言模型;
[0011](3)使用所述步骤(2)构建的领域的标记数据集中的问题,输入到所述步骤(2)获取的监督微调训练好的大语言模型中,获取多个预测答案并与标记数据集中该问题对应的期望答案共同构建多个问答对,并获取问答对所属的主题;在领域的知识图谱中对问题进行检索,以获取匹配的语义节点;根据匹配的语义节点和多个预测答案以及期望答案计算相似度,根据相似度对答案得分进行排序,并使用排序后的答案得分修正奖励模型;
[0012](4)将所述步骤(2)获取的监督微调训练好的大语言模型,基于所述步骤(3)获取的奖励模型输出的答案得分,以强化学习中的近端策略优化模型进行训练,以获取生成式大语言模型。
[0013]进一步地,所述大语言模型包括自回归Transformer架构的Lamma2模型、中英双语双向预训练模型ChatGLM2

6B模型、Chinchilla

70B模型和PaLM

540B模型。
[0014]进一步地,所述步骤(2)中,所述从领域的问题库中抽取问题,利用Prompt提示从领域的知识库中检索问题对应的期望答案,根据问题和问题对应的期望答案构建领域的标记数据集,具体包括:
[0015]根据监督微调训练的场景,从领域的问题库中抽取问题,通过向量嵌入在领域的知识库中进行检索以获取包含问题内容的相似文档,然后利用大语言模型的Prompt提示,将问题和检索到的相似文档嵌入到提示中,作为问题对应的期望答案;根据问题及其对应的期望答案构建领域的标记数据集,该标记数据集的样式为问答对<Question,Answer>。
[0016]进一步地,所述问题对应的期望答案的确定方法具体包括:
[0017]首先判断问题的主题类别是否包含在领域的知识库预先设定的主题类别范畴,若问题的主题类别未包含在领域的知识库预先设定的主题类别范畴,则通过人工补充问题对应的期望答案;若问题的主题类别包含在领域的知识库预先设定的主题类别范畴,则根据领域的知识库预先设定的数据内容判断问题对应的期望答案在检索到的相似文档中是否存在,若问题对应的期望答案在检索到的相似文档中存在,则根据问题与相似文档中存在的问题对应的期望答案判断二者的第二匹配度,若第二匹配度大于等于预设的第二匹配度阈值,则直接将相似文档中存在的问题对应的期望答案作为最终的问题对应的期望答案;若第二匹配度小于预设的第二匹配度阈值,则通过人工对相似文档中存在的问题对应的期望答案进行修正后作为最终的问题对应的期望答案;若问题对应的期望答案在检索到的相似文档中不存在,则将“我不知道”作为问题对应的期望答案。
[0018]进一步地,所述判断问题的主题类别是否包含在领域的知识库预先设定的主题类别范畴具体包括:
[0019]通过问题中的主题词找到该问题在领域的知识库中对应的实体节点;其中实体节点包括四层关键信息,第一层关键信息是问题词,所述问题词是问题的明显特征;第二层关
键信息是问题焦点,所述问题焦点为问题词相关的实体;第三层关键信息是问题的主题词,通过命名实体识别确定主题词;第四层关键信息是问题的中心动词,通过词性标注识别确定中心动词;
[0020]通过实体节点的问题词、问题焦点、问题的主题词和问题的中心动词,将该问题转化为问题图;
[0021]通过子图匹配度计算将问题图与领本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于知识库反馈的生成式大语言模型的训练方法,其特征在于,包括以下步骤:(1)采用开源的大语言模型作为基础,使用无标注数据对该大语言模型进行自监督训练,以获取预训练好的大语言模型;(2)从领域的问题库中抽取问题,利用Prompt提示从领域的知识库中检索问题对应的期望答案,根据问题和问题对应的期望答案构建领域的标记数据集;使用标记数据集中的标记数据对所述步骤(1)获取的预训练好的大语言模型进行监督微调训练,以获取监督微调训练好的大语言模型;(3)使用所述步骤(2)构建的领域的标记数据集中的问题,输入到所述步骤(2)获取的监督微调训练好的大语言模型中,获取多个预测答案并与标记数据集中该问题对应的期望答案共同构建多个问答对,并获取问答对所属的主题;在领域的知识图谱中对问题进行检索,以获取匹配的语义节点;根据匹配的语义节点和多个预测答案以及期望答案计算相似度,根据相似度对答案得分进行排序,并使用排序后的答案得分修正奖励模型;(4)将所述步骤(2)获取的监督微调训练好的大语言模型,基于所述步骤(3)获取的奖励模型输出的答案得分,以强化学习中的近端策略优化模型进行训练,以获取生成式大语言模型。2.根据权利要求1所述的基于知识库反馈的生成式大语言模型的训练方法,其特征在于,所述大语言模型包括自回归Transformer架构的Lamma2模型、中英双语双向预训练模型ChatGLM2

6B模型、Chinchilla

70B模型和PaLM

540B模型。3.根据权利要求1所述的基于知识库反馈的生成式大语言模型的训练方法,其特征在于,所述步骤(2)中,所述从领域的问题库中抽取问题,利用Prompt提示从领域的知识库中检索问题对应的期望答案,根据问题和问题对应的期望答案构建领域的标记数据集,具体包括:根据监督微调训练的场景,从领域的问题库中抽取问题,通过向量嵌入在领域的知识库中进行检索以获取包含问题内容的相似文档,然后利用大语言模型的Prompt提示,将问题和检索到的相似文档嵌入到提示中,作为问题对应的期望答案;根据问题及其对应的期望答案构建领域的标记数据集,该标记数据集的样式为问答对<Question,Answer>。4.根据权利要求3所述的基于知识库反馈的生成式大语言模型的训练方法,其特征在于,所述问题对应的期望答案的确定方法具体包括:首先判断问题的主题类别是否包含在领域的知识库预先设定的主题类别范畴,若问题的主题类别未包含在领域的知识库预先设定的主题类别范畴,则通过人工补充问题对应的期望答案;若问题的主题类别包含在领域的知识库预先设定的主题类别范畴,则根据领域的知识库预先设定的数据内容判断问题对应的期望答案在检索到的相似文档中是否存在,若问题对应的期望答案在检索到的相似文档中存在,则根据问题与相似文档中存在的问题对应的期望答案判断二者的第二匹配度,若第二匹配度大于等于预设的第二匹配度阈值,则直接将相似文档中存在的问题对应的期望答案作为最终的问题对应的期望答案;若第二匹配度小于预设的第二匹配度阈值,则通过人工对相似文档中存在的问题对应的期望答案进行修正后作为最终的问题对应的期望答案;若问题对应的期望答案在检索到的相似文档中不存在,则将“我不知道”作为问题对应的期望答案。5.根据权利要求4所述的基于知识库反馈的生成式大语言模型的训练方法,其特征在
于,所述判断问题的主题类别是否包含在领域的知识库预先设定的主题类别范畴具体包括:通过问题中的主题词找到该问题在领域的知识...

【专利技术属性】
技术研发人员:黄飞战凯吴信东
申请(专利权)人:之江实验室
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1