System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种增强大语言模型知识边界感知能力的方法和系统技术方案_技高网

一种增强大语言模型知识边界感知能力的方法和系统技术方案

技术编号:41295117 阅读:2 留言:0更新日期:2024-05-13 14:44
本发明专利技术公开了一种增强大语言模型知识边界感知能力的方法和系统,方法包括:获取用户问题;通过检索器,基于问题检索外部知识,得到与问题相关的外部知识,并将其与问题拼接成输入内容;构建第一判别器:在输入大语言模型前,判别回答输入内容是否超出知识边界;通过大语言模型,基于输入内容,得到输出内容;构建第二判别器:在大语言模型输出后,判别输出内容是否合理;构建第三判别器:判断输入内容和输出内容的外部知识是否一致;根据不同情况分别给出最终回复。本发明专利技术能增强大语言模型知识边界感知能力;能辅助大语言模型判别输出内容的真实性和准确性;能缓解大语言模型的文本生成“幻觉”问题,使输出内容更真实可信。

【技术实现步骤摘要】

本专利技术涉及大语言模型,尤其涉及一种增强大语言模型知识边界感知能力的方法和系统


技术介绍

1、大语言模型是指采用深度学习技术使用大量无标记文本数据进行自监督训练得到的大规模神经网络模型,大语言模型在各种传统自然语言处理任务(如文本生成,情感分类,阅读理解,对话系统等)上表现出色,典型的大语言模型有openai开发的chatgpt,gpt-4,阿里巴巴的通义千问,百度的文心一言,清华大学的chatglm等。

2、文本生成是指面向一种或多种自然语言,自动生成人类可理解文本的过程。一般而言,文本生成任务在接收到结构化的数据、文本或者图片后,自动生成一段和输入指令相关联的文本。而文本生成“幻觉”是指大语言模型生成自然流畅,语法正确但实际上毫无意义或包含事实错误的文本,给人带来的“以假乱真”的“幻觉”。文本生成产生“幻觉”可能的原因包括:大语言模型训练数据的分布缺陷、样本不充分以及上下文理解方面的不足、领域知识的约束等。即使运用检索增强等技术加以约束,大语言模型仍然难以避免强加因果,知识错误等问题,即“一本正经的胡说八道”。随着大语言模型在包括金融服务、医疗诊断、法律决策等领域的广泛使用,文本生成“幻觉”问题可能在各类应用场景下造成严重的不良影响。所以,让大模型知道自己能回答什么,不能回答什么至关重要。

3、一般认为,大语言模型的知识来源于从大量训练数据中学习、理解到的知识,以及在检索增强中获取的知识。因此,大语言模型的“知识边界”泛指其所掌握知识的总体形成的边界。受训练样本,学习手段的限制,大语言模型的知识是有界的,因此其回答问题的能力也是有限的。然而,现阶段的大语言模型在回答问题时,往往返回超出其“知识边界”的答案。比如当输入“请讲司马光砸缸的典故”时,大语言模型会“杜撰”一个貌似真实的故事;或利用检索增强所补充的背景知识,生成与事实不符的内容。比如给出司马光的一些生平背景,大语言模型会结合上下文编造一个更加生动形象的故事。而当给出可供回答问题的上下文及其他相关信息时,大语言模型会强行给上下文建立因果关系,比如:给出司马光的生平和司马光砸缸的上下文,大语言模型会将砸缸和王安石变法强行建立因果关系,忽略了司马光砸缸仅仅是司马光幼时的一个典故而已。由此可见,大语言模型缺乏对自身知识边界清晰的认知,面对不知道的事实依然生成与事实相悖的回复,为下游应用埋下了隐患。

4、相关技术中,多是通过检索增强、思维链、后处理的方式优化大语言模型输出。cn116932776a公开了一种基于知识图谱的大模型知识更新方法和装置,将知识用于微调大模型更新大模型知识,使用时将用户的问题结合召回的知识结合输入;cn116561278a公开了知识问答方法、装置、设备及存储介质,将输入的问题拆解成思维链进行回答;cn116719917a公开了一种大模型与外部知识相结合的知识问答系统、方法及储存介质,在大语言模型输出后由基于外部知识的修改网络修改大模型输出的回答。

5、综上所述,现有技术从大语言模型的输入、推理、输出对大语言模型进行规范,但都没有让大语言模型认识自身的知识边界,不足以让大语言模型只回答自己能回答的知识。


技术实现思路

1、本专利技术提供了一种增强大语言模型知识边界感知能力的方法和系统,用于增强大语言模型感知自身知识边界的能力,避免大语言模型输出他不具备的知识,从而提高生成内容质量,缓解大语言模型所特有的“幻觉”问题。

2、本专利技术采用的技术方案是:第一方面,本专利技术提供一种增强大语言模型知识边界感知能力的方法,包括:

3、获取用户问题;

4、通过检索器,基于问题检索外部知识,得到与问题相关的外部知识,并将其与问题拼接成输入内容;

5、构建第一判别器:基于输入内容,采用大语言模型判别能否回答问题,并过滤出大语言模型先验地认为不能回答的问题作为第一类超出知识边界的问题;

6、通过大语言模型,基于输入内容,得到输出内容;

7、构建第二判别器:基于输入内容,采用大语言模型判别输出内容是否合理,并过滤出大语言模型认为输出内容不合理的问题作为第二类超出知识边界的问题;

8、构建第三判别器:基于检索器检索出的与输出内容相关的外部知识,判断其与问题相关外部知识是否一致,并过滤出外部知识不一致的问题作为第三类超出知识边界的问题;

9、对于第一类超出知识边界的问题、第二类超出知识边界的问题、第三类超出知识边界的问题分别给出最终回复,以及对于未判定超出知识边界的问题给出大语言模型的输出内容作为最终回复。

10、进一步的,所述通过大语言模型,基于输入内容,得到输出内容包括:

11、构建提示词,让大语言模型根据输入内容得到输出内容。

12、进一步的,所述构建第二判别器:基于输入内容,采用大语言模型判别输出内容是否合理,并过滤出大语言模型认为输出内容不合理的问题作为第二类超出知识边界的问题包括:

13、基于输入内容,采用大语言模型判别输出内容是否正确,并过滤出大语言模型认为输出内容有错误的问题作为第二类超出知识边界的问题;

14、基于输入内容,采用大语言模型判别是否能推出输出内容,并过滤出大语言模型认为不能推断出输出内容的问题也作为第二类超出知识边界的问题。

15、进一步的,所述构建第三判别器:基于检索器检索出的与输出内容相关的外部知识,判断其与问题相关外部知识是否一致,并过滤出外部知识不一致的问题作为第三类超出知识边界的问题包括:

16、通过检索器,在外部知识中检索与输出内容相关的知识;

17、判断与问题相关的外部知识和与输出内容相关的外部知识是否一致,过滤出两次检索知识不一致的问题,将其作为第三类超出知识边界的问题。

18、进一步的,所述对于第一类超出知识边界的问题、第二类超出知识边界的问题、第三类超出知识边界的问题分别给出最终回复包括:

19、对于第一类超出知识边界的问题,告知用户大语言模型不能回答该问题;

20、对于第二类超出知识边界的问题,告知用户大语言模型不确定答案是否正确,并给出理由;

21、对于第三类超出知识边界的问题,告知用户大语言模型可能存在胡编乱造,或在检索器中添加第三判别器判断的不一致的外部知识重复流程。

22、第二方面,本专利技术还提供一种增强大语言模型知识边界感知能力的方法,包括:

23、获取用户问题,并将问题作为输入内容;

24、构建第一判别器:基于输入内容,采用大语言模型判别能否回答问题,并过滤出大语言模型先验地认为不能回答的问题作为第一类超出知识边界的问题;

25、通过大语言模型,基于输入内容,得到输出内容;

26、构建第二判别器:基于输入内容,采用大语言模型判别输出内容是否合理,并过滤出大语言模型认为输出内容不合理的问题作为第二类超出知识边界的问题;

27、对于第一类超出知识边界的问题、本文档来自技高网...

【技术保护点】

1.一种增强大语言模型知识边界感知能力的方法,其特征在于,包括:

2.根据权利要求1所述的增强大语言模型知识边界感知能力的方法,其特征在于,所述通过大语言模型,基于输入内容,得到输出内容包括:构建提示词,让大语言模型根据输入内容得到输出内容。

3.根据权利要求1所述的增强大语言模型知识边界感知能力的方法,其特征在于,所述构建第二判别器:基于输入内容,采用大语言模型判别输出内容是否合理,并过滤出大语言模型认为输出内容不合理的问题作为第二类超出知识边界的问题包括:

4.根据权利要求1所述的增强大语言模型知识边界感知能力的方法,其特征在于,所述构建第三判别器:基于检索器检索出的与输出内容相关的外部知识,判断其与问题相关外部知识是否一致,并过滤出外部知识不一致的问题作为第三类超出知识边界的问题包括:

5.根据权利要求1所述的增强大语言模型知识边界感知能力的方法,其特征在于,所述对于第一类超出知识边界的问题、第二类超出知识边界的问题、第三类超出知识边界的问题分别给出最终回复包括:

6.一种增强大语言模型知识边界感知能力的方法,其特征在于,包括:

7.一种增强大语言模型知识边界感知能力的系统,其特征在于,包括:

8.一种增强大语言模型知识边界感知能力的系统,其特征在于,包括:

9.一种电子设备,其特征在于,所述电子设备包括:

10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-6中任一所述的增强大语言模型知识边界感知能力的方法。

...

【技术特征摘要】

1.一种增强大语言模型知识边界感知能力的方法,其特征在于,包括:

2.根据权利要求1所述的增强大语言模型知识边界感知能力的方法,其特征在于,所述通过大语言模型,基于输入内容,得到输出内容包括:构建提示词,让大语言模型根据输入内容得到输出内容。

3.根据权利要求1所述的增强大语言模型知识边界感知能力的方法,其特征在于,所述构建第二判别器:基于输入内容,采用大语言模型判别输出内容是否合理,并过滤出大语言模型认为输出内容不合理的问题作为第二类超出知识边界的问题包括:

4.根据权利要求1所述的增强大语言模型知识边界感知能力的方法,其特征在于,所述构建第三判别器:基于检索器检索出的与输出内容相关的外部知识,判断其与问题相关外部知识是否一致,并过滤出外部知识不一致的...

【专利技术属性】
技术研发人员:司成良杨兰王欣刘峻枫李昆展华益
申请(专利权)人:四川启睿克科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1