System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 基于大语言模型的幻觉检测方法、系统以及存储介质技术方案_技高网

基于大语言模型的幻觉检测方法、系统以及存储介质技术方案

技术编号:40642690 阅读:6 留言:0更新日期:2024-03-13 21:23
本发明专利技术涉及大语言模型幻觉检测领域,特别涉及一种基于大语言模型的幻觉检测方法、系统以及存储介质。本发明专利技术通过获取大语言模型、待检测内容以及与所述待检测内容相关的相关文档集;构建与待检测内容中的数字和实体单位对应的多道填空题和多道判断题组成的题库集;根据相关文档集对题库集中的所有填空题进行填空,并对所有填空题的填空结果和所有判断题一一进行判断;若存在一道填空题的填空结果或一道判断题在相关文档集的所有相关文档下均被判断为非正确,则确定待检测内容中存在幻觉。实现了对数字幻觉、实体幻觉等细粒度幻觉问题的检测。

【技术实现步骤摘要】

本专利技术涉及大语言模型幻觉检测领域,特别涉及一种基于大语言模型的幻觉检测方法、系统以及存储介质


技术介绍

1、传统的幻觉检测方法通常需要多次检索额外的外部事实,以与待检测的内容进行核对,或者使用统计工具来估计待检测内容的不确定性。然而,额外的检索带来了更多成本,而利用置信度等指标进行幻觉检测缺乏坚实的理论基础。

2、现有基于大型语言模型的幻觉检测方法往往依赖分类器和问答等手段来对待检测内容进行二次评估。其中,依赖分类器的方法在实施过程中需要领域相关的人工标注数据,这导致了标注成本的增加。而依赖问答手段的方法通常要进行多次问题检索,以逐步获取多个检索文档。它们假设在给定的检索文档下,大模型的输出是可信的。但由于大语言模型的泛化能力有限,它们很难理解特定语境中诸如“冲突”和“矛盾”等词语的实际含义,即便有更详细的概念解释,大语言模型也会将概念和其他概念混淆,造成幻觉检测失效。

3、例如,大语言模型根据给定的检索文档回答问题时,检索文档中为“苹果50元”,大语言模型回答为“苹果100元”;再如,检索文档中为“达到50左右”,大语言模型回答为“达到50”等。这种情况在逻辑上并不产生直接矛盾,现有的幻觉检测方法也并未专门将这种情况归类为幻觉,但在金融场景下,这种细粒度的篡改被视为一种幻觉。而现有基于大语言模型的幻觉检测方法进行检测时,未深入考虑在检索增强场景下依然可能出现的幻觉问题,往往无法检测出在检索增强场景下存在的细粒度的幻觉问题。


技术实现思路

1、为解决现有大型语言模型难以检测出在检索增强场景下存在的细粒度的幻觉问题,本专利技术提供了一种基于大语言模型的幻觉检测方法、系统以及存储介质。

2、本专利技术解决技术问题的方案是提供一种基于大语言模型的幻觉检测方法,包括以下步骤:

3、获取大语言模型、待检测内容以及与所述待检测内容相关的相关文档集;

4、构建与所述待检测内容中的数字和实体单位对应的多道填空题和多道判断题组成的题库集;

5、根据所述相关文档集对所述题库集中的所有填空题进行填空,并对所有填空题的填空结果和所有判断题一一进行判断;

6、若存在一道填空题的填空结果或一道判断题在所述相关文档集的所有相关文档下均被判断为非正确,则确定所述待检测内容中存在幻觉。

7、优选地,所述相关文档集通过以下步骤获得:

8、根据所述待检测内容进行检索,获得多个检索文档;

9、依次判断多个所述检索文档的文档长度是否大于预设文档长度;

10、若否,则将多个所述检索文档作为所述待检测内容的相关文档集。

11、优选地,依次判断多个所述检索文档的文档长度是否大于预设文档长度之后,所述方法还包括:

12、若是,则根据预设分段数对文档长度大于预设文档长度的所述检索文档进行自动分段,形成多个分段文档;

13、根据预设筛选任务对自动分段后的多个分段文档进行筛选,将满足所述预设筛选任务的所述分段文档和小于预设文档长度的所述检索文档作为所述待检测内容的所述相关文档集。

14、优选地,构建与所述待检测内容中的数字和实体单位对应的多道填空题和多道判断题组成的题库集,具体包括以下步骤:

15、对所述待检测内容中的数字和实体进行识别,以确定所述待检测内容中出现的数字和不可替换的实体单位;

16、对所述待检测内容中的数字进行掩盖,以构建填空题;

17、对所述待检测内容中的实体单位进行掩盖处理,形成实体填空题,并提供所述实体填空题的实体填空答案,从而形成所述判断题;

18、将所有填空题和所有判断题组合形成所述题库集。

19、优选地,对所述待检测内容中的数字进行掩盖,以构建填空题,具体包括

20、根据预设选择任务选择所述待检测内容中的数字进行掩盖处理,以构建所述填空题;所述预设选择任务为数字全选任务、选择置信度最低的数字任务和选择出错率最高的数字任务中的一个任务。

21、优选地,根据所述相关文档集对所述题库集中的所有填空题进行填空,具体包括:

22、将所述相关文档集输入至所述大语言模型,使所述大语言模型遍历所述相关文档集中的所有相关文档对每道所述填空题中的待填空处进行填空操作,以完成预设填空任务,获得每道填空题对应的填空结果;所述填空结果包括填空答案和与所述填空答案对应的填空原因。

23、优选地,对所有填空题的填空结果和所有判断题一一进行判断,具体包括以下步骤:

24、通过所述大语言模型确定每道填空题对应的所述填空结果中的填空答案与所述待检测内容中的被掩盖的数字是否一致;

25、若是,则所述填空答案判断为正确;

26、通过所述大语言模型对每道判断题的实体填空答案进行判断,以完成预设判断任务,获得每道判断题对应的判断结果;所述判断结果包括判断答案和与所述判断答案对应的判断原因;

27、若所述相关文档集中存在至少一个相关文档中的相关实体与判断题对应的实体填空答案一致,则所述判断题的判断答案为正确。

28、优选地,所述填空原因包括所述填空答案为填空数字在所述相关文档中的第一原文内容;所述判断原因包括所述判断答案为正确时,所述实体填空答案在所述相关文档中的第二原文内容。

29、本专利技术为解决上述技术问题还提供一种基于大语言模型的幻觉检测系统,用于实现如上任一项所述的基于大语言模型的幻觉检测方法,包括:

30、文档获取模块,用于获取大语言模型、待检测内容以及与所述待检测内容相关的相关文档集;

31、题库构建模块,用于构建与所述待检测内容中的数字和实体单位对应的多道填空题和多道判断题组成的题库集;

32、结果判断模块,用于根据所述相关文档集对所述题库集中的所有填空题进行填空,并对所有填空题的填空结果和所有判断题一一进行判断;

33、幻觉确定模块,用于若存在一道填空题的填空结果或一道判断题在所述相关文档集的所有相关文档下均被判断为非正确,则确定所述待检测内容中存在幻觉。

34、本专利技术为解决上述技术问题还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上任一项所述的基于大语言模型的幻觉检测方法。

35、与现有技术相比,本专利技术提供的基于大语言模型的幻觉检测方法、系统以及存储介质具有以下优点:

36、1、本专利技术实施例提供的一种基于大语言模型的幻觉检测方法,通过获取大语言模型、待检测内容以及与所述待检测内容相关的相关文档集;构建与待检测内容中的数字和实体单位对应的多道填空题和多道判断题组成的题库集;根据相关文档集对题库集中的所有填空题进行填空,并对所有填空题的填空结果和所有判断题一一进行判断;若存在一道填空题的填空结果或一道判断题在相关文档集的所有相关文档下均被判断为非正确,则确定待检测内容中存在幻觉。通过构建填空题和判断题本文档来自技高网...

【技术保护点】

1.一种基于大语言模型的幻觉检测方法,其特征在于:包括以下步骤:

2.如权利要求1所述的基于大语言模型的幻觉检测方法,其特征在于:所述相关文档集通过以下步骤获得:

3.如权利要求2所述的基于大语言模型的幻觉检测方法,其特征在于:依次判断多个所述检索文档的文档长度是否大于预设文档长度之后,所述方法还包括:

4.如权利要求1所述的基于大语言模型的幻觉检测方法,其特征在于:构建与所述待检测内容中的数字和实体单位对应的多道填空题和多道判断题组成的题库集,具体包括以下步骤:

5.如权利要求4所述的基于大语言模型的幻觉检测方法,其特征在于:对所述待检测内容中的数字进行掩盖,以构建填空题,具体包括

6.如权利要求4所述的基于大语言模型的幻觉检测方法,其特征在于:根据所述相关文档集对所述题库集中的所有填空题进行填空,具体包括:

7.如权利要求6所述的基于大语言模型的幻觉检测方法,其特征在于:对所有填空题的填空结果和所有判断题一一进行判断,具体包括以下步骤:

8.如权利要求7所述的基于大语言模型的幻觉检测方法,其特征在于:所述填空原因包括所述填空答案为填空数字在所述相关文档中的第一原文内容;所述判断原因包括所述判断答案为正确时,所述实体填空答案在所述相关文档中的第二原文内容。

9.一种基于大语言模型的幻觉检测系统,用于实现如权利要求1-8任一项所述的基于大语言模型的幻觉检测方法,其特征在于:包括:

10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于:所述计算机程序被处理器执行时实现如权利要求1-8任一项所述的基于大语言模型的幻觉检测方法。

...

【技术特征摘要】

1.一种基于大语言模型的幻觉检测方法,其特征在于:包括以下步骤:

2.如权利要求1所述的基于大语言模型的幻觉检测方法,其特征在于:所述相关文档集通过以下步骤获得:

3.如权利要求2所述的基于大语言模型的幻觉检测方法,其特征在于:依次判断多个所述检索文档的文档长度是否大于预设文档长度之后,所述方法还包括:

4.如权利要求1所述的基于大语言模型的幻觉检测方法,其特征在于:构建与所述待检测内容中的数字和实体单位对应的多道填空题和多道判断题组成的题库集,具体包括以下步骤:

5.如权利要求4所述的基于大语言模型的幻觉检测方法,其特征在于:对所述待检测内容中的数字进行掩盖,以构建填空题,具体包括

6.如权利要求4所述的基于大语言模型的幻觉检测方法,其特征在于:根据所述相关文档...

【专利技术属性】
技术研发人员:马永亮胥卜凡周明
申请(专利权)人:北京澜舟科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1