System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种基于自检式检索增强生成及指令扩张的知识图谱自动构建方法技术_技高网

一种基于自检式检索增强生成及指令扩张的知识图谱自动构建方法技术

技术编号:40501268 阅读:12 留言:0更新日期:2024-02-26 19:28
本发明专利技术涉及一种基于自检式检索增强生成及指令扩张的知识图谱自动构建方法,属于自然语言处理技术领域。将原始的多源异构数据进行数据整合,得到有效提示数据;再以所述提示数据、任务需求作为自检式检索增强生成框架的输入,训练大语言模型(LLMs)使其按需自适应检索相关段落,生成相关文本数据并完成事实验证;然后经由指令扩张框架构造大语言模型输入提示;最后以所述文本数据及输入提示作为大语言模型自动代理框架的输入层,经由大语言模型多轮反馈,得到实体‑关系‑实体三元组,完成知识图谱的构建。本发明专利技术基于自检式检索增强生成和指令扩张技术,以大语言模型作为核心引擎,实现了低资源背景下,高可靠性数据挖掘的知识图谱自动构建。

【技术实现步骤摘要】

本专利技术涉及一种基于自检式检索增强生成及指令扩张的知识图谱自动构建方法,属于自然语言处理。


技术介绍

1、知识图谱以一种有机结构的方式,详细记录客观世界中的概念、实体以及它们之间的相互关系,以模拟人类认知世界的方式呈现领域专业知识。这种表达形式赋予了我们更有效地组织、管理和理解专业领域信息的能力,因此,在各个领域中构建知识图谱变得至关重要。然而,传统的知识图谱构建方法主要依赖于人工标注和专家知识的手动整理,这往往无法高效地从文本中提取实体、属性和关系,这一点限制了知识图谱构建的速度和规模。在这个背景下,利用大语言模型可以有效降低人工构建知识图谱的成本,同时也能够提升知识图谱的精确性和完整性。因此,基于大语言模型的知识图谱自动构建方法已经成为自然语言处理领域的一个主要研究方向。

2、基于大语言模型的领域知识图谱自动构建面临数据质量低、领域专业知识理解差、结构化不清晰和语义表示困难等一系列问题。而自检式检索增强生成框架的引入可以有效解决大语言模型在构建专业知识图谱时数据资源匮乏,质量低下等问题。然而,大语言模型作为一种通用模型,无法在特定领域构建出高精度、高完整度的领域知识图谱,并且开发人员无法有效地将提示作为大语言模型的输入指令。引入指令扩张技术可以有效解决在利用生成式大语言模型依据外部数据构建知识图谱时结构化不清晰,语义表示困难等问题。因此如何有效利用自检式检索增强生成与指令扩张技术使大语言模型构建出高精度、高完整度的领域知识图谱是当前亟待解决的技术问题。


技术实现思路

<p>1、本专利技术要解决的技术问题是提供一种基于自检式检索增强生成及指令扩张的知识图谱自动构建方法,旨在解决传统知识图谱构建方法所面临的高昂的人工构建成本、低精度和不完整性等问题,从而实现高效、准确的知识图谱自动构建。

2、本专利技术的技术方案是:一种基于自检式检索增强生成及指令扩张的知识图谱自动构建方法,将原始的多源异构数据进行数据整合,得到有效提示数据。以所述提示数据和任务需求作为自检式检索增强生成框架的输入,训练大语言模型(llms)使其按需自适应检索相关段落,生成相关文本数据并完成事实验证。经由指令扩张框架构造大语言模型输入提示。以所述文本数据及输入提示作为大语言模型反馈代理框架的输入层,经由大语言模型多轮反馈,得到实体-关系-实体三元组,完成知识图谱的构建。

3、具体步骤为:一种基于自检式检索增强生成及指令扩张的知识图谱自动构建方法,具体包括:

4、step1:将原始的多源异构数据进行数据整合,得到有效提示数据。

5、step2:以所述有效提示数据和任务需求,作为自检式检索增强生成self-rag框架的输入,训练大语言模型(llms),使其按需自适应检索相关段落,生成相关文本数据并完成事实验证。

6、step3:通过训练后的所述大语言模型中的指令扩张框架,构造大语言模型输入提示。

7、step4:以所述文本数据及所述输入提示作为大语言模型反馈代理框架的输入层,经由大语言模型多轮反馈,得到实体-关系-实体三元组,完成知识图谱的构建。

8、所述step1包括:

9、step1.1:将来自实际场景下的文本,语音,pdf图片等不同格式的原始的多源异构数据全部转换为统一的字符文本并进行初步整合,获取原始字符数据。

10、step1.2:对所述原始字符数据进行数据清洗,消除空白数据、冗余数据,获取初步可用数据。

11、step1.3:将所述初步可用数据保存至文档,得到有效提示数据。

12、所述step2包括:

13、step2.1:将有效提示数据和任务需求,作为自检式检索增强生成框架的输入,所述框架根据检索标记来自适应增加检索文段。

14、step2.2:对所述检索文段进行相关性校验,生成初步相关文本数据。

15、step2.3:根据所述初步相关文本数据生成对应的评论标记,以相关性为前提,选择支持性强的文本数据进行最后的相关文本数据输出。

16、所述step3包括:

17、step3.1:首先自定义任务集放入种子池,在定义的任务集中每个任务都有对应的指令、输入、输出或者指令,输出,大语言模型根据该前置任务集中的任务数据生成新的指令。

18、step3.2:判断所述生成的新的指令是否是一个分类任务,如果是分类任务模型,则输出该指令对应的分类标签类型与输入,反之则输出该指令对应的输入和输出。

19、step3.3:对大语言模型生成的全部指令数据进行抽取后,添加到种子池。

20、step3.4:循环执行上述3步操作,根据阈值停止指令扩张,最终获取到全部的输入提示。

21、所述阈值为框架参数,到达阈值就停止指令扩张。

22、所述step4包括:

23、step4.1:设置反馈代理框架中两个大语言模型的代理类型为“客户”与“知识图谱构建专家”。

24、step4.2:以所述文本数据作为上下文传入“客户”,以所述输入提示作为指令传入“知识图谱构建专家”。

25、step4.3:根据多轮反馈,获取每次反馈得到的局部知识图谱所包含的三元组数据,最后得到完整的知识图谱。

26、所述step1.1中将语音和pdf图片转换为统一的字符文本,具体为:

27、将录入的语音仅由百度语音识别转换为字符,将pdf图片由paddleocr识别技术进行转换,最终实现将数据统一为字符文本。

28、所述step1.1中原始多源异构数据,具体为:

29、从实际场景中的开发人员、专家、互联网相关文档、书籍、图片等收集的数据。

30、所述step2.3中支持性强,具体为:

31、根据评论标记中定义的相关性(isrel)标签,如果标签存在判断支持性(issup)标签指输出是否得到某些证据的充分支持。这一方面判断的是输出中的信息有多少是由证据所包含的,支持性分为三个等级:完全支持、部分支持和不支持/矛盾。

32、本专利技术的有益效果是:本专利技术以自检式检索增强技术解决特定场景下数据挖掘困难,有效数据不完整等问题,增强知识图谱的完整性,可靠性;以指令扩张技术解决以大语言模型作为驱动引擎的低可控,低精度等问题,提高了知识图谱的准确性;以大语言模型反馈代理框架作为自动构建的主体,使对话反馈过程可以应用于领域知识图谱的自动构建,减少了人工构建成本。

本文档来自技高网
...

【技术保护点】

1.一种基于自检式检索增强生成及指令扩张的知识图谱自动构建方法,其特征在于,具体包括:

2.根据权利要求1所述的基于自检式检索增强生成及指令扩张的知识图谱自动构建方法,其特征在于,所述Step1包括:

3.根据权利要求1所述的基于自检式检索增强生成及指令扩张的知识图谱自动构建方法,其特征在于,所述Step2包括:

4.根据权利要求1所述的基于自检式检索增强生成及指令扩张的知识图谱自动构建方法,其特征在于,所述Step3包括:

5.根据权利要求1所述的基于自检式检索增强生成及指令扩张的知识图谱自动构建方法,其特征在于,所述Step4包括:

6.根据权利要求2所述的基于自检式检索增强生成及指令扩张的知识图谱自动构建方法,其特征在于,所述Step1.1中将语音和PDF图片转换为统一的字符文本,具体为:

7.根据权利要求2所述的基于自检式检索增强生成及指令扩张的知识图谱自动构建方法,其特征在于,所述Step1.1中原始多源异构数据,具体为:

8.根据权利要求3所述的基于自检式检索增强生成及指令扩张的知识图谱自动构建方法,其特征在于,所述Step2.3中支持性强,具体为:

...

【技术特征摘要】

1.一种基于自检式检索增强生成及指令扩张的知识图谱自动构建方法,其特征在于,具体包括:

2.根据权利要求1所述的基于自检式检索增强生成及指令扩张的知识图谱自动构建方法,其特征在于,所述step1包括:

3.根据权利要求1所述的基于自检式检索增强生成及指令扩张的知识图谱自动构建方法,其特征在于,所述step2包括:

4.根据权利要求1所述的基于自检式检索增强生成及指令扩张的知识图谱自动构建方法,其特征在于,所述step3包括:

5.根据权利要求1所述的基于自检式检索增强生成及指令...

【专利技术属性】
技术研发人员:王青旺李朝辉王盼新蒋涛沈韬宋健谷延锋
申请(专利权)人:昆明理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1