当前位置: 首页 > 专利查询>之江实验室专利>正文

一种知识图谱质量评估方法、装置、存储介质及电子设备制造方法及图纸

技术编号:39410815 阅读:14 留言:0更新日期:2023-11-19 16:02
本说明书公开了一种知识图谱质量评估方法、装置、存储介质及电子设备。在本说明书提供的知识图谱质量评估方法中,获取目标领域的样本知识图谱,并提取所述样本知识图谱中的样本知识;确定所述样本知识是否正确,作为所述样本知识的标注结果;将所述样本知识与评估指令输入第一大语言模型,得到所述大语言模型输出的样本评估结果;根据所述标注结果与所述样本评估结果,在所述样本知识中确定正样本知识与负样本知识;采用所述正样本知识与所述负样本知识对第二大语言模型进行调整;将目标领域的目标知识图谱输入调整后的所述第二大语言模型,得到所述第二大语言模型对所述目标知识图谱的评估结果。谱的评估结果。谱的评估结果。

【技术实现步骤摘要】
一种知识图谱质量评估方法、装置、存储介质及电子设备


[0001]本说明书涉及计算机
,尤其涉及一种知识图谱质量评估方法、装置、存储介质及电子设备。

技术介绍

[0002]知识图谱构建多数是对海量异构数据进行处理和分析,构建知识库。但由于现实世界中数据质量往往参差不齐,存在不一致性、不准确、重复等问题。如果不对抽取的知识质量进行评估,会严重影响下游任务。因此质量评估在知识图谱的构建过程中至关重要。
[0003]目前,现有技术中对知识图谱进行质量评估的主要方式存在两种。一种是人工评估,通过抽样检测的方式对知识图谱进行评估;另一种是规则推理,结合sparql规则与形式逻辑等,需要人工熟悉数据后发现规则并进行验证。
[0004]然而上述方法均存在一些缺陷。一方面,对于大规模知识图谱,人工检测所有条目不现实,而采用抽取样本来估计总体准确率的方式很可能由于抽取样本的局限性导致估计结果和真实结果存在较大偏差;并且基于人工抽样方法仅可用于评估知识图谱的质量,无法实现错误检测和纠正。另一方面,由于知识图谱的无模式性,并且针对不同的下游任务和不同的数据集有不同的质量要求,对不同的数据需要人工构造大量不同规则,很难找到一个适用各种格式数据的普适性规则。可见,上述两种现有方法均不够准确且对人工的依赖程度较高。
[0005]因此,如何在构建知识图谱的过程中进行效果更好、对人工依赖更低的知识图谱质量评估是一个亟待解决的问题。

技术实现思路

[0006]本说明书提供一种知识图谱质量评估方法、装置、存储介质及电子设备,以至少部分地解决现有技术存在的上述问题。
[0007]本说明书采用下述技术方案:本说明书提供了一种知识图谱质量评估方法,包括:获取目标领域的样本知识图谱,并提取所述样本知识图谱中的样本知识;确定所述样本知识是否正确,作为所述样本知识的标注结果;将所述样本知识与评估指令输入第一大语言模型,得到所述大语言模型输出的样本评估结果;根据所述标注结果与所述样本评估结果,在所述样本知识中确定正样本知识与负样本知识;采用所述正样本知识与所述负样本知识对第二大语言模型进行调整;将目标领域的目标知识图谱输入调整后的所述第二大语言模型,得到所述第二大语言模型对所述目标知识图谱的评估结果。
[0008]可选地,确定所述样本知识是否正确,具体包括:
针对每个样本知识,通过众包评估的方式,确定该样本知识的指定数量个独立评估结果;根据各独立评估结果确定该样本知识的标注结果。
[0009]可选地,所述第一大语言模型为闭源大语言模型,所述第二大语言模型为开源大语言模型。
[0010]可选地,根据所述标注结果与所述样本评估结果,在所述样本知识中确定正样本知识与负样本知识,具体包括:针对每个样本知识,当该样本知识的标注结果与该样本知识的样本评估结果相同时,将该样本知识确定为正样本知识;当该样本知识的标注结果与该样本知识的样本评估结果不同时,将该样本知识确定为负样本知识。
[0011]可选地,将该样本知识确定为负样本知识,具体包括:将该样本知识重新输入所述第一大语言模型,重新得到所述第一大语言模型对该样本知识的样本评估结果,直到所述第一大语言模型对该样本知识的样本评估结果与该样本知识的标注结果相同,或所述第一大语言模型重新评估该样本知识的次数达到指定阈值;当所述第一大语言模型对该样本知识的评估结果与该样本知识的标注结果相同时,将该样本知识确定为正样本知识;当所述第一大语言模型重新评估该样本知识的次数达到指定阈值时,将该样本知识确定为强化负样本知识。
[0012]可选地,采用所述正样本知识与所述负样本知识对第二大语言模型进行调整,具体包括:将所述正样本知识与所述负样本知识输入所述第二大语言模型;根据所述第二大语言模型对所述正样本知识与所述负样本知识的学习结果,对预先设置的低秩分解矩阵进行优化;采用所述低秩分解矩阵调整所述第二大语言模型的参数。
[0013]可选地,将目标领域的目标知识图谱输入调整后的所述第二大语言模型,得到所述第二大语言模型对所述目标知识图谱的评估结果,具体包括:将目标领域的目标知识图谱输入调整后的所述第二大语言模型,以使所述第二大语言模型针对所述目标知识图谱中的每一类知识,判定该类知识中包含的各知识是否正确,并根据所述各知识的判断结果,确定所述目标知识图谱中该类知识的准确率;得到所述第二大语言模型输出的所述目标知识图谱中各类知识的准确率,作为所述目标知识图谱的评估结果。
[0014]本说明书提供的一种知识图谱质量评估的装置,所述装置包括:获取模块,用于获取目标领域的样本知识图谱,并提取所述样本知识图谱中的样本知识;标注模块,用于确定所述样本知识是否正确,作为所述样本知识的标注结果;输入模块,用于将所述样本知识与评估指令输入第一大语言模型,得到所述大语言模型输出的样本评估结果;
确定模块,用于根据所述标注结果与所述样本评估结果,在所述样本知识中确定正样本知识与负样本知识;调整模块,用于采用所述正样本知识与所述负样本知识对第二大语言模型进行调整;评估模块,用于将目标领域的目标知识图谱输入调整后的所述第二大语言模型,得到所述第二大语言模型对所述目标知识图谱的评估结果。
[0015]本说明书提供了一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述知识图谱质量评估方法。
[0016]本说明书提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述知识图谱质量评估方法。
[0017]本说明书采用的上述至少一个技术方案能够达到以下有益效果:在本说明书提供的知识图谱质量评估方法中,获取目标领域的样本知识图谱,并提取所述样本知识图谱中的样本知识;确定所述样本知识是否正确,作为所述样本知识的标注结果;将所述样本知识与评估指令输入第一大语言模型,得到所述大语言模型输出的样本评估结果;根据所述标注结果与所述样本评估结果,在所述样本知识中确定正样本知识与负样本知识;采用所述正样本知识与所述负样本知识对第二大语言模型进行调整;将目标领域的目标知识图谱输入调整后的所述第二大语言模型,得到所述第二大语言模型对所述目标知识图谱的评估结果。
[0018]在采用本说明书提供的知识图谱质量评估方法对目标领域的目标知识图谱进行评估时,可首先获取目标领域的样本知识图谱中的样本知识,并利用针对样本知识确定出的标注结果与闭源的第一大语言模型对样本知识的样本评估结果,确定出正样本知识与负样本知识,用于对开源的第二大语言模型进行调整,最终得到掌握目标领域的专业知识的第二大语言模型,对目标知识图谱进行评估。本方法可通过大语言模型对知识图谱进行自动化地评估,有效减少了传统评估方法中对人工的依赖;同时,大语言模型能够给出更加准确、清晰的评估结果,提高了对知识图谱进行评估时的准确率。
附图说明
[0019]此处所说明的附图用来提供对本说明书的进一步理解,构成本说明书的一部分,本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种知识图谱质量评估方法,其特征在于,包括:获取目标领域的样本知识图谱,并提取所述样本知识图谱中的样本知识;确定所述样本知识是否正确,作为所述样本知识的标注结果;将所述样本知识与评估指令输入第一大语言模型,得到所述大语言模型输出的样本评估结果;根据所述标注结果与所述样本评估结果,在所述样本知识中确定正样本知识与负样本知识;采用所述正样本知识与所述负样本知识对第二大语言模型进行调整;将目标领域的目标知识图谱输入调整后的所述第二大语言模型,得到所述第二大语言模型对所述目标知识图谱的评估结果。2.如权利要求1所述的方法,其特征在于,确定所述样本知识是否正确,具体包括:针对每个样本知识,通过众包评估的方式,确定该样本知识的指定数量个独立评估结果;根据各独立评估结果确定该样本知识的标注结果。3.如权利要求1所述的方法,其特征在于,所述第一大语言模型为闭源大语言模型,所述第二大语言模型为开源大语言模型。4.如权利要求1所述的方法,其特征在于,根据所述标注结果与所述样本评估结果,在所述样本知识中确定正样本知识与负样本知识,具体包括:针对每个样本知识,当该样本知识的标注结果与该样本知识的样本评估结果相同时,将该样本知识确定为正样本知识;当该样本知识的标注结果与该样本知识的样本评估结果不同时,将该样本知识确定为负样本知识。5.如权利要求4所述的方法,其特征在于,将该样本知识确定为负样本知识,具体包括:将该样本知识重新输入所述第一大语言模型,重新得到所述第一大语言模型对该样本知识的样本评估结果,直到所述第一大语言模型对该样本知识的样本评估结果与该样本知识的标注结果相同,或所述第一大语言模型重新评估该样本知识的次数达到指定阈值;当所述第一大语言模型对该样本知识的评估结果与该样本知识的标注结果相同时,将该样本知识确定为正样本知识;当所述第一大语言模型重新评估该样本知识的次数达到指定阈值时,将该样本知识确定为强化负样本知识。6.如权利要求1所述的方法,其特...

【专利技术属性】
技术研发人员:段宏英董波孔祥夫
申请(专利权)人:之江实验室
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1