当前位置: 首页 > 专利查询>东南大学专利>正文

一种基于自然语言问答的知识图谱三元组显著性评估方法技术

技术编号:36128447 阅读:22 留言:0更新日期:2022-12-28 14:36
本发明专利技术公开了一种基于自然语言问答的知识图谱三元组显著性评估方法,其步骤为:首先对于给定的知识图谱三元组,提取其所包含的关系;然后根据预先设置的不同关系类型所对应的问句生成模板将该三元组转化为自然语言问句的形式;基于所生成的问句序列,可将原始的知识图谱三元组显著性评估任务转化为自然语言问答任务,然后通过本发明专利技术所提出的方法进一步微调已有的大型预训练语言模型,最终输出对知识图谱三元组显著性评估结果。该方法在不借助于任何外部知识库和图表示学习的情况下显著提高了知识图谱三元组显著性评估的准确率。提高了知识图谱三元组显著性评估的准确率。提高了知识图谱三元组显著性评估的准确率。

【技术实现步骤摘要】
一种基于自然语言问答的知识图谱三元组显著性评估方法


[0001]本专利技术涉及到自然语言处理领域中知识图谱三元组显著性的评估方法。

技术介绍

[0002]如今大规模知识库(知识图谱)的构建为许多人工智能任务的研究提供了重要支持。但随着互联网信息技术的迅猛发展,从海量的原始数据提取到的知识图谱三元组往往存在不完整性问题。知识图谱的完整性问题主要包括包含两个方面:知识图谱三元组的显著性评估和链路预测。其中知识图谱三元组的显著性评估主要目的是判断提取到三元组是否符合常理,可以有效地减少人工筛选成本,极大地降低现有大规模知识库的噪声水平,具有重要的现实意义。
[0003]目前现有的研究方法高度依赖于外部知识库重新训练语言模型或者基于现有数据集构建知识图谱来完成该任务。然而,一方面,外部知识库的构建需要大量的人力和时间,而且由于人为主观因素的存在,很难判断现有知识库的噪声水平。另一方面,在利用现有的数据集构建知识图谱时,往往难以处理不同领域之间所存在的知识差异性问题。此外,基于外部知识库从头训练模型所要花费的设备成本和时间也很昂贵。而像TransE、TransH和RotateE此类模型,虽未借助于外部知识库,但其仅仅依赖于知识图谱三元组的结构相似性来评估知识图谱三元组的显著性水平,存在一定的局限性。因此如何充分挖掘现有大型预训练语言模型所蕴含的丰富的通用知识来弥补不同领域之间的差异,是一个亟待解决的问题。

技术实现思路

[0004]本专利技术所要解决的技术问题是:提供一种可以评估知识图谱三元组显著性水平的一种基于自然语言问答的知识图谱三元组显著性评估方法。
[0005]为解决上述技术问题,本专利技术采用的技术方案为:一种基于自然语言问答的知识图谱三元组显著性评估方法,利用提示学习的思想通过特定问句生成将该任务转换为自然语言问答任务,从而充分挖掘蕴含于大型预训练语言模型的隐式知识,包括如下步骤:
[0006]1)根据知识图谱三元组的特有结构提取知识图谱三元组所包含的关系;
[0007]2)根据步骤1)提取到的关系组成不含重复元素的关系集合,根据不同关系设置特定的问句生成模板,从而将原始的知识图谱三元组显著性评估任务转化为自然语言问答任务;
[0008]3)根据步骤2)的问句生成模板,重新构建原有的知识图谱三元组集合,即将原始的知识图谱三元组格式转化为自然语言问句的形式,从而得到一个新的自然语言问句序列集合;
[0009]4)基于步骤3)得到的自然语言问句序列集合,对大规模预训练语言模型进行微调,最终输出其对原知识图谱三元组的显著性的评估结果。
[0010]所述步骤1)的检测和提取知识图谱三元组的关系具体方法为:针对给定的原始知
识图谱三元组数据,根据其特有的三元组结构检测并提取其头实体与尾实体之间的关系。
[0011]所述步骤2)中得到不重复的关系集合以及生成问句序列的具体方法为:在步骤1)的基础上确定知识图谱三元组的关系种类,并根据关系种类设置特定的问句生成模板,模板主要形式有两种分别为“[T]头实体[T]关系[T]尾实体[T]”和“[T]头实体[T]尾实体[T]关系[T]”,其中“[T]”为触发词或提示词,具体数量和形式根据关系的实际类型来决定。
[0012]所述步骤3)自然语言问句序列集合构建的方法为:根据步骤2)得到的特定于关系的问句模板,重新构建原有的知识图谱三元组集合,即将原始的知识图谱三元组结构<头实体,关系,尾实体>通过问句模板转化为自然语言问句的形式,得到一个新的自然语言问句序列集合,从而可以增强知识图谱三元组的语义信息并使输入更贴近于模型预训练时的语料,更有利模型的训练和预测。
[0013]所述步骤4)中通过自然语言问句序列集合微调大型预训练语言模型的具体方法为:将基于步骤3)所得到的问句首尾分别添加特殊标记“[CLS]”和“[SEP]”并输入到模型当中进行训练,最后得到三元组显著性的评估结果。
[0014]本专利技术的有益效果为:本专利技术提出了一个新的框架,借助于提示学习的思想将知识图谱三元组的显著性评估任务转换为自然语言问答任务,并设计了特定的问句生成模板。通过上述方法,可以使得输入更接近于语言模型在预训练时的文本语料,从而能够更好地挖掘蕴含于模型中的常识知识,在不借助于任何外部知识库或图表示学习的情况下有效地提升了知识图谱三元组显著性评估的准确率。具体地讲,本专利技术具有如下优点:
[0015]1、将原始的知识图谱三元组转换为自然文本序列的形式,可以有效地增强三元组的上下文信息;
[0016]2、借助于提示学习的思想进一步将知识图谱三元组显著性评估任务转化为自然语言问答任务,可以有效地挖掘大型预训练语言模型中蕴含的隐式知识;
[0017]3、通过对预训练语言模型在生成的序列上进行微调,进一步地提升模型的表现;
[0018]4、区别于已有的方法需要高度依赖于现有的知识库和图表示学习或者是从头训练模型,本文提出的方法无需借助任何外部知识,可直接对现有模型进行微调,从而极大地减少所需的时间和设备成本。
附图说明
[0019]图1为本专利技术的问句生成流程图。
[0020]图2为本专利技术的模型微调流程图。
[0021]图3为本专利技术的整体系统框架图。
具体实施方式
[0022]下面结合具体实施例,进一步阐明本专利技术,应理解这些实施例仅用于说明本专利技术而不用于限制本专利技术的范围,在阅读了本专利技术之后,本领域技术人员对本专利技术的各种等同变换均落于本申请所附权利要求所限定的范围。
[0023]实施例1:参见图1、图2和图3所示,本专利技术所述的一种基于自然语言问答的知识图谱三元组显著性评估方法,包括如下步骤:
[0024]步骤1:根据给定的知识图谱三元组集合DS,按照其特有的<头实体,关系,尾实体>
(<headentity,relation,tail entity>)结构进行检测并提取每个三元组所含有的关系R。
[0025]步骤2:首先基于步骤1)提取关系集合RS,如公式(1)所示:
[0026]RS=set.add(R)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(1)
[0027]然后基于关系集合RS,依据不同关系的问句生成模板,将原始的知识图谱三元组显著性评估任务转化为上下文信息增强的自然语言问答任务。由于知识图谱三元组的显著性评估输出一般为0:代表不显著,1:代表显著,因此本专利技术相应限制模型的显著性评估结果为0或 1。
[0028]步骤3:根据步骤2)得到的特定于关系的问句模板,重新构建原有的知识图谱三元组集合,即将原始的知识图谱三元组结构<头实体,关系,尾实体>依据其关系类型通过对应的问句生成模板转化为自然语言问句的形式,从而得到一个新的自然语言问句序列集合。
[0029]步骤4:基于本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于自然语言问答的知识图谱三元组显著性评估方法,其特征在于,根据不同的关系类型设置特定的问句生成模板从而将其转化为自然语言问答任务,然后通过微调大规模预训练语言模型评估知识图谱三元组的显著性,包括如下步骤:1)对于给定带有真实标签(即标明知识图谱三元组是否显著)的知识图谱三元组集合,提取该集合中所包含的关系类别;2)根据步骤1)提取到的关系集合,并根据不同关系设置特定的问句生成模板,模板主要形式有两种分别为“[T]头实体[T]关系[T]尾实体[T]”和“[T]头实体[T]尾实体[T]关系[T]”,其中“[T]”为触发词或提示词,具体数量和形式根据关系的实际类型来决定,从而将原始的知识图谱三元组显著性评估任务转化为自然语言问答任务;3)基于步骤2)得到的特定于关系的问句模板,重新构建原有的知识图谱三元组集合,即将原始的知识图谱三元组结构<头实体,关系,尾实体>通过问句生成模板转化为自然语言问句的形式,从而得到一个新的自然语言问句序列集合;4)基于步骤3)生成的自然语言问句...

【专利技术属性】
技术研发人员:曹玖新贾疏桐曹碧薇高庆清刘波
申请(专利权)人:东南大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1