一种基于自然语言问答的知识图谱三元组显著性评估方法技术

技术编号：36128447 阅读：22 留言：0更新日期：2022-12-28 14:36

本发明专利技术公开了一种基于自然语言问答的知识图谱三元组显著性评估方法，其步骤为：首先对于给定的知识图谱三元组，提取其所包含的关系；然后根据预先设置的不同关系类型所对应的问句生成模板将该三元组转化为自然语言问句的形式；基于所生成的问句序列，可将原始的知识图谱三元组显著性评估任务转化为自然语言问答任务，然后通过本发明专利技术所提出的方法进一步微调已有的大型预训练语言模型，最终输出对知识图谱三元组显著性评估结果。该方法在不借助于任何外部知识库和图表示学习的情况下显著提高了知识图谱三元组显著性评估的准确率。提高了知识图谱三元组显著性评估的准确率。提高了知识图谱三元组显著性评估的准确率。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于自然语言问答的知识图谱三元组显著性评估方法

[0001]本专利技术涉及到自然语言处理领域中知识图谱三元组显著性的评估方法。

技术介绍

[0002]如今大规模知识库(知识图谱)的构建为许多人工智能任务的研究提供了重要支持。但随着互联网信息技术的迅猛发展，从海量的原始数据提取到的知识图谱三元组往往存在不完整性问题。知识图谱的完整性问题主要包括包含两个方面：知识图谱三元组的显著性评估和链路预测。其中知识图谱三元组的显著性评估主要目的是判断提取到三元组是否符合常理，可以有效地减少人工筛选成本，极大地降低现有大规模知识库的噪声水平，具有重要的现实意义。
[0003]目前现有的研究方法高度依赖于外部知识库重新训练语言模型或者基于现有数据集构建知识图谱来完成该任务。然而，一方面，外部知识库的构建需要大量的人力和时间，而且由于人为主观因素的存在，很难判断现有知识库的噪声水平。另一方面，在利用现有的数据集构建知识图谱时，往往难以处理不同领域之间所存在的知识差异性问题。此外，基于外部知识库从头训练模型所要花费的设备成本和时间也很昂贵。而像TransE、TransH和RotateE此类模型，虽未借助于外部知识库，但其仅仅依赖于知识图谱三元组的结构相似性来评估知识图谱三元组的显著性水平，存在一定的局限性。因此如何充分挖掘现有大型预训练语言模型所蕴含的丰富的通用知识来弥补不同领域之间的差异，是一个亟待解决的问题。

技术实现思路

[0004]本专利技术所要解决的技术问题是：提供一种可以评估知识图谱三元组显著性水平...

【技术保护点】

【技术特征摘要】
1.一种基于自然语言问答的知识图谱三元组显著性评估方法，其特征在于，根据不同的关系类型设置特定的问句生成模板从而将其转化为自然语言问答任务，然后通过微调大规模预训练语言模型评估知识图谱三元组的显著性，包括如下步骤：1)对于给定带有真实标签(即标明知识图谱三元组是否显著)的知识图谱三元组集合，提取该集合中所包含的关系类别；2)根据步骤1)提取到的关系集合，并根据不同关系设置特定的问句生成模板，模板主要形式有两种分别为“[T]头实体[T]关系[T]尾实体[T]”和“[T]头实体[T]尾实体[T]关系[T]”，其中“[T]”为触发词或提示词，具体数量和形式根据关系的实际类型来决定，从而将原始的知识图谱三元组显著性评估任务转化为自然语言问答任务；3)基于步骤2)得到的特定于关系的问句模板，重新构建原有的知识图谱三元组集合，即将原始的知识图谱三元组结构<头实体，关系，尾实体>通过问句生成模板转化为自然语言问句的形式，从而得到一个新的自然语言问句序列集合；4)基于步骤3)生成的自然语言问句...

【专利技术属性】
技术研发人员：曹玖新，贾疏桐，曹碧薇，高庆清，刘波，
申请(专利权)人：东南大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人