一种知识图谱构建的方法及相关设备技术

技术编号：40996346 阅读：2 留言：0更新日期：2024-04-18 21:36

本申请公开了一种知识图谱构建的方法及相关设备，涉及知识图谱领域，该方法包括：通过目标问题生成器获取目标输入文本对应的自然语言问题；在目标文本集中获取与上述自然语言问题相关的预设数量的候选文本，以在上述候选文本和上述目标输入文本中获取目标答案；基于优化的元学习方法对上述自然语言问题和上述目标答案进行信息抽取获取三元组信息；根据上述三元组信息对原始知识图谱进行知识融合操作以获取上述原始知识图谱更新后所对应的目标知识图谱。

全部详细技术资料下载

【技术实现步骤摘要】

本说明书涉及知识图谱领域，更具体地说，本申请涉及一种知识图谱构建的方法及相关设备。

技术介绍

1、知识图谱是事实知识组织和表示的一种形式，其包含实体、关系以及语义描述。通过将科学文献等非结构化数据组织整合起来，并以结构化三元组的形式呈现，提供了一种更好地组织、管理和理解海量复杂信息的能力。

2、近年来，已经有一些基于序列、基于图和基于预训练语言模型的关系抽取方法被提出，试图将实体关系抽取的识别范围由单个句子扩大到整个文档。但是，这些方法在捕获文档级的关系方面仍然存在一定的局限性，其召回率和准确率普遍较低。此外，大多数传统的知识抽取模型都假设存在足够多且完全标注的训练数据，以此达到令人满意的性能。然而，在实际应用中，有关具体领域科学文献的标记样本往往是分布不均匀的，手动标注数据需要耗费大量的人力物力，且难以实现其他领域的迁移。

技术实现思路

1、在
技术实现思路
部分中引入了一系列简化形式的概念，这将在具体实施方式部分中进一步详细说明。本申请的
技术实现思路
部分并不意味着要试图限定出所要求保护的技术方案的关键特征和必要技术特征，更不意味着试图确定所要求保护的技术方案的保护范围。

2、第一方面，本申请提出一种知识图谱构建的方法，上述方法包括：

3、通过目标问题生成器获取目标输入文本对应的自然语言问题，其中，上述目标问题生成器是经过预设次数训练得到的，上述目标问题生成器是一种包括基本问题生成器和联合奖励机制的问题生成器，上述联合奖励机制用于基于多个反馈结果更新上述基本问题生成器；

4、在目标文本集中获取与上述自然语言问题相关的预设数量的候选文本，以在上述候选文本和上述目标输入文本中获取目标答案，其中，上述预设数量的候选文本为与上述自然语言问题关联度较高的候选文本；

5、基于优化的元学习方法对上述自然语言问题和上述目标答案进行信息抽取获取三元组信息，其中，上述三元组信息包括主题、关系和对象，上述主体和上述对象为实体元素，上述关系为关系元素；

6、根据上述三元组信息对原始知识图谱进行知识融合操作以获取上述原始知识图谱更新后所对应的目标知识图谱。

7、在一些实施方式中，上述联合奖励机制包括问题相关性奖励机制、知识有效性奖励机制和知识更新性奖励机制，上述问题相关性奖励机制用于判断生成的上述自然语言问题是否与上述目标输入文本有关，上述知识有效性奖励机制用于判断是否可以从上述输入文本和上述候选文本中获取上述目标答案，上述知识更新性奖励机制用于判断上述三元组信息对原始知识图谱信息进行知识融合操作后的结果能否用于更新上述原始知识图谱。

8、在一些实施方式中，上述方法还包括：

9、将上述目标输入文本和上述自然语言问题输入至bert的二元分类器，以获取上述输入文本和上述自然语言问题对应的相关概率；

10、基于上述相关概率确定问题相关性奖励机制对应的问题相关性奖励函数和问题相关性损失函数；

11、根据上述问题相关性奖励函数和问题相关性损失函数更新上述基本问题发生器；和/或，

12、将上述目标输入文本、上述候选文本和上述自然语言问题输入至spanbert鉴别器，以获取答案输出结果；

13、基于上述答案输出结果确定知识有效性奖励机制对应的知识有效性奖励函数和知识有效性损失函数；

14、根据于上述知识有效性奖励函数和知识有效性损失函数更新上述基本问题发生器；和/或，

15、将上述原始知识图谱和上述目标知识图谱输入至知识更新鉴别器以获取图谱更新结果；

16、基于上述图谱更新结果确定知识更新性奖励机制对应的知识更新性奖励函数和知识更新性损失函数；

17、根据上述知识更新性奖励函数和上述知识更新性损失函数更新上述基本问题发生器。

18、在一些实施方式中，上述方法还包括：

19、提升奖励函数的总奖励数值并降低损失函数的总损失数值，以优化上述目标问题生成器，其中，上述奖励函数包括上述问题相关性奖励函数、上述知识有效性奖励失函数和上述知识更新性奖励函数，上述损失函数包括上述问题相关性损失函数、上述知识有效性损失函数和上述知识更新性损失函数。

20、在一些实施方式中，上述在目标文本集中获取与上述自然语言问题相关的预设数量的候选文本，以在上述候选文本和上述目标输入文本中获取目标答案，包括：

21、基于bm25算法子在上述目标文本集中获取与上述自然语言问题相关的预设数量的候选文本；

22、利用spanbert问答模型在上述候选文本和上述目标输入文本中获取上述目标答案。

23、在一些实施方式中，上述基于优化的元学习方法对上述自然语言问题和上述目标答案进行信息抽取获取三元组信息，包括：

24、在一些实施方式中，基于maml算法和通用数据集对少样本命名实体识别模型和少样本关系抽取模型进行预设次数预训练，通过目标训练集进行再训练和调整以获取目标命名实体模型和目标关系抽取模型，其中，上述目标命名实体模型是包括实体跨度检测模块和实体分类模块，上述实体跨度检测模块、上述实体分类模块和上述目标关系抽取模型是基于bert模型构建并采用上述maml算法训练得到的，上述目标训练集为科学文献领域中的少量标记样本；

25、通过上述目标命名实体模型和上述目标关系抽取模型对上述自然语言问题和上述目标答案进行信息抽取获取上述三元组信息。

26、在一些实施方式中，上述根据上述三元组信息对原始知识图谱进行知识融合操作以获取上述原始知识图谱更新后所对应的目标知识图谱，包括：

27、获取上述三元组信息对应的实体元素名称信息和实体元素类型信息；

28、在上述实体元素名称信息和实体元素类型信息任一种不在上述原始知识图谱的情况下，根据上述三元组信息进行知识融合操作以获取上述原始知识图谱更新后所对应的目标知识图谱；或

29、在上述实体元素名称信息和上述实体元素类型信息全部在上述原始知识图谱的情况下，判断上述三元组信息中的关系元素是否在上述原始知识图谱中；

30、在上述关系元素和其对应的关系类型信息不在上述原始知识图谱的情况下，根据上述三元组信息进行知识融合操作以获取上述原始知识图谱更新后所对应的目标知识图谱。

31、第二方面，本申请还提出一种知识图谱构建装置，包括：

32、第一获取单元，用于通过目标问题生成器获取目标输入文本对应的自然语言问题，其中，上述目标问题生成器是经过预设次数训练得到的，上述目标问题生成器是一种包括基本问题生成器和联合奖励机制，上述联合奖励机制用于基于多个反馈结果更新上述基本问题生成器；

33、第二获取单元，用于在目标文本集中获取与上述自然语言问题相关的预设数量的候选文本，以在上述候选文本和上述目标输入文本中获取目标答案，其中，上述预设数量的候选文本为与上述自然语言问题关联度较高的候选文本；

34、本文档来自技高网...

【技术保护点】

1.一种知识图谱构建方法，其特征在于，包括：

2.根据权利要求1所述的知识图谱构建方法，其特征在于，所述联合奖励机制包括问题相关性奖励机制、知识有效性奖励机制和知识更新性奖励机制，所述问题相关性奖励机制用于判断生成的所述自然语言问题是否与所述目标输入文本有关，所述知识有效性奖励机制用于判断是否可以从所述输入文本和所述候选文本中获取所述目标答案，所述知识更新性奖励机制用于判断所述三元组信息对原始知识图谱信息进行知识融合操作后的结果能否用于更新所述原始知识图谱。

3.根据权利要求2所述的知识图谱构建方法，其特征在于，还包括：

4.根据权利要求3所述的知识图谱构建方法，其特征在于，还包括：

5.根据权利要求1所述的知识图谱构建方法，其特征在于，所述在目标文本集中获取与所述自然语言问题相关的预设数量的候选文本，以在所述候选文本和所述目标输入文本中获取目标答案，包括：

6.根据权利要求1所述的知识图谱构建方法，其特征在于，所述基于优化的元学习方法对所述自然语言问题和所述目标答案进行信息抽取获取三元组信息，包括：

7.根

8.一种知识图谱构建装置，其特征在于，包括：

9.一种电子设备，包括：存储器和处理器，其特征在于，所述处理器用于执行存储器中存储的计算机程序时实现如权利要求1-7中任一项所述的知识图谱构建的方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于：所述计算机程序被处理器执行时实现如权利要求1-7中任一项所述的知识图谱构建的方法。

...

【技术特征摘要】

1.一种知识图谱构建方法，其特征在于，包括：

3.根据权利要求2所述的知识图谱构建方法，其特征在于，还包括：

4.根据权利要求3所述的知识图谱构建方法，其特征在于，还包括：

5.根据权利要求1所述的知识图谱构建方法，其特征在于，所述在目标文本集中获取与所述自然语言问题相关的预设数量的候选文本，以在所述候...

【专利技术属性】
技术研发人员：冯在文，罗娇，张红雨，王颖，张建伟，李小霞，池汝安，李万理，张熠涛，白恩泽，陈琳，
申请(专利权)人：华中农业大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人