领域可扩展的知识图谱构建方法、装置、设备及介质制造方法及图纸

技术编号:38749353 阅读:11 留言:0更新日期:2023-09-09 11:16
本申请公开了一种领域可扩展的知识图谱构建方法、装置、设备及介质,所述方法包括:构建领域知识图谱的本体结构,并采集领域数据;将知识抽取中需要使用的多个预设算法部署到算法仓库中,并以微服务的方式生成每个算法的调用API;通过调用目标算法的API,对采集的领域数据进行实体和关系抽取,形成三元组,将形成的三元组导入领域知识图谱,得到构建完成的领域知识图谱。本申请提供的领域知识图谱的构建方法,具有较好的领域可扩展性,可以实现不同领域算法和模型的快速集成,降低在不同领域应用时接入算法模型的人力和时间成本、提高图谱构建效率。且使用自训练知识增强进行领域知识融合,不引入外部知识库,降低了领域数据依赖。赖。赖。

【技术实现步骤摘要】
领域可扩展的知识图谱构建方法、装置、设备及介质


[0001]本专利技术涉及知识图谱
,特别涉及一种领域可扩展的知识图谱构建方法、装置、设备及介质。

技术介绍

[0002]知识图谱提供了一种从海量多源非结构化数据中抽取知识,并利用图分析进行知识挖掘的重要技术手段。随着产业互联网时代到来,知识图谱构建需求也从面向互联网搜索、推荐、问答等大规模简单业务场景发展到为面向特定领域的小规模复杂应用场景。但仅依靠专家手动构建领域知识图谱不仅成本高昂,而且时效性不高。因此,能减少人力、提高效率的领域知识图谱自动构建方法和系统是当前研究的热点。
[0003]然而,现有的技术方案普遍存在领域可扩展性不高和领域知识抽取能力受限的问题。由于领域特征差异,不同领域的图谱构建需要采用不同的知识抽取算法和模型,在一定程度上影响了领域知识图谱自动构建方法和系统的可扩展性。现有的领域知识图谱自动构建方案中,只面向其所在领域,难以快速扩展到其他领域。且由于领域具有的专业性,领域内的知识抽取面临着低频长尾和逻辑复杂等特点;而且相较于通用领域,领域数据的获取和标注难度更大;这导致了基于数据驱动的方法抽取能力受限。

技术实现思路

[0004]本申请实施例提供了一种领域可扩展的知识图谱构建方法、装置、设备及介质。为了对披露的实施例的一些方面有一个基本的理解,下面给出了简单的概括。该概括部分不是泛泛评述,也不是要确定关键/重要组成元素或描绘这些实施例的保护范围。其唯一目的是用简单的形式呈现一些概念,以此作为后面的详细说明的序言。r/>[0005]第一方面,本申请实施例提供了一种领域可扩展的知识图谱构建方法,包括:构建领域知识图谱的本体结构,并采集领域数据;将知识抽取中需要使用的多个预设算法部署到算法仓库中,并以微服务的方式生成每个算法的调用API;通过调用目标算法的API,对采集的领域数据进行实体和关系抽取,形成三元组,将形成的三元组导入领域知识图谱的本体结构,得到构建完成的领域知识图谱。
[0006]在一个可选地实施例中,构建领域知识图谱的本体结构,包括:通过定义领域知识图谱中的实体类型、实体属性字段、实体间的关系类型,得到构建的领域知识图谱的本体结构。
[0007]在一个可选地实施例中,将知识抽取中需要使用的多个预设算法部署到算法仓库中,并以微服务的方式生成每个算法的调用API,包括:上传知识抽取中需要使用的多个预设算法的源代码、算法模型以及算法依赖文件;根据多个预设算法的源代码、算法模型以及算法依赖文件,以微服务的形式部署
到算法仓库,并生成每个算法的调用API。
[0008]在一个可选地实施例中,通过调用目标算法的API,对采集的领域数据进行实体和关系抽取,形成三元组,包括:通过调用命名实体识别算法,为领域数据文本中每一个实体生成向量表示,实现实体嵌入,通过调用关系抽取算法,为实体对生成向量表示,实现关系嵌入;通过调用知识表示学习算法生成领域知识图谱中的实体和关系的知识向量,将嵌入的实体向量、实体对向量与知识向量进行联合学习,得到实体融合向量以及实体对融合向量;通过调用命名实体识别算法的分类器对实体融合向量进行标签分类,确定实体边界,通过调用关系抽取算法的分类器对实体对融合向量进行关系分类,抽取出实体关系后,形成三元组。
[0009]在一个可选地实施例中,通过调用知识表示学习算法生成领域知识图谱中的实体和关系的知识向量,包括:随机初始化领域知识图谱中的实体和关系的知识向量;对于一个三元组,随机选择图谱中其他实体和关系分别替换三元组中的头实体、关系和尾实体,构建3个负样本;基于翻译模型的得分函数,构造损失函数;利用损失函数计算正样本三元组和其对应的负样本三元组的损失,采用梯度下降法更新实体和关系的知识向量,直到迭代次数达到预先设定的最大迭代次数。
[0010]在一个可选地实施例中,调用目标算法的API,包括:按照目标算法规定的输入格式,通过HTTP POST方式实现数据的接收和发送;当需要替换目标算法时,通过更改使用的API,即可进行算法的替换。
[0011]在一个可选地实施例中,采集领域数据,包括:通过数据爬取技术采集跨领域数据或目标领域数据;对采集的数据进行清洗操作,并提取其中的文本数据。
[0012]第二方面,本申请实施例提供了一种领域可扩展的知识图谱构建装置,包括:采集模块,用于构建领域知识图谱的本体结构,并采集领域数据;算法部署模块,用于将知识抽取中需要使用的多个预设算法部署到算法仓库中,并以微服务的方式生成每个算法的调用API;构建模块,用于通过调用目标算法的API,对采集的领域数据进行实体和关系抽取,形成三元组,将形成的三元组导入领域知识图谱的本体结构,得到构建完成的领域知识图谱。
[0013]第三方面,本申请实施例提供了一种电子设备,包括处理器和存储有程序指令的存储器,处理器被配置为在执行程序指令时,执行上述实施例提供的领域可扩展的知识图谱构建方法。
[0014]第四方面,本申请实施例提供了一种计算机可读介质,其上存储有计算机可读指令,计算机可读指令被处理器执行以实现上述实施例提供的一种领域可扩展的知识图谱构建方法。
[0015]本申请实施例提供的技术方案可以包括以下有益效果:
本申请实施例提供的领域知识图谱的构建方法,具有较好的领域可扩展性,通过以微服务的形式生成各个算法的调用API,可以实现不同领域算法和模型的快速集成,降低在不同领域应用时接入算法模型的人力和时间成本、提高图谱构建效率。
[0016]进一步地,本申请的方法在图谱构建流程中融合了领域知识,使知识抽取算法模型更好地结合领域特性,提升领域知识抽取性能。使用自训练知识增强进行领域知识融合,不引入外部知识库,降低了领域数据依赖。
[0017]应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本专利技术。
附图说明
[0018]此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本专利技术的实施例,并与说明书一起用于解释本专利技术的原理。
[0019]图1是根据一示例性实施例提供的一种领域可扩展的知识图谱构建方法的示意图;图2是根据一示例性实施例示出的一种领域可扩展的知识图谱构建方法示意图;图3是根据一示例性实施例示出的一种领域可扩展的知识图谱构建系统的示意图;图4是根据一示例性实施例示出的一种领域可扩展的知识图谱构建装置结构示意图;图5是根据一示例性实施例示出的一种电子设备的结构示意图;图6是根据一示例性实施例示出的一种计算机存储介质的示意图。
具体实施方式
[0020]以下描述和附图充分地示出本专利技术的具体实施方案,以使本领域的技术人员能够实践它们。
[0021]应当明确,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本专利技术保护的范围。
[0022]下面的描述涉及附图时,除非另有表示,不同本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种领域可扩展的知识图谱构建方法,其特征在于,包括:构建领域知识图谱的本体结构,并采集领域数据;将知识抽取中需要使用的多个预设算法部署到算法仓库中,并以微服务的方式生成每个算法的调用API;通过调用目标算法的API,对采集的领域数据进行实体和关系抽取,形成三元组,将形成的三元组导入领域知识图谱的本体结构,得到构建完成的领域知识图谱。2.根据权利要求1所述的方法,其特征在于,构建领域知识图谱的本体结构,包括:通过定义领域知识图谱中的实体类型、实体属性字段、实体间的关系类型,得到构建的领域知识图谱的本体结构。3.根据权利要求1所述的方法,其特征在于,将知识抽取中需要使用的多个预设算法部署到算法仓库中,并以微服务的方式生成每个算法的调用API,包括:上传知识抽取中需要使用的多个预设算法的源代码、算法模型以及算法依赖文件;根据所述多个预设算法的源代码、算法模型以及算法依赖文件,以微服务的形式部署到算法仓库,并生成每个算法的调用API。4.根据权利要求1所述的方法,其特征在于,通过调用目标算法的API,对采集的领域数据进行实体和关系抽取,形成三元组,包括:通过调用命名实体识别算法,为领域数据文本中每一个实体生成向量表示,实现实体嵌入,通过调用关系抽取算法,为实体对生成向量表示,实现关系嵌入;通过调用知识表示学习算法生成领域知识图谱中的实体和关系的知识向量,将嵌入的实体向量、实体对向量与知识向量进行联合学习,得到实体融合向量以及实体对融合向量;通过调用命名实体识别算法的分类器对所述实体融合向量进行标签分类,确定实体边界,通过调用关系抽取算法的分类器对所述实体对融合向量进行关系分类,抽取出实体关系后,形成三元组。5.根据权利要求4所述的方法,其特征在于,通过调用知识表示学...

【专利技术属性】
技术研发人员:邱耶龚小龙王福伟何家宁麻志毅
申请(专利权)人:浙江省北大信息技术高等研究院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1