知识图谱构建方法、装置、设备和存储介质制造方法及图纸

技术编号:35539801 阅读:19 留言:0更新日期:2022-11-09 15:07
本发明专利技术提供一种知识图谱构建方法、装置、设备和存储介质,应用于信息处理技术领域,该方法包括:获取特定领域的多个目标语料;将多个目标语料输入实体关系抽取模型中,得到多个目标语料中的多个目标实体以及多个目标实体中头实体和尾实体之间的目标关系,其中,实体关系抽取模型为根据本体库对初始语料库中的第一语料进行实体标注后,基于标注后的第一语料对初始模型中的初始实体关系抽取模型进行训练得到的,本体库中包括通用领域的概念层本体和特定领域的领域层本体,领域层本体为基于概念层本体进行扩展得到的;根据多个目标实体以及目标关系,构建面向特定领域的知识图谱。本发明专利技术中,使得构建出的面向特定领域的知识图谱准确性更高。谱准确性更高。谱准确性更高。

【技术实现步骤摘要】
知识图谱构建方法、装置、设备和存储介质


[0001]本专利技术涉及信息处理
,尤其涉及一种知识图谱构建方法、装置、设备和存储介质。

技术介绍

[0002]随着互联网技术的不断更新发展,越来越多的人开始从互联网上获取信息和知识。基于人们对知识的渴望,大量的搜索引擎、自动问答系统被设计开发,并被用来为人们提供信息上的需求。但近年来,随着数据规模的急剧增加,传统搜索引擎很难找寻精准的问题答案以及答案背后的知识体系。因此,以谷歌知识图谱为代表的一系列知识图谱应运而生,其主要目的是为用户提供结构化的知识,而不是单独的信息点。知识图谱可以极大的提高知识查询的精度,延伸知识获取的边界和范围,因此受到工业界和学术界的广泛关注。
[0003]目前,知识图谱在构建的过程中,通过将获取的语料输入实体关系抽取模型来获取语料中实体、以及实体之间的关系,并根据实体、以及实体之间的映射关系构建知识图谱。然而,目前所采用的实体关系抽取模型,是基于某些大众领域(譬如医疗领域)的数据训练得到的,但是对于大量的特定领域,由于数据量往往较小,无法满足大规模深度学习模型的本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种知识图谱构建方法,其特征在于,包括:获取特定领域的多个目标语料,所述多个目标语料的格式统一;将所述多个目标语料输入实体关系抽取模型中,得到所述多个目标语料中的多个目标实体以及所述多个目标实体中头实体和尾实体之间的目标关系,其中,所述实体关系抽取模型为根据本体库对初始语料库中的第一语料进行实体标注后,基于标注后的第一语料对初始模型中的初始实体关系抽取模型进行训练得到的,所述本体库中包括通用领域的概念层本体和特定领域的领域层本体,所述领域层本体为基于所述概念层本体进行扩展得到的;根据所述多个目标实体以及所述目标关系,构建面向特定领域的知识图谱。2.根据权利要求1所述的知识图谱构建方法,其特征在于,所述实体关系抽取模型根据如下方法训练得到:获取初始语料库,所述初始语料库中包括多个已进行实体标注的第一语料和多个未进行实体标注的第二语料,所述第一语料为基于本体库进行标注的;将所述第二语料输入至初始模型中的领域层实体标注模型中,得到多个进行实体标注的第三语料;将目标语料输入所述初始模型中的初始实体关系抽取模型中,基于对比学习,调整所述初始实体关系抽取模型的模型参数,得到所述实体关系抽取模型,所述目标语料包括所述第一语料和所述第三语料。3.根据权利要求2所述的知识图谱构建方法,其特征在于,所述获取初始语料库,包括:确定待采集的语料对应的多个数据来源;分别确定所述多个数据来源各自对应的数据适配器;通过所述数据适配器,从对应的数据来源中采集语料,得到所述初始语料库,所述初始语料库中包括多个格式统一的语料。4.根据权利要求2或3所述的知识图谱构建方法,其特征在于,所述将所述第二语料输入至初始模型中的领域层实体标注模型中,得到多个第三语料之前,所述方法还包括:获取所述通用领域的多个样本语料;采用所述多个样本语料,对初始概念层实体标注模型进行训练,得到概念层实体标注模型;将所述概念层实体标注模型的模型参数迁移至所述初始模型中的初始领域层实体标注模型中,并基于所述第一语料对迁移了模型参数的初始领域层实体标注模型进行训练,得到所述初始模型中的领域层实体标注模型。5.根据权利要求2或3所述的知识图谱构建方法,其特征在于,所述将目标语料输入所述初始模型中的初始实体关系抽取模型中,基于对比学习损失函数,调整所述初始实体关系抽取模型的模型参数,得到所述实体关系抽取模型,包括:将所述目标语料输入所述初始实体关系抽取模型中,通过所述初始实体关系抽取模型中的编码器对所述目标语料进行编码,得到多个分布式向量;通过所述初始实体关系抽取模型中的实体解码器,分别将所述多个分布式向量转换为实体标签,所述实体标签用于表示所述目标语料中的实体;通过所述初始实体关系抽取模型中的关系解码器,确定...

【专利技术属性】
技术研发人员:王乐
申请(专利权)人:北京如炬科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1