一种知识图谱扩充方法、装置、设备及存储介质制造方法及图纸

技术编号:36896823 阅读:55 留言:0更新日期:2023-03-18 09:17
本文提供了一种知识图谱扩充方法、装置、设备及存储介质,所述方法包括:获取与待扩充知识图谱相关的语料数据,所述语料数据包括文本数据和图数据;提取所述语料数据中的实体,以及所述实体之间的关联属性;将所述语料数据中的实体集合与所述知识图谱中的实体集合进行匹配,确定第一实体集合;根据所述第一实体集合和所述关联属性,依次从所述语料数据中的实体集合中提取与所述第一实体集合中的实体相关联的待扩充实体,并将所述待扩充实体扩充到所述知识图谱中。本文能快速准确的进行待扩充知识图谱的扩充,从而丰富了知识图谱,提高了所述知识图谱的实用性和时效性。了所述知识图谱的实用性和时效性。了所述知识图谱的实用性和时效性。

【技术实现步骤摘要】
一种知识图谱扩充方法、装置、设备及存储介质


[0001]本文属于计算机
,具体涉及一种知识图谱扩充方法、装置、设备及存储介质。

技术介绍

[0002]知识图谱(knowledge graph,KG)是一种基于图的数据结构,由节点和边组成。在知识图谱里,每个节点表示一个实体,每条边表示实体与实体之间的关系。它的主要目的是在面对互联网高速发展,网络数据爆炸增长的时代,增强搜索效率,完善用户体验。知识图谱凭借其卓越的语义处理技术和互联性,为信息智能应用建立了基础,
[0003]知识图谱广泛运用于搜索、问答、情报分析等方面,促进信息技术从信息服务向知识服务发展。近几年,各行各业都在研究将知识图谱应用于专业领域,从而更好的服务特定领域。
[0004]知识图谱对某领域存在的实体的覆盖往往是不全面的,或者随着时间的发展,知识图谱中收录的实体也会匹配不上社会的发展,因此实时性较差,导致知识图谱的实用性随着时间的发展在降低,因此,需要不断地扩充知识图谱。

技术实现思路

[0005]针对现有技术的上述问题,本文的目的在于,提供一种知识图谱扩充方法、装置、设备及存储介质,能够实现知识图谱的扩充。
[0006]为了解决上述技术问题,本文的具体技术方案如下:
[0007]一方面,本文提供一种知识图谱扩充方法,所述方法包括:
[0008]获取与待扩充知识图谱相关的语料数据,所述语料数据包括文本数据和图数据;
[0009]提取所述语料数据中的实体,以及所述实体之间的关联属性;<br/>[0010]将所述语料数据中的实体集合与所述知识图谱中的实体集合进行匹配,确定第一实体集合;
[0011]根据所述第一实体集合和所述关联属性,依次从所述语料数据中的实体集合中提取与所述第一实体集合中的实体相关联的待扩充实体,并将所述待扩充实体扩充到所述知识图谱中。
[0012]进一步地,所述获取与所述待扩充知识图谱相关的语料数据,包括:
[0013]确定所述知识图谱的所属知识领域;
[0014]在所述知识领域中获取所述语料数据。
[0015]进一步地,所述提取所述语料数据中的实体,以及所述实体之间的关联属性,包括:
[0016]将所述语料数据中的文本数据进行分词处理,得到词语集合;
[0017]根据预设实体命名模型对所述词语集合中词语进行实体识别,并对实体识别后的词语进行实体标注处理,从而获得所述语料数据中的实体;
[0018]对标注后的词语进行句法分析和依存句法分析,得到所述实体之间的关联属性。
[0019]进一步地,所述对标注后的词语进行句法分析和依存句法分析,得到所述实体之间的关联属性,包括:
[0020]对标注后的词语进行句法分析,获得所述文本数据中词语之间的依存关系;
[0021]根据所述依存关系,对所述标注后的词语进行依存句法分析,获得所述文本数据中的关系三元组,所述关系三元组包括两个实体和表示所述两个实体关系的关系词;
[0022]判断所述关系词是否在预设关系词库中;
[0023]若是,则根据所述关系词确定所述两个实体之间的关联属性。
[0024]进一步地,所述提取所述语料数据中的实体,以及所述实体之间的关联属性,还包括:
[0025]提取所述语料数据中图数据中的实体信息,所述实体信息包括实体本体、实体连接关系和实体对应的数值;
[0026]根据预设实体命名模型对所述实体本体进行实体识别,并对实体识别后的实体本体进行标注处理;
[0027]根据所述实体连接关系,确定所述图数据中实体之间的关联属性;
[0028]根据标注后的实体和所述实体的关联属性,得到所述语料数据中的实体,以及所述实体之间的关联属性。
[0029]作为可选地,所述关联属性包括实体上下游关系和/或分类关系。
[0030]进一步地,所述将所述语料数据中的实体集合与所述知识图谱中的实体集合进行匹配,确定第一实体集合,包括:
[0031]确定所述语料数据中的实体集合和所述知识图谱中的实体集合的交集,并将所述交集确定为所述第一实体集合。
[0032]进一步地,所述将所述语料数据中的实体集合与所述知识图谱中的实体集合进行匹配,确定第一实体集合之后还包括:
[0033]确定所述知识图谱对应的指标库;
[0034]提取所述第一实体集合中的在所述图数据存在数值的实体,并将所述实体标记为候选实体;
[0035]将所述候选实体在所述图数据中的数值标记为第一数值,以及将所述候选实体在指标库中的数值标记为第二数值;
[0036]比对所述候选实体的所述第一数值和所述第二数值;
[0037]若比对一致,则将所述候选实体保留在所述第一实体集合中;
[0038]若比对不一致,则将所述候选实体移除所述第一实体集合。
[0039]进一步地,所述将所述语料数据中的实体集合与所述知识图谱中的实体集合进行匹配,确定第一实体集合之后还包括:
[0040]确定所述语料数据的实体集合中去除第一实体集合的第二实体集合;
[0041]根据预设语义库,依次将所述第二实体集合中的实体与所述知识图谱中的实体集合中的实体进行匹配,其中所述预设语义库为以下中一个或多个:近义词库和同义词库;
[0042]将匹配上的所述第二实体集合中的实体加入所述第一实体集合中,以更新所述第一实体集合。
[0043]进一步地,所述根据所述第一实体集合和所述关联属性,依次从所述语料数据中的实体集合中提取与所述第一实体集合中的实体相关联的待扩充实体,并将所述待扩充实体扩充到所述知识图谱中,包括:
[0044]根据所述第一实体集合和所述关联属性,从所述语料数据中的实体集合中提取与所述第一实体集合中的实体相关联的待扩充实体;
[0045]根据所述语料数据,统计在所述语料数据中生成所述第一实体和所述待扩充实体之间关联属性的次数;
[0046]判断所述次数是否超过次数阈值;
[0047]若是,则将所述待扩充实体扩充到所述知识图谱中。
[0048]进一步地,所述若是,则将所述待扩充实体扩充到所述知识图谱中,包括:
[0049]获取所述知识图谱的构建规则;
[0050]根据所述构建规则,以及所述第一实体和所述待扩充实体的关联属性,确定所述待扩充实体在所述知识图谱中的位置关系;
[0051]根据所述位置关系,将所述第一实体和所述待扩充实体连接。
[0052]另一方面,本文还提供一种知识图谱扩充装置,所述装置包括:
[0053]语料数据获取模块,用于获取与待扩充知识图谱相关的语料数据,所述语料数据包括文本数据和图数据,所述语料数据包括文本数据和图数据;
[0054]提取模块,用于提取所述语料数据中的实体,以及所述实体之间的关联属性;
[0055]匹配模块,用于将所述语料数据中的实体集合与所述知识图本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种知识图谱扩充方法,其特征在于,所述方法包括:获取与待扩充知识图谱相关的语料数据,所述语料数据包括文本数据和图数据;提取所述语料数据中的实体,以及所述实体之间的关联属性;将所述语料数据中的实体集合与所述知识图谱中的实体集合进行匹配,确定第一实体集合;根据所述第一实体集合和所述关联属性,依次从所述语料数据中的实体集合中提取与所述第一实体集合中的实体相关联的待扩充实体,并将所述待扩充实体扩充到所述知识图谱中。2.根据权利要求1所述的方法,其特征在于,所述获取与所述待扩充知识图谱相关的语料数据,包括:确定所述知识图谱的所属知识领域;在所述知识领域中获取所述语料数据。3.根据权利要求1所述的方法,其特征在于,所述提取所述语料数据中的实体,以及所述实体之间的关联属性,包括:将所述语料数据中的文本数据进行分词处理,得到词语集合;根据预设实体命名模型对所述词语集合中词语进行实体识别,并对实体识别后的词语进行实体标注处理,从而获得所述语料数据中的实体;对标注后的词语进行句法分析和依存句法分析,得到所述实体之间的关联属性。4.根据权利要求3所述的方法,其特征在于,所述对标注后的词语进行句法分析和依存句法分析,得到所述实体之间的关联属性,包括:对标注后的词语进行句法分析,获得所述文本数据中词语之间的依存关系;根据所述依存关系,对所述标注后的词语进行依存句法分析,获得所述文本数据中的关系三元组,所述关系三元组包括两个实体和表示所述两个实体关系的关系词;判断所述关系词是否在预设关系词库中;若是,则根据所述关系词确定所述两个实体之间的关联属性。5.根据权利要求3所述的方法,其特征在于,所述提取所述语料数据中的实体,以及所述实体之间的关联属性,还包括:提取所述语料数据中图数据中的实体信息,所述实体信息包括实体本体、实体连接关系和实体对应的数值;根据预设实体命名模型对所述实体本体进行实体识别,并对实体识别后的实体本体进行标注处理;根据所述实体连接关系,确定所述图数据中实体之间的关联属性;根据标注后的实体和所述实体的关联属性,得到所述语料数据中的实体,以及所述实体之间的关联属性。6.根据权利要求1所述的方法,其特征在于,所述关联属性包括实体上下游关系和/或分类关系。7.根据权利要求1所述的方法,其特征在于,所述将所述语料数据中的实体集合与所述知识图谱中的实体集合进行匹配,确定第一实体集合,包括:确定所述语料数据中的实体集合和所述知识图谱中的实体集合的交集,并将所述交集
确定为所述第一实体集合。8.根据权利要求5所述的方法,其特征在于,所述将所述语料数据中的实体集合与所述知识图谱中的实体集合进行匹配,确定第一实体集合之后还包括:确定所述知识图谱对应的指标库;提取所述第一实体集合中的在所述图数据存在数值的实体,并将所述...

【专利技术属性】
技术研发人员:请求不公布姓名
申请(专利权)人:通联数据股份公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1