一种知识图谱构建方法、装置、电子设备及存储介质制造方法及图纸

技术编号:32574295 阅读:12 留言:0更新日期:2022-03-09 17:02
本公开关于一种知识图谱构建方法、装置、电子设备及存储介质,能够提高知识图谱构建的效率,降低对下游数据任务产生的影响。具体方案包括:获取增量数据和第一历史数据库;增量数据为在目标时间戳之后更新的数据,第一历史数据库包括目标时间戳之前的历史数据;从第一历史数据库中获取第一数据组,并将第一数据组和增量数据进行融合处理,得到目标融合数据组;第一数据组为第一历史数据库中与增量数据关联的历史数据;将目标融合数据组和第一历史数据库进行融合处理,得到目标融合数据库,并根据目标融合数据库生成目标知识图谱。根据目标融合数据库生成目标知识图谱。根据目标融合数据库生成目标知识图谱。

【技术实现步骤摘要】
一种知识图谱构建方法、装置、电子设备及存储介质


[0001]本公开涉及网络
,尤其涉及一种知识图谱构建方法、装置、电子设备及存储介质。

技术介绍

[0002]知识图谱的构建通常可分为两个阶段:模式层构建与数据层构建。其中,模式层是知识图谱的核心,在模式层存储的是经过提炼后的知识内容;数据层存储的是具体数据信息。在构建知识图谱的过程中,需要对大量的实体(知识)数据进行多步处理,具体的,首先对大量源数据进行数据清洗、模式映射、实体分类等操作,得到清洗后的垂类实体仓库,然后在垂类实体仓库中根据具体的属性进行分桶操作,并使得处于同一个桶内的多个实体之间,两两组成候选实体对,并对每一对候选实体对打分,依据得分结果得到对齐后的融合实体仓库,最后对可融合实体组进行属性择优得到对应的垂类实体图谱。
[0003]但是,从整体的构建流程可以看出,因为需要对大量的实体数据进行多步处理,实体数据量非常大,从而对实体数据进行处理时的耗时较大,效率较低;因此,知识图谱构建的效率较低,从而对下游数据任务产生较大的影响。

技术实现思路

[0004]本公开提供一种知识图谱构建方法、装置、电子设备及存储介质,能够提高知识图谱构建的效率,降低对下游数据任务产生的影响。本公开的技术方案如下:
[0005]根据本公开的第一方面,提供一种知识图谱构建方法,该方法包括:获取增量数据和第一历史数据库;增量数据为在目标时间戳之后更新的数据,第一历史数据库包括目标时间戳之前的历史数据;从第一历史数据库中获取第一数据组,并将第一数据组和增量数据进行融合处理,得到目标融合数据组;第一数据组为第一历史数据库中与增量数据关联的历史数据;将目标融合数据组和第一历史数据库进行融合处理,得到目标融合数据库,并根据目标融合数据库生成目标知识图谱。
[0006]由上可知,电子设备可以通过获取目标时间戳之后更新的增量数据,并获取包括目标时间戳之前对应的第一历史数据,从而可以从第一历史数据库中获取增量数据关联的第一数据组,并将第一数据组和增量数据进行融合处理,得到目标融合数据组;进一步的,电子设备还可以将目标融合数据组和第一历史数据库进行融合处理,得到目标融合数据库,并根据目标融合数据库生成目标知识图谱。在这种情况下,电子设备可以仅对增量数据,以及第一历史数据库中与增量数据关联的第一数据组进行处理即可得到最新的知识图谱,而无需对全部数据进行处理,以得到最新的知识图谱,从而有效的减少了电子设备所处理的数据量,提高了知识图谱构建的效率,进而降低对下游数据任务产生的影响。
[0007]可选地,上述“从第一历史数据库中获取第一数据组,并将第一数据组和增量数据进行融合处理,得到目标融合数据组”之前,方法具体还包括:获取第二历史数据库;其中,第一历史数据库中的数据为对第二历史数据库中的数据进行第一数据处理所得到的数据;
对增量数据进行第二数据处理得到目标更新数据,并将目标更新数据与第二历史数据库进行数据融合处理得到目标数据库,第二数据处理与第一数据处理的处理方式不同。
[0008]由上可知,电子设备还可以获取第二历史数据库,并在对增量数据进行第二数据处理得到目标更新数据之后,将目标更新数据与第二历史数据库进行数据融合处理得到目标数据库,从而在得到目标融合数据组时,还可以基于目标数据库中的数据确定目标融合数据组,进一步的给出了更具体的数据处理过程,给出了一种电子设备得到目标融合数据组的具体实现方式,从而电子设备可以快速高效的进行数据融合处理得到目标融合数据组。
[0009]可选地,上述“从第一历史数据库中获取第一数据组,并将第一数据组和增量数据进行融合处理,得到目标融合数据组”的方法具体包括:从第一历史数据库中获取第一数据组,并从目标数据库中获取第二数据组;第二数据组为目标数据库中与增量数据关联的数据;根据第一数据组和第二数据组中数据的比较结果确定目标融合数据组。上述“将目标融合数据组和第一历史数据库进行融合处理,得到目标融合数据库”的方法具体包括:将目标融合数据组与第一历史数据库中除第一数据组之外的数据进行融合处理,得到目标融合数据库。
[0010]由上可知,在对数据进行融合得到目标融合数据库时,电子设备可以在从第一历史数据库中获取第一数据组的情况下,再从目标数据库中获取与增量数据关联的第二数据组,从而可以根据第一数据组和第二数据组中数据的比较结果确定目标融合数据组,进一步的,将确定的目标融合数据组与第一历史数据库中除第一数据组之外的数据进行融合处理,得到目标融合数据库。给出了一种电子设备得到目标融合数据库的具体实现方式,通过这种实现方式,电子设备可以具体的明确需要进行融合处理的数据,从而更准确的进行数据融合处理,得到目标融合数据,提高了数据融合的效率。
[0011]可选地,上述“从第一历史数据库中获取第一数据组,并从目标数据库中获取第二数据组”的方法具体包括:根据增量数据的属性信息,从第一历史数据库中获取增量数据对应的第一数据组,并根据属性信息从目标数据库中获取第二数据组;属性信息包括以下至少一项:增量数据的名称标识、增量数据的别名标识。
[0012]由上可知,电子设备在从第一历史数据库中获取第一数据组,并从目标数据库中获取第二数据组时,可以根据增量数据的名称标识和别名标识中的至少一项,从第一历史数据库中获取增量数据对应的第一数据组,并根据增量数据的名称标识和别名标识中的至少一项,从目标数据库中获取第二数据组。给出了一种电子设备获取数据组的具体实现方式,通过这种实现方式,电子设备可以根据增量数据的属性信息准确定获取到第一数据组和第二数据组,从而提高了电子设备获取第一数据组和第二数据组的准确度。
[0013]可选地,上述第一历史数据库为历史融合数据库,历史融合数据库用于存储进行第一数据处理之后的历史数据,第一数据组包括第三数据组;上述“根据增量数据的属性信息,从第一历史数据库中获取增量数据对应的第一数据组”的方法具体包括:根据增量数据的属性信息,从历史融合数据库中获取增量数据对应的第三数据组。
[0014]由上可知,在第一历史数据库为用于存储进行第一数据处理之后的历史数据的历史融合数据库的情况下,电子设备可以根据增量数据的属性信息,从历史融合数据库中获取增量数据对应的第三数据组。给出了一种电子设备获取数据组的具体实现方式,由此,电
子设备根据增量数据的属性信息,可以具体的从历史融合数据库中获取到增量数据对应的数据,进而,提高了电子设备获取数据组的准确度。
[0015]可选地,上述第一历史数据库为历史知识图谱,历史知识图谱为根据历史融合数据库生成的知识图谱,历史融合数据库用于存储进行第一数据处理之后的历史数据,第一数据组包括第四数据组;上述“从第一历史数据库中获取第一数据组”的方法具体包括:根据增量数据的属性信息,从历史知识图谱中获取增量数据对应的第四数据组,第四数据组所包含的数据为第三数据组中的数据进行融合之后得到的数据,第三数据组包括历史融合数据库中进行第一数据处理之后得到的历史数据。
[0本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种知识图谱构建方法,其特征在于,所述方法包括:获取增量数据和第一历史数据库;所述增量数据为在目标时间戳之后更新的数据,所述第一历史数据库包括所述目标时间戳之前的历史数据;从所述第一历史数据库中获取第一数据组,并将所述第一数据组和所述增量数据进行融合处理,得到目标融合数据组;所述第一数据组为所述第一历史数据库中与所述增量数据关联的历史数据;将所述目标融合数据组和所述第一历史数据库进行融合处理,得到目标融合数据库,并根据所述目标融合数据库生成目标知识图谱。2.根据权利要求1所述的方法,其特征在于,所述从所述第一历史数据库中获取第一数据组,并将所述第一数据组和所述增量数据进行融合处理,得到目标融合数据组之前,所述方法还包括:获取第二历史数据库;其中,所述第一历史数据库中的数据为对所述第二历史数据库中的数据进行第一数据处理所得到的数据;对所述增量数据进行第二数据处理得到目标更新数据,并将所述目标更新数据与所述第二历史数据库进行数据融合处理得到目标数据库,所述第二数据处理与所述第一数据处理的处理方式不同。3.根据权利要求2所述的方法,其特征在于,所述从所述第一历史数据库中获取第一数据组,并将所述第一数据组和所述增量数据进行融合处理,得到目标融合数据组,包括:从所述第一历史数据库中获取所述第一数据组,并从所述目标数据库中获取第二数据组;所述第二数据组为所述目标数据库中与所述增量数据关联的数据;根据所述第一数据组和所述第二数据组中数据的比较结果确定所述目标融合数据组;所述将所述目标融合数据组和所述第一历史数据库进行融合处理,得到目标融合数据库,包括:将所述目标融合数据组与所述第一历史数据库中除所述第一数据组之外的数据进行融合处理,得到所述目标融合数据库。4.根据权利要求3所述的方法,其特征在于,所述从所述第一历史数据库中获取第一数据组,并从所述目标数据库中获取第二数据组,包括:根据所述增量数据的属性信息,从所述第一历史数据库中获取所述增量数据对应的第一数据组,并根据所述属性信息从所述目标数据库中获取所述第二数据组;所述属性信息包括以下至少一项:所述增量数据的名称标识、所述增量数据的别名标识。5.根据权利要求4所述的方法,其特征在于,所述第一历史数据库为历史融合数据库,所述历史融合数据库用于存储进行第一数据处理...

【专利技术属性】
技术研发人员:徐也陶浒徐海峰张琳庄楠肖阳
申请(专利权)人:北京达佳互联信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1