一种知识图谱更新方法、装置、设备及存储介质制造方法及图纸

技术编号:35779276 阅读:16 留言:0更新日期:2022-12-01 14:24
本申请涉及计算机技术领域,尤其涉及一种知识图谱更新方法、装置、设备及存储介质。该方法包括:获取初始知识图谱,并获取对象更新信息;对对象更新信息进行实体抽取,得到实体集合;根据预定义规则对实体集合中的实体进行筛选,得到目标实体;根据目标实体更新初始知识图谱。该知识图谱更新方法,通过对抽取到的实体进行筛选,从而筛选出有效的目标实体,然后将目标实体更新到知识图谱中,从而可以降低知识图谱更新资源消耗,提高知识图谱的更新效率。此外,通过对更新到知识图谱中的实体进行筛选,可以减少无用更新到知识图谱中的无用信息,避免知识图谱过于泛化,保证知识图谱的质量。量。量。

【技术实现步骤摘要】
一种知识图谱更新方法、装置、设备及存储介质


[0001]本申请涉及计算机
,尤其涉及一种知识图谱更新方法、装置、设备及存储介质。

技术介绍

[0002]知识图谱(KnowledgeGraph)是以图模式描述真实世界中的各种实体及其关系的一种语义网络。通过知识图谱,不仅可以将互联网的信息表达成更接近人类认知世界的形式,而且提供了一种更好的组织、管理和利用海量信息的方式。在搜索引擎中通过使用知识图谱,能够更好地查询复杂的关联信息,从语义层面理解用户意图,改进搜索质量。不过,知识图谱并不是固定不变的,知识图谱描述的信息不断地更新时,知识图谱也要随之更新。对于某些领域来说,知识图谱只有不断的更新才能够满足其应用需求。比如,在电子商务领域,只有不断地更新商品知识图谱,才能够有助于用户搜索到相应的商品。
[0003]对于电子商务领域来说,由于商品种类多、更新速度快,并且更新数据较为零散,重复无用的更新数据量大。如果不对更新的数据加以筛选就将其更新到商品知识图谱中,一方面会导致更新信息量大,影响知识图谱的更新效率,另一方面大量的重复无用信息更新到知识图谱中,会导致商品知识图谱泛化,影响知识图谱质量。

技术实现思路

[0004]本申请提供一种知识图谱更新方法、装置、设备及存储介质,通过对抽取到的实体进行筛选,从而筛选出有效的目标实体,然后将目标实体更新到知识图谱中,可以减少知识图谱中的无用信息,保证知识图谱的质量。
[0005]第一方面,本申请实施例公开了一种知识图谱更新方法,方法包括:
>[0006]获取初始知识图谱,并获取对象更新信息;
[0007]对对象更新信息进行实体抽取,得到实体集合;
[0008]根据预定义规则对实体集合中的实体进行筛选,得到目标实体;
[0009]根据目标实体更新初始知识图谱。
[0010]进一步的,对对象更新信息进行实体抽取,得到实体集合,包括:
[0011]获取标注有实体标注结果的初始训练数据;
[0012]将初始训练数据输入机器模型,得到机器模型输出的结果;
[0013]根据实体标注结果和机器模型输出的结果,对机器模型进行训练,得到初始实体抽取模型;
[0014]将对象更新信息输入到初始实体抽取模型中进行实体抽取,得到实体抽取结果;
[0015]根据实体抽取结果确定实体集合。
[0016]进一步的,对象更新信息包括多个对象更新数据;将对象更新信息输入到初始实体抽取模型中进行实体抽取,得到实体抽取结果,包括:
[0017]将对象更新信息输入到初始实体抽取模型中进行实体抽取,得到每个对象更新数
据对应的实体抽取结果,以及每个实体抽取结果的第一置信度信息;
[0018]根据第一置信度信息确定预设数量的目标实体抽取结果,以及与目标实体抽取结果对应的目标对象更新数据;
[0019]基于初始训练数据和目标对象更新数据生成迭代训练数据;
[0020]将迭代训练数据输入初始实体抽取模型,得到初始实体抽取模型输出的结果;
[0021]根据实体标注结果、目标实体抽取结果和初始实体抽取模型输出的结果,对初始实体抽取模型进行训练,得到迭代实体抽取模型;
[0022]将至少一个非目标对象更新数据输入到迭代实体抽取模型中,得到每个非目标对象更新数据对应的非目标实体抽取结果;非目标对象更新数据为对象更新信息中除目标对象更新数据以外的目标对象数据;
[0023]根据目标实体抽取结果和非目标实体抽取结果,确定实体抽取结果。
[0024]进一步的,将至少一个非目标对象更新数据输入到迭代实体抽取模型中,得到每个非目标对象更新数据对应的非目标实体抽取结果,包括:
[0025]将至少一个非目标对象更新数据输入到迭代实体抽取模型中,得到每个非目标对象更新数据对应的非目标实体抽取结果,以及每个非目标实体抽取结果的第二置信度信息;
[0026]根据第二置信度信息确定预设数量的目标实体抽取结果,以及目标实体抽取结果对应的目标对象更新数据;
[0027]重复基于初始训练数据和目标对象更新数据生成迭代训练数据,至将至少一个非目标对象更新数据输入到迭代实体抽取模型中,得到每个非目标对象更新数据对应的非目标实体抽取结果的步骤,直至每个对象更新数据均为目标对象更新数据;
[0028]基于每个目标对象更新数据对应的目标实体抽取结果,得到实体抽取结果。
[0029]进一步的,根据预定义规则对实体集合中的实体进行筛选,得到目标实体,包括:
[0030]确定实体集合中每个实体的出现频次;
[0031]根据出现频次对实体集合中的实体进行筛选,得到目标实体。
[0032]进一步的,根据目标实体更新初始知识图谱之前,方法还包括:
[0033]对目标实体进行知识融合,得到融合后的实体。
[0034]进一步的,根据目标实体更新初始知识图谱,包括:
[0035]基于融合后的实体建立三元组;
[0036]确定三元组中的对象实体;
[0037]在初始知识图谱的本体层中确定与对象实体对应的初始对象实体;
[0038]基于初始对象实体,将三元组更新到初始知识图谱中。
[0039]第二方面,本申请实施例公开了一种知识图谱更新装置,该装置包括:
[0040]获取模块,用于获取初始知识图谱,并获取对象更新信息;
[0041]实体抽取模块,用于对对象更新信息进行实体抽取,得到实体集合;
[0042]实体筛选模块,用于根据预定义规则对实体集合中的实体进行筛选,得到目标实体;
[0043]知识图谱更新模块,用于根据目标实体更新初始知识图谱。
[0044]在一些可选的实施例中,实体抽取模块包括:
[0045]初始训练数据获取子模块,用于获取标注有实体标注结果的初始训练数据;
[0046]初始训练数据输入子模块,用于将初始训练数据输入机器模型,得到机器模型输出的结果;
[0047]初始实体抽取模型训练子模块,用于根据实体标注结果和机器模型输出的结果,对机器模型进行训练,得到初始实体抽取模型;
[0048]对象更新信息实体抽取子模块,用于将对象更新信息输入到初始实体抽取模型中进行实体抽取,得到实体抽取结果;
[0049]实体集合确定子模块,用于根据实体抽取结果确定实体集合。
[0050]在一些可选的实施例中,对象更新信息包括多个对象更新数据;对象更新信息实体抽取子模块包括:
[0051]初始实体抽取模型单元,用于将对象更新信息输入到初始实体抽取模型中进行实体抽取,得到每个对象更新数据对应的实体抽取结果,以及每个实体抽取结果的第一置信度信息;
[0052]目标对象更新数据确定单元,用于根据第一置信度信息确定预设数量的目标实体抽取结果,以及与目标实体抽取结果对应的目标对象更新数据;
[0053]迭代训练数据生成单元,本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种知识图谱更新方法,其特征在于,所述方法包括:获取初始知识图谱,并获取对象更新信息;对所述对象更新信息进行实体抽取,得到实体集合;根据预定义规则对所述实体集合中的实体进行筛选,得到目标实体;根据所述目标实体更新所述初始知识图谱。2.根据权利要求1所述的方法,其特征在于,所述对所述对象更新信息进行实体抽取,得到实体集合,包括:获取标注有实体标注结果的初始训练数据;将所述初始训练数据输入机器模型,得到所述机器模型输出的结果;根据所述实体标注结果和所述机器模型输出的结果,对所述机器模型进行训练,得到初始实体抽取模型;将所述对象更新信息输入到所述初始实体抽取模型中进行实体抽取,得到实体抽取结果;根据所述实体抽取结果确定所述实体集合。3.根据权利要求2所述的方法,其特征在于,所述对象更新信息包括多个对象更新数据;所述将所述对象更新信息输入到所述初始实体抽取模型中进行实体抽取,得到实体抽取结果,包括:将所述对象更新信息输入到所述初始实体抽取模型中进行实体抽取,得到每个所述对象更新数据对应的实体抽取结果,以及每个所述实体抽取结果的第一置信度信息;根据所述第一置信度信息确定预设数量的目标实体抽取结果,以及与所述目标实体抽取结果对应的目标对象更新数据;基于所述初始训练数据和所述目标对象更新数据生成迭代训练数据;将所述迭代训练数据输入所述初始实体抽取模型,得到所述初始实体抽取模型输出的结果;根据所述实体标注结果、所述目标实体抽取结果和所述初始实体抽取模型输出的结果,对所述初始实体抽取模型进行训练,得到迭代实体抽取模型;将至少一个非目标对象更新数据输入到所述迭代实体抽取模型中,得到每个所述非目标对象更新数据对应的非目标实体抽取结果;所述非目标对象更新数据为所述对象更新信息中除所述目标对象更新数据以外的目标对象数据;根据所述目标实体抽取结果和所述非目标实体抽取结果,确定所述实体抽取结果。4.根据权利要求3所述的方法,其特征在于,所述将至少一个非目标对象更新数据输入到所述迭代实体抽取模型中,得到每个所述非目标对象更新数据对应的非目标实体抽取结果,包括:将至少一个非目标对象更新数据输入到所述迭代实体抽取模型中,得到每个所述非目标对象更新数据对应的非目标实体抽取结果,以及每个所述...

【专利技术属性】
技术研发人员:王化楠
申请(专利权)人:连连杭州信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1