本体对齐方法、装置、设备及存储介质制造方法及图纸

技术编号:33998631 阅读:31 留言:0更新日期:2022-07-02 11:33
本申请提供一种本体对齐方法、装置、设备及存储介质,其中,本体对齐方法,包括:根据实体的属性信息,对来自不同知识图谱的实体进行对齐,并将对齐的实体确定为对齐实体;根据每个所述知识图谱分别记载的实体与本体的关联关系,将所述对齐实体与不同知识图谱中的本体进行关联,得到所述对齐实体与不同本体的关联关系;根据所述对齐实体与不同本体的关联关系,将与相同对齐实体相关联的不同本体进行对齐。本申请方案能够基于实体的关联关系实现本体的对齐,相较于传统利用各种文本信息计算相似度进行图谱对齐的方式,可以找到很多从文本表述差异很大,从文本相似度角度很难发现的对齐。齐。齐。

【技术实现步骤摘要】
本体对齐方法、装置、设备及存储介质


[0001]本申请涉及知识图谱
,尤其涉及一种本体对齐方法、装置、设备及存储介质。

技术介绍

[0002]本体(ontology)是共享概念模型的明确的形式化规范说明,每一个本体均是实际存在的唯一的个体;本体在语义Web,知识数据工程,电子商务等领域中均有广泛应用。
[0003]由于不同背景的知识工程师构造和维护相似或相同域的本体,使得不同知识体系(例如数据库、知识图谱)之间存在内容异构,为了实现不同知识体系之间知识的共享、重用和互操作,通常需要对不同知识体系之间的相同本体进行对齐,即将相同本体所描述的内容进行合并。
[0004]目前的本体对齐方法,主要是根据本体名称,通过同义词表匹配或者计算文本相似度的方式,对不同知识体系中的本体进行对齐。但是,在实际应用中,不同知识体系中对相同本体所采用的文本表述有可能存在较大差异,从而导致采用目前同义词表匹配或者计算文本相似度的方式无法实现相同本体的对齐;另外,对于拥有相同名称却不表征同一个本体的情况,采用上述本体对齐方法会将不同的本体进行对齐,从而导致误判。如果本体对齐存在误判,将会导致对齐后的知识图谱出现错误,进而会降低机器认知、机器学习、内容推荐等知识图谱应用方面的准确性。
[0005]因此,需要提供一种准确性较高的本体对齐方案。

技术实现思路

[0006]本申请实施例的目的是提供一种本体对齐方法、装置、设备及存储介质,以解决当前本体对齐准确性较低的问题。
[0007]为解决上述技术问题,本申请实施例提供如下技术方案:
[0008]本申请第一方面提供一种本体对齐方法,包括:
[0009]根据实体的属性信息,对来自不同知识图谱的实体进行对齐,并将对齐的实体确定为对齐实体;
[0010]根据每个所述知识图谱分别记载的实体与本体的关联关系,将所述对齐实体与不同知识图谱中的本体进行关联,得到所述对齐实体与不同本体的关联关系;
[0011]根据所述对齐实体与不同本体的关联关系,将与相同对齐实体相关联的不同本体进行对齐。
[0012]在本申请第一方面的一些变更实施方式中,所述根据所述对齐实体与不同本体的关联关系,将与相同对齐实体相关联的不同本体进行对齐,包括:
[0013]根据所述对齐实体与不同本体的关联关系,确定每个所述本体对应的对齐实体占比,其中,所述对齐实体占比包括对齐实体数量与全部实体数量的比值,所述对齐实体数量是所述本体关联的对齐实体的数量,所述全部实体数量是所述本体关联的所有实体的数
量;
[0014]若与相同对齐实体相关联的不同本体对应的对齐实体占比均大于预设占比阈值,则将所述不同本体进行对齐。
[0015]在本申请第一方面的一些变更实施方式中,所述根据所述对齐实体与不同本体的关联关系,将与相同对齐实体相关联的不同本体进行对齐,包括:
[0016]根据所述对齐实体与不同本体的关联关系,确定与所述不同本体均关联的对齐实体的数量;
[0017]若所述对齐实体的数量大于预设对齐实体数量阈值,则将所述不同本体进行对齐。
[0018]在本申请第一方面的一些变更实施方式中,所述根据实体的属性信息,对来自不同知识图谱的实体进行对齐,包括:
[0019]根据实体的属性名称、属性类型和属性值中的至少一项,对来自不同知识图谱的实体进行对齐。
[0020]在本申请第一方面的一些变更实施方式中,所述根据实体的属性名称、属性类型和属性值中的至少一项,对来自不同知识图谱的实体进行对齐,包括:
[0021]对来自不同知识图谱的实体的属性名称进行向量化处理,得到各个所述实体对应的属性名称向量;
[0022]计算各个所述实体对应的属性名称向量之间的相似度;
[0023]将所述相似度大于第一相似度阈值的实体进行对齐。
[0024]在本申请第一方面的一些变更实施方式中,所述根据实体的属性名称、属性类型和属性值中的至少一项,对来自不同知识图谱的实体进行对齐,包括:
[0025]若来自不同知识图谱的实体具有相同的属性名称,则确定具有相同的属性名称的不同实体对应于所述属性名称的属性值相似度;
[0026]将所述属性值相似度大于第二相似度阈值的实体进行对齐。
[0027]在本申请第一方面的一些变更实施方式中,所述确定具有相同的属性名称的不同实体对应于所述属性名称的属性值相似度,包括:
[0028]若所述属性名称对应的属性值为数值或唯一身份标识符,则通过字符匹配的方式确定具有相同的属性名称的不同实体对应于所述属性名称的属性值相似度;
[0029]若所述属性名称对应的属性值为文本,则通过计算文本相似度的方式确定具有相同的属性名称的不同实体对应于所述属性名称的属性值相似度。
[0030]本申请第二方面提供一种本体对齐装置,包括:
[0031]实体对齐模块,用于根据实体的属性信息,对来自不同知识图谱的实体进行对齐,并将对齐的实体确定为对齐实体;
[0032]关联模块,用于根据每个所述知识图谱分别记载的实体与本体的关联关系,将所述对齐实体与不同知识图谱中的本体进行关联,得到所述对齐实体与不同本体的关联关系;
[0033]本体对齐模块,用于根据所述对齐实体与不同本体的关联关系,将与相同对齐实体相关联的不同本体进行对齐。
[0034]在本申请第二方面的一些变更实施方式中,所述本体对齐模块,包括:
[0035]对齐实体占比确定单元,用于根据所述对齐实体与不同本体的关联关系,确定每个所述本体对应的对齐实体占比,其中,所述对齐实体占比包括对齐实体数量与全部实体数量的比值,所述对齐实体数量是所述本体关联的对齐实体的数量,所述全部实体数量是所述本体关联的所有实体的数量;
[0036]第一本体对齐单元,用于若与相同对齐实体相关联的不同本体对应的对齐实体占比均大于预设占比阈值,则将所述不同本体进行对齐。
[0037]在本申请第二方面的一些变更实施方式中,所述本体对齐模块,包括:
[0038]对齐实体数量确定单元,用于根据所述对齐实体与不同本体的关联关系,确定与所述不同本体均关联的对齐实体的数量;
[0039]第二本体对齐单元,用于若所述对齐实体的数量大于预设对齐实体数量阈值,则将所述不同本体进行对齐。
[0040]在本申请第二方面的一些变更实施方式中,所述实体对齐模块,包括:
[0041]实体对齐单元,用于根据实体的属性名称、属性类型和属性值中的至少一项,对来自不同知识图谱的实体进行对齐。
[0042]在本申请第二方面的一些变更实施方式中,所述实体对齐单元,包括:
[0043]属性名称向量确定子单元,用于对来自不同知识图谱的实体的属性名称进行向量化处理,得到各个所述实体对应的属性名称向量;
[0044]向量相似度确定子单元,用于计算各个所述实体对应的属性名称向量之间的相似度;
[本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种本体对齐方法,其特征在于,包括:根据实体的属性信息,对来自不同知识图谱的实体进行对齐,并将对齐的实体确定为对齐实体;根据每个所述知识图谱分别记载的实体与本体的关联关系,将所述对齐实体与不同知识图谱中的本体进行关联,得到所述对齐实体与不同本体的关联关系;根据所述对齐实体与不同本体的关联关系,将与相同对齐实体相关联的不同本体进行对齐。2.根据权利要求1所述的方法,其特征在于,所述根据所述对齐实体与不同本体的关联关系,将与相同对齐实体相关联的不同本体进行对齐,包括:根据所述对齐实体与不同本体的关联关系,确定每个所述本体对应的对齐实体占比,其中,所述对齐实体占比包括对齐实体数量与全部实体数量的比值,所述对齐实体数量是所述本体关联的对齐实体的数量,所述全部实体数量是所述本体关联的所有实体的数量;若与相同对齐实体相关联的不同本体对应的对齐实体占比均大于预设占比阈值,则将所述不同本体进行对齐。3.根据权利要求1所述的方法,其特征在于,所述根据所述对齐实体与不同本体的关联关系,将与相同对齐实体相关联的不同本体进行对齐,包括:根据所述对齐实体与不同本体的关联关系,确定与所述不同本体均关联的对齐实体的数量;若所述对齐实体的数量大于预设对齐实体数量阈值,则将所述不同本体进行对齐。4.根据权利要求1所述的方法,其特征在于,所述根据实体的属性信息,对来自不同知识图谱的实体进行对齐,包括:根据实体的属性名称、属性类型和属性值中的至少一项,对来自不同知识图谱的实体进行对齐。5.根据权利要求4所述的方法,其特征在于,所述根据实体的属性名称、属性类型和属性值中的至少一项,对来自不同知识图谱的实体进行对齐,包括:对来自不同知识图谱的实体的属性名称进行向量化处理,得到各个所述实体对应的属性名称向量;...

【专利技术属性】
技术研发人员:葛婷
申请(专利权)人:北京国双科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1