确定实体属性值的装置和方法制造方法及图纸

技术编号:13793237 阅读:34 留言:0更新日期:2016-10-06 06:10
本发明专利技术涉及确定实体属性值的装置和方法。该装置包括:数据源确定单元,被配置为以实体的名称或别称作为检索词在互联网或数据库中进行检索,确定与该实体相关的数据源,实体是给定实体集合中的一个实体;数据源置信度计算单元,被配置为针对所获得的每个数据源,根据该数据源包含的各项记录与给定实体集合中的所有实体的相似度计算该数据源的置信度;属性值置信度计算单元,被配置为根据数据源的置信度计算实体的每个属性值的置信度;以及属性值确定单元,被配置为根据每个属性值的置信度来确定实体的属性值。根据本发明专利技术的装置和方法,根据多个数据源中实体属性及属性值,找到最可信的属性值,并对实体的属性进行补全,获得更加丰富的实体信息。

【技术实现步骤摘要】

本专利技术涉及信息处理领域,更具体地涉及一种对实体的属性值进行确定的装置和方法。
技术介绍
随着互联网的飞速发展,互联网中出现了大量的数据,描述某个实体e的数据源有多个。这些数据源包含的实体属性值不尽相同,可能是重复的,可能是不一致的,也可能是有冲突的。因此如何从多个数据源中找到实体e的尽可能多的属性和属性值,并确保这些属性值的准确性是非常重要的。需要一种能够确定实体的属性值的装置和方法。
技术实现思路
在下文中给出关于本专利技术的简要概述,以便提供关于本专利技术的某些方面的基本理解。应当理解,这个概述并不是关于本专利技术的穷举性概述。它并不是意图确定本专利技术的关键或重要部分,也不是意图限定本专利技术的范围。其目的仅仅是以简化的形式给出某些概念,以此作为稍后论述的更详细描述的前序。本专利技术的一个主要目的在于,提供一种确定实体属性值的装置,包括:数据源确定单元,被配置为以实体的名称或别称作为检索词在互联网或数据库中进行检索,确定与该实体相关的数据源,实体是给定实体集合中的一个实体;数据源置信度计算单元,被配置为针对所获得的每个数据源,根据该数据源包含的各项记录与给定实体集合中的所有实体的相似度计算该数据源的置信度;属性值置信度计算单元,被配置为根据数据源的置信度计算实体的每个属性值的置信度;以及属性值确定单元,被配置为根据每个属性值的置信度来确定实体的属性值。根据本专利技术的一个方面,提供了确定实体属性值的方法,包括:以实
体的名称或别称作为检索词在互联网或数据库中进行检索,确定与该实体相关的数据源,实体是给定实体集合中的一个实体;针对所获得的每个数据源,根据该数据源包含的各项记录与给定实体集合中的所有实体的相似度计算该数据源的置信度;根据数据源的置信度计算实体的每个属性值的置信度;以及根据每个属性值的置信度来确定实体的属性值。另外,本专利技术的实施例还提供了用于实现上述方法的计算机程序。此外,本专利技术的实施例还提供了至少计算机可读介质形式的计算机程序产品,其上记录有用于实现上述方法的计算机程序代码。通过以下结合附图对本专利技术的最佳实施例的详细说明,本专利技术的这些以及其他优点将更加明显。附图说明参照下面结合附图对本专利技术实施例的说明,会更加容易地理解本专利技术的以上和其它目的、特点和优点。附图中的部件只是为了示出本专利技术的原理。在附图中,相同的或类似的技术特征或部件将采用相同或类似的附图标记来表示。图1示出了根据本专利技术的一个实施例的确定实体属性值的方法100的示例性过程的流程图;图2示出了根据本专利技术的另一个实施例的确定实体属性值的方法100’示例性过程的流程图;图3是示出根据本专利技术的一个实施例的确定实体属性值的装置300的示例性配置的框图;图4是示出根据本专利技术的另一个实施例的确定实体属性值的装置300’的示例性配置的框图;图5是示出可以用于实施本专利技术的确定实体属性值的装置和方法的计算设备的示例性结构图。具体实施方式下面参照附图来说明本专利技术的实施例。在本专利技术的一个附图或一种实施方式中描述的元素和特征可以与一个或更多个其它附图或实施方式中
示出的元素和特征相结合。应当注意,为了清楚的目的,附图和说明中省略了与本专利技术无关的、本领域普通技术人员已知的部件和处理的表示和描述。本专利技术提出一种协同的实体属性值补全方法,该方法首先根据给定的实体集合E,从互联网或数据库中检索与E相关的数据源,根据数据源构造单个实体e的相关数据集S,然后估计数据源的初始置信度,并将该置信度分配到该数据源的每个属性值上。在本专利技术的一个示例中,为每个实体e构建了数据源初始置信度矩阵,为每个实体e的属性值计算置信度,然后根据数据源中属性值之间的一致性信息重新计算置信度矩阵,再根据置信度矩阵重新计算每个数据源的置信度。迭代执行以上步骤,最终达到置信度矩阵收敛或迭代执行指定次数停止。最后根据置信度矩阵将置信度最高的属性值作为最终的属性值。下面结合附图详细说明根据本专利技术的一个实施例的确定实体属性值的方法和装置。图1示出了根据本专利技术的一个实施例的确定实体属性值的方法100的示例性过程的流程图。首先,在步骤S102中,以实体的名称或别称作为检索词在互联网或数据库中进行检索,确定与该实体相关的数据源。实体e是给定实体集合E中的一个实体,通过检索构建实体e的数据源集合Se。检索时用实体e的名称或别称进行检索,e的名称是指实体e的规范名称,比如实体e=“清华大学”的名称为“清华大学”,e的别称可能为“清华”等,e的别称也可以称为e的提及(mention)。在一个示例中,与e相关的数据可能为表格数据。当e的名称或别称出现在表格的实体列时,该数据源为实体e的表格数据源,将该数据源加入到数据源集合Se中。E中所有实体的相关数据源集合为S。对每个实体e∈实体集合E统计数据源集合Se中出现的实体e的属性集合Ae。接下来,在步骤S104中,针对所获得的每个数据源,根据该数据源包含的各项记录与给定实体集合中的所有实体的相似度计算该数据源的置信度。在一个实施例中,可以首先为每个实体e构建数据源初始置信度矩阵。具体地,根据步骤S102中获得的数据源集合Se和属性集合Ae来构造e的
初始化矩阵Me,这里假设Me的维度为m行n列,其中m=|Se|,n=|Ae|。计算数据源的置信度的方法如下: confidence ( s i e ) = Σ e i ∈ E Σ r s i e ∈ s i e sim ( e i , r s i e ) - - - ( 1 ) ]]> con ( s i e ) ‾ = confidence ( s i e ) 本文档来自技高网
...

【技术保护点】
一种确定实体属性值的装置,包括:数据源确定单元,被配置为以实体的名称或别称作为检索词在互联网或数据库中进行检索,确定与该实体相关的数据源,所述实体是给定实体集合中的一个实体;数据源置信度计算单元,被配置为针对所获得的每个数据源,根据该数据源包含的各项记录与所述给定实体集合中的所有实体的相似度计算该数据源的置信度;属性值置信度计算单元,被配置为根据所述数据源的置信度计算所述实体的每个属性值的置信度;以及属性值确定单元,被配置为根据所述每个属性值的置信度来确定所述实体的属性值。

【技术特征摘要】
1.一种确定实体属性值的装置,包括:数据源确定单元,被配置为以实体的名称或别称作为检索词在互联网或数据库中进行检索,确定与该实体相关的数据源,所述实体是给定实体集合中的一个实体;数据源置信度计算单元,被配置为针对所获得的每个数据源,根据该数据源包含的各项记录与所述给定实体集合中的所有实体的相似度计算该数据源的置信度;属性值置信度计算单元,被配置为根据所述数据源的置信度计算所述实体的每个属性值的置信度;以及属性值确定单元,被配置为根据所述每个属性值的置信度来确定所述实体的属性值。2.根据权利要求1所述的装置,还包括:迭代单元,所述迭代单元被配置为迭代执行根据所述每个属性值的置信度重新计算每个数据源的置信度,以及根据所述数据源的置信度计算所述实体的每个属性值的置信度,直到符合预定条件。3.根据权利要求2所述的装置,其中,所述预定条件包括以下中的一项:所述属性值的置信度发生收敛和迭代执行预定次数。4.根据权利要求1所述的装置,其中,所述数据源置信度计算单元进一步被配置为:将所述数据源包含的各项记录与所述给定实体集合中的所有实体的相似度进行求和并归一化来计算所述数据源的置信度。5.根据权利要求1所述的装置,其中,所述数据源包含的各项记录与所述给定实体集合中的所有实体的相似度包括以下中的至少一项:所述实体与所述记录中实体的名称的相似度以及所...

【专利技术属性】
技术研发人员:缪庆亮孟遥
申请(专利权)人:富士通株式会社
类型:发明
国别省市:日本;JP

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1