确定实体之间的关系的方法和设备技术

技术编号:14449195 阅读:25 留言:0更新日期:2017-01-18 09:57
本发明专利技术公开了一种确定实体之间的关系的方法和设备。该方法包括:基于实体特征,计算数据中的实体的两两之间的相似度、数据中的实体与知识库中的实体的两两之间的相似度;根据上述实体间的相似度,确定上述实体间的初步关系;基于所确定的初步关系以及相应的相似度、知识库中的实体的两两之间的永久关系,更新语义图,该语义图中的节点是数据中的实体和知识库中的实体,节点间的边标记有上述初步关系和永久关系以及相应的置信度;以及基于语义图,调整上述初步关系和/或相应的置信度;其中,调整后的语义图中的实体之间的置信度为1的关系即为所确定的实体之间的关系。

【技术实现步骤摘要】

本专利技术一般地涉及信息处理领域。具体而言,本专利技术涉及一种能够利用语义图和知识库确定实体之间的关系的方法和设备。
技术介绍
近年来,随着大数据时代的到来,海量数据带来了海量的信息,能够为各种应用提供充足的数据基础。然而,利用大量数据的难题之一就是如何有效地去除重复的数据和对数据进行语义化以方便用户和计算机进行语义分析,进而更有效地检索和利用数据。本专利技术着眼于如何利用语义图和知识库来建立重复数据之间的等价关系、数据与语义知识库中数据的等价关系,从而去除重复数据并将数据语义化。
技术实现思路
在下文中给出了关于本专利技术的简要概述,以便提供关于本专利技术的某些方面的基本理解。应当理解,这个概述并不是关于本专利技术的穷举性概述。它并不是意图确定本专利技术的关键或重要部分,也不是意图限定本专利技术的范围。其目的仅仅是以简化的形式给出某些概念,以此作为稍后论述的更详细描述的前序。本专利技术的目的是提出了一种能够确定实体之间的关系的方法和设备。为了实现上述目的,根据本专利技术的一个方面,提供了一种确定实体之间的关系的方法,该方法包括:基于实体特征,计算数据中的实体的两两之间的相似度、数据中的实体与知识库中的实体的两两之间的相似度;根据上述实体间的相似度,确定上述实体间的初步关系;基于所确定的初步关系以及相应的相似度、知识库中的实体的两两之间的永久关系,更新语义图,该语义图中的节点是数据中的实体和知识库中的实体,节点间的边标记有上述初步关系和永久关系以及相应的置信度;以及基于语义图,调整上述初步关系和/或相应的置信度;其中,调整后的语义图中的实体之间的置信度为1的关系即为所确定的实体之间的关系。根据本专利技术的另一个方面,提供了一种确定实体之间的关系的设备,该设备包括:相似度计算装置,被配置为:基于实体特征,计算数据中的实体的两两之间的相似度、数据中的实体与知识库中的实体的两两之间的相似度;初步关系确定装置,被配置为:根据上述实体间的相似度,确定上述实体间的初步关系;语义图更新装置,被配置为:基于所确定的初步关系以及相应的相似度、知识库中的实体的两两之间的永久关系,更新语义图,该语义图中的节点是数据中的实体和知识库中的实体,节点间的边标记有上述初步关系和永久关系以及相应的置信度;以及置信度调整装置,被配置为:基于语义图,调整上述初步关系和/或相应的置信度;其中,调整后的语义图中的实体之间的置信度为1的关系即为所确定的实体之间的关系。另外,根据本专利技术的另一方面,还提供了一种存储介质。所述存储介质包括机器可读的程序代码,当在信息处理设备上执行所述程序代码时,所述程序代码使得所述信息处理设备执行根据本专利技术的上述方法。此外,根据本专利技术的再一方面,还提供了一种程序产品。所述程序产品包括机器可执行的指令,当在信息处理设备上执行所述指令时,所述指令使得所述信息处理设备执行根据本专利技术的上述方法。附图说明参照下面结合附图对本专利技术的实施例的说明,会更加容易地理解本专利技术的以上和其它目的、特点和优点。附图中的部件只是为了示出本专利技术的原理。在附图中,相同的或类似的技术特征或部件将采用相同或类似的附图标记来表示。附图中:图1示出了根据本专利技术的实施例的确定实体之间的关系的方法的流程图;图2示出了以研究者为例的语义图的示例;图3示出了第一调整方式的示例;图4示出了第二调整方式的示例;图5示出了第三调整方式的示例;图6示出了第四调整方式的示例;图7示出了第五调整方式的示例;图8示出了第五调整方式的另一示例;图9示出了根据本专利技术的实施例的确定实体之间的关系的设备的结构方框图;以及图10示出了可用于实施根据本专利技术的实施例的方法和设备的计算机的示意性框图。具体实施方式在下文中将结合附图对本专利技术的示范性实施例进行详细描述。为了清楚和简明起见,在说明书中并未描述实际实施方式的所有特征。然而,应该了解,在开发任何这种实际实施方式的过程中必须做出很多特定于实施方式的决定,以便实现开发人员的具体目标,例如,符合与系统及业务相关的那些限制条件,并且这些限制条件可能会随着实施方式的不同而有所改变。此外,还应该了解,虽然开发工作有可能是非常复杂和费时的,但对得益于本公开内容的本领域技术人员来说,这种开发工作仅仅是例行的任务。在此,还需要说明的一点是,为了避免因不必要的细节而模糊了本专利技术,在附图中仅仅示出了与根据本专利技术的方案密切相关的装置结构和/或处理步骤,而省略了与本专利技术关系不大的其他细节。另外,还需要指出的是,在本专利技术的一个附图或一种实施方式中描述的元素和特征可以与一个或更多个其它附图或实施方式中示出的元素和特征相结合。为便于理解,下文将以研究者为例进行说明。本领域技术人员应当理解:研究者仅为实体的一个示例。下面将参照图1描述根据本专利技术的实施例的确定实体之间的关系的方法的流程。图1示出了根据本专利技术的实施例的确定实体之间的关系的方法的流程图。如图1所示,根据本专利技术的实施例的实体关系确定方法包括如下步骤:基于实体特征,计算数据中的实体的两两之间的相似度、数据中的实体与知识库中的实体的两两之间的相似度(步骤S1);根据上述实体间的相似度,确定上述实体间的初步关系(步骤S2);基于所确定的初步关系以及相应的相似度、知识库中的实体的两两之间的永久关系,更新语义图,该语义图中的节点是数据中的实体和知识库中的实体,节点间的边标记有上述初步关系和永久关系以及相应的置信度(步骤S3);以及基于语义图,调整上述初步关系和/或相应的置信度(步骤S4),其中,调整后的语义图中的实体之间的置信度为1的关系即为所确定的实体之间的关系。以研究者为例,在文献类数据中,每个研究者可以有多个ID,每个ID对应一个名字,因此一个研究者可以有多个名字,同时多个名字可以对应同一个研究者。所以数据中的实体实际上存在重复。另外,知识库(如DBPedia)中也包含研究者的信息,也存在已经确定的等价关系,如研究者1与研究者2是同一研究者。因此,可以借助于知识库中的已有知识,帮助确定数据中的实体与数据中的其它实体、数据中的实体与知识库中的实体之间的关系。在本专利技术中,首先基于数据自身的特征来挖掘关系,然后利用知识库中的信息进行验证和调整。首先,在步骤S1中,基于实体特征,计算数据中的实体的两两之间的相似度、数据中的实体与知识库中的实体的两两之间的相似度。计算数据中的实体的两两之间的相似度是指数据中的一个实体与数据中的另一个实体之间的相似度,数据中的每一个实体都与数据中的其它所有实体计算相似度。对于数据中包括M个实体的情况,其中M为大于一的正整数,计算数据中的实体的两两之间的相似度共执行M*(M-1)次。计算数据中的实体与知识库中的实体的两两之间的相似度是指数据中的一个实体与知识库中的一个实体之间的相似度,数据中的每一个实体都与知识库中的每一个实体计算相似度。对于数据中包括M个实体且知识库中包括N个实体的情况,其中M、N均为大于一的正整数,计算数据中的实体与知识库中的实体的两两之间的相似度共执行M*N次。基于实体的特征计算实体间相似度。对于研究者来说,研究者的特征例如包括研究者的名字、所属机构、共著关系、发表的论文内容、研究领域、获奖情况等。在步骤S2中,根据上述实体间的相似度,确定上述实体本文档来自技高网...

【技术保护点】
一种确定实体之间的关系的方法,包括:基于实体特征,计算数据中的实体的两两之间的相似度、数据中的实体与知识库中的实体的两两之间的相似度;根据上述实体间的相似度,确定上述实体间的初步关系;基于所确定的初步关系以及相应的相似度、知识库中的实体的两两之间的永久关系,更新语义图,该语义图中的节点是数据中的实体和知识库中的实体,节点间的边标记有上述初步关系和永久关系以及相应的置信度;基于语义图,调整上述初步关系和/或相应的置信度;以及其中,调整后的语义图中的实体之间的置信度为1的关系即为所确定的实体之间的关系。

【技术特征摘要】
1.一种确定实体之间的关系的方法,包括:基于实体特征,计算数据中的实体的两两之间的相似度、数据中的实体与知识库中的实体的两两之间的相似度;根据上述实体间的相似度,确定上述实体间的初步关系;基于所确定的初步关系以及相应的相似度、知识库中的实体的两两之间的永久关系,更新语义图,该语义图中的节点是数据中的实体和知识库中的实体,节点间的边标记有上述初步关系和永久关系以及相应的置信度;基于语义图,调整上述初步关系和/或相应的置信度;以及其中,调整后的语义图中的实体之间的置信度为1的关系即为所确定的实体之间的关系。2.如权利要求1所述的方法,其中所述基于语义图,调整上述初步关系和/或相应的置信度包括:如果一个数据中的实体和两个知识库中的实体三者之间的两两关系都是相同,则将该数据中的实体与所述两个知识库中的实体中任一之间的初步关系的置信度调整为1。3.如权利要求1所述的方法,其中所述基于语义图,调整上述初步关系和/或相应的置信度包括:如果两个数据中的实体和一个知识库中的实体三者之间的两两关系都是相同,则将所述两个数据中的实体和所述一个知识库中的实体三者中任意两个之间的初步关系的置信度调整为1。4.如权利要求1所述的方法,其中所述基于语义图,调整上述初步关系和/或相应的置信度包括:如果两个数据中的实体之间的关系是相同且所述两个数据中的实体与一个知识库中的实体之间的关系都是不同,则将所述两个数据中的实体和所述一个知识库中的实体三者中任意两个之间的初步关系的置信度调整为1。5.如权利要求1所述的方法,其中所述基于语义图,调整上述初步关系和/或相应的置信度包括:如果两个数据中的实体之间的关系是不同且所述两个数据中的实体与一个知识库中的实体之间的关...

【专利技术属性】
技术研发人员:缪庆亮孟遥杨铭
申请(专利权)人:富士通株式会社
类型:发明
国别省市:日本;JP

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1