面向开放网络知识库的实体间关系推断方法及系统技术方案

技术编号:10106726 阅读:210 留言:0更新日期:2014-06-01 21:36
本发明专利技术提供一种面向开放网络知识库的实体间关系推断方法。该方法包括根据目标实体从知识库中找出所有与该目标实体之间有关系路径相连的所有实体作为候选实体集;根据待推断的目标关系从所述知识库中找出的所有存在所述目标关系的实体对;以及综合考虑所找出的各实体对间的关系路径信息以及各实体的属性信息来从所述候选实体集中选出可能与该目标实体存在所述目标关系的候选实体。该方法利用知识库中已有的实体关系和实体的属性自动对实体间的关系进行推理,有效改善了推断效果,实现了对知识库中关系的丰富与完善。

【技术实现步骤摘要】
面向开放网络知识库的实体间关系推断方法及系统
本专利技术涉及开放网络知识库,尤其涉及开放网络知识库中实体间关系推断的方法。
技术介绍
知识库(KnowledgeBase)是知识工程中一种结构化,易操作,易利用,全面有组织的知识集群,是针对某一(或某些)领域问题求解的需要,采用某种(或若干)知识表示方式在计算机存储器中存储,组织,管理和使用的互联关系的知识片集合。这些知识片包括与领域相关的理论知识,实时数据,由专家经验得到的启发式知识,如某领域内有相关定义,定理和运算法则以及常识性知识等。知识库的主要作用有以下几点:知识库使信息和知识有序化,是知识库对信息组织的首要贡献;知识库加快知识和信息的流动,有利于知识共享与交流;知识库还有利于实现不同组织的协作与沟通;知识库可以帮助企业实现对客户知识的有效管理。但是普通的知识库有知识类型简单,内容单一,专业性较强等缺点,而面向开放网络的知识库是通过对于开放网络中的各种知识进行抽取,提炼,分析,最终构建一个知识内容丰富,结构统一的知识网络。基于开放网络知识库的实体间关系推断,对于知识库的丰富与完善、潜在知识的挖掘具有重要意义。在基于开放网络知识库的关系推理中,知识库实体类型主要有人物、事件、组织机构、地点等,而它们之间的关系类型则十分多样化。针对不同的实体类型,所关注的关系也是不同的,对于人物实体之间,常见关系有亲人及朋友关系;对于人与组织机构之间,常见关系有工作单位、毕业院校;对于组织机构之间,常见关系有下属机构、相关机构等。这些已知的实体间的关系在原始的知识网络中比较稀疏,而实际上实体间还存在大量的隐含关系,可以通过知识库中已有的知识和关系,来发掘这些隐含关系。最常用的挖掘方法是基于规则的方法,即通过对已有知识的分析,制定合适的推断规则,最终由这些规则推出实体间的关系。但这种方法由人工来制定规则,工作量很大且能制定的规则数量有限,涵盖范围较小,具有较大的局限性。有研究者提出了基于实体间的路径关系进行推断的方法,该方法可省去复杂的人为制定规则的过程,自动学习到推理规则来对实体间的关系进行推理,但当实体间路径数量较少,或实体间关系信息缺乏时,这种方法的推断效果会非常差。
技术实现思路
因此,本专利技术的目的在于克服上述现有技术的缺陷,提供一种新的面向开放网络知识库的实体间关系推断方法。本专利技术的目的是通过以下技术方案实现的:一方面,本专利技术提供了一种面向开放网络知识库的实体间关系推断方法,包括:步骤1,根据目标实体从知识库中找出所有与该目标实体之间有关系路径相连的所有实体作为候选实体集;步骤2,根据待推断的目标关系构造训练实体对集合,所述训练实体对集合中包括从所述知识库中找出的所有存在所述目标关系的实体对;步骤3,基于所述训练实体对集合中各实体对间的关系以及各实体的属性信息,推断所述候选实体集中可能与该目标实体存在所述目标关系的候选实体。上述方法中,所述步骤3可包括:步骤31,基于所述训练实体对集合中各实体对间的关系,训练关系路径模型;其中该关系路径模型用于判断两个实体之间存在所述目标关系的概率;步骤32,基于训练好的关系路径模型来计算所述候选实体集中每个候选实体的关系路径得分;步骤33,根据所述训练实体对集合中各实体的属性信息,训练关系属性模型,并根据训练好的关系属性模型找出与所述目标关系对应的显著属性集,其中该关系属性模型用于判断对于某种属性,存在所述目标关系的两个实体同时具有该属性且属性值相同的概率;步骤34,基于所述目标关系对应的显著属性集,计算每个候选实体的属性相似度得分;步骤35,基于候选实体的关系路径得分和属性相似度得分,从所述候选实体集中选出可能与该目标实体存在所述目标关系的候选实体来作为推断的结果。上述方法中,所述开放式网络知识库可以以图的形式来表示,图中的节点表示知识库中的实体,图中的边表示实体间的关系,图中任意两个节点间的路径表示这两个节点对应的实体之间的关系路径。上述方法中,所述训练实体对集合中还可包括从知识库中随机选择的若干个其之间关系不是所述目标关系的实体对。上述方法中,所述步骤31可包括:步骤311)基于所述训练实体对集合中各实体对间的关系,构造用于训练关系路径模型的训练数据集;其中,所述训练数据集中包括与所述训练实体对集合中的每个实体对相对应的路径特征向量,该路径特征向量是由该实体对的两个实体之间所有可能存在的长度小于l的路径的概率值构成的;其中l为大于1的自然数;步骤312)基于所构造的训练数据集来训练关系路径模型。上述方法中,所述步骤311)中,可以下面的迭代的方式计算所述两个实体之间某条路径的概率值:对于实体对(s,e),若存在长度为m的路径:Path=R1R2...Rm,m≤l,则从实体s以路径Path到达实体e的概率Ps,path(e)为:其中,Path'=R1R2...Rm-1;P(e|e';Rl)=Rl(e',e)/|Rl(e',·)|表示从节点e'以关系Rl达到节点e的概率,Rl(e',e)代表是否存在实体e'以关系Rl达到实体e,如果存在则为1,否则为0;·代表任意实体;如果e=s,则Ps,path(e)=1。上述方法中,所述步骤312)中所述关系路径模型可以为逻辑回归模型、线性回归模型、支持向量机模型或朴素贝叶斯模型。上述方法中,所述步骤32可包括:基于训练好的关系路径模型来计算所述候选实体集中每个候选实体与所述目标实体存在所述目标关系的概率,并将该概率作为候选实体的关系路径得分。上述方法中,所述步骤32可包括:对于所述候选实体集中每个候选实体,构造由该候选实体与所述目标实体构成的实体对的路径特征向量;并根据该路径特征向量,利用训练好的关系路径模型来计算该候选实体与所述目标实体存在所述目标关系的概率,并将该概率作为候选实体的关系路径得分。上述方法中,所述步骤33可包括:。步骤331)根据所述训练实体对集合中各实体的属性信息,构造用于训练关系属性模型的训练数据集;步骤332)基于所构造的训练数据集来训练关系属性模型;其中,所述步骤331)包括:找出训练实体对集合中各个实体的所有出现过的属性作为候选属性,构成候选属性集;对于训练实体对集合中每个实体对,构造属性特征向量,该属性特征向量的每个维度对应候选属性集中的每个候选属性;其中对于每个候选属性,若该实体对的两个实体均含有这个属性,且属性值相同,则将该候选属性对应的维度值置为1,否则将该属性对应的维度值置为0;所述训练数据集中包括训练实体对集合中所有实体对的属性特征向量。上述方法中,所述步骤33中所述目标关系对应的显著属性集可以由从候选属性集中选择的其相应概率较大的若干个候选属性组成,其中每个候选属性的相应概率为根据训练好的关系属性模型计算的、对于该候选属性,存在所述目标关系的两个实体同时具有该属性且属性值相同的概率。上述方法中,所述步骤34可包括:对于候选实体集中每个候选实体,基于所述显著属性集构造由目标实体与该候选实体构成的实体对的属性特征向量;其中该属性特征向量的每个维度对应与所述显著属性集中的每个属性;对于显著属性集中的每个属性,若目标实体与该候选实体同时存在该属性且属性值相同,则该属性对应的维度值为1,否则为0;计算该属性特征向量与标准属性向量的相似度来作为该本文档来自技高网
...
面向开放网络知识库的实体间关系推断方法及系统

【技术保护点】

【技术特征摘要】
1.一种面向开放网络知识库的实体间关系推断方法,所述方法包括:步骤1,根据目标实体从知识库中找出所有与该目标实体之间有关系路径相连的所有实体作为候选实体集;步骤2,根据待推断的目标关系构造训练实体对集合,所述训练实体对集合中包括从所述知识库中找出的所有存在所述目标关系的实体对;步骤3,基于所述训练实体对集合中各实体对间的关系以及各实体的属性信息,推断所述候选实体集中可能与该目标实体存在所述目标关系的候选实体;其中所述开放式网络知识库以图的形式来表示,图中的节点表示知识库中的实体,图中的边表示实体间的关系,图中任意两个节点间的路径表示这两个节点对应的实体之间的关系路径;其中所述步骤3包括:步骤31,基于所述训练实体对集合中各实体对间的关系,训练关系路径模型;其中该关系路径模型用于判断两个实体之间存在所述目标关系的概率;步骤32,基于训练好的关系路径模型来计算所述候选实体集中每个候选实体的关系路径得分;步骤33,根据所述训练实体对集合中各实体的属性信息,训练关系属性模型,并根据训练好的关系属性模型找出与所述目标关系对应的显著属性集,其中该关系属性模型用于判断对于某种属性,存在所述目标关系的两个实体同时具有该属性且属性值相同的概率;步骤34,基于所述目标关系对应的显著属性集,计算每个候选实体的属性相似度得分;步骤35,基于候选实体的关系路径得分和属性相似度得分,从所述候选实体集中选出可能与该目标实体存在所述目标关系的候选实体来作为推断的结果。2.根据权利要求1所述的方法,所述训练实体对集合中还包括从知识库中随机选择的若干个其之间关系不是所述目标关系的实体对。3.根据权利要求1所述的方法,所述步骤31包括:步骤311)基于所述训练实体对集合中各实体对间的关系,构造用于训练关系路径模型的训练数据集;其中,所述训练数据集中包括与所述训练实体对集合中的每个实体对相对应的路径特征向量,该路径特征向量是由该实体对的两个实体之间所有可能存在的长度小于l的路径的概率值构成的;其中l为大于1的自然数;步骤312)基于所构造的训练数据集来训练关系路径模型。4.根据权利要求3所述的方法,所述步骤311)中,以下面的迭代的方式计算所述两个实体之间某条路径的概率值:对于实体对(s,e),若存在长度为m的路径:Path=R1R2...Rm,m≤l,则从实体s以路径Path到达实体e的概率Ps,path(e)为:其中,Path'=R1R2...Rm-1;P(e|e';Rl)=Rl(e',e)/|Rl(e',·)|表示从节点e'以关系Rl达到节点e的概率,Rl(e',e)代表是否存在实体e'以关系Rl达到实体e,如果存在则为1,否则为0;·代表任意实体;如果e=s,则Ps,path(e)=1。5.根据权利要求3所述的方法,所述步骤312)中所述关系路径模型为逻辑回归模型、线性回归模型、支持向量机模型或朴素贝叶斯模型。6.根据权利要求1所述的方法,所述步骤32包括:基于训练好的关系路径模型来计算所述候选实体集中每个候选实体与所述目标实体存在所述目标关系的概率,并将该概率作为候选实体的关系路径得分。7.根据权利要求3所述的方法,所述步骤32包括:对于所述候选实体集中每个候选实体,构造由该候选实体与所述目标实体构成的实体对的路径特征向量;并根据该路径特征向量,利用训练好的关系路径模型来计算该候选实体与所述目标实体存在所述目标关系的概率,并将该概率作为候选实体的关系路径得分。8.根据权利要求1所述的方法,所述步骤33包括:...

【专利技术属性】
技术研发人员:程学旗王元卓赵泽亚贾岩涛冯凯熊锦华许洪波
申请(专利权)人:中国科学院计算技术研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1