当前位置: 首页 > 专利查询>罗伯特专利>正文

用于知识图中进行关键词搜索的计算机实现的方法技术

技术编号:31786929 阅读:11 留言:0更新日期:2022-01-08 10:43
用于知识图中进行关键词搜索的计算机实现的方法。用于在数据集(Q)中进行关键词搜索的计算机实现的方法(100),其中数据集(Q)的数据(q)由知识图(KG)表示,其中知识图(KG)包括表示数据集(Q)的实体(v)的顶点(v)和表示所述实体(v)之间的关系的边(e),所述方法(100)包括以下步骤:提供(110)连接关键词查询的至少两个实体(v)的知识图(KG)的子图()的集合;基于每个子图()与数据集(Q)的相关性()(称为数据相关性)和每个子图()的实体(v)彼此的相关性()(称为内部相关性)两者来计算(120)每个子图()的相关性(,和根据子图()的集合中的子图()的相关性(对子图()进行排序(130)。(130)。(130)。

【技术实现步骤摘要】
用于知识图中进行关键词搜索的计算机实现的方法

技术介绍

[0001]本公开涉及一种用于在数据集中进行关键词搜索的计算机实现的方法,其中数据集的数据由知识图表示。
[0002]此外,本公开涉及一种用于在数据集中进行关键词搜索的系统和一种用于在数据集中进行关键词搜索的计算机程序。
[0003]知识图KG是一个图,其中顶点是用二元关系互连的实体,并用类型和数据值进行注释。越来越多的知识图已经被开发用于各种领域。知识图支持从企业数据集成到智能搜索的广泛任务。
[0004]基于知识图的应用的重要任务是提取与给定顶点集合相关的子图,也称为关系子图RSG。例如,可以在关键词搜索期间选择知识图中的顶点集合,其中用户通过提出关键词集合来查询知识图,并且系统将它们与知识图的实体相匹配,找到知识图中关联这些实体的关系子图,并且将它们作为答案返回。
[0005]为了有效地丰富,子图应该与上下文、即数据集的内容相关。因此,本公开的任务是提供子图相关性的度量。

技术实现思路

[0006]这通过根据独立权利要求的系统和方法来实现。
[0007]实施例涉及一种用于在数据集中进行关键词搜索的计算机实现的方法,其中数据集的数据由知识图表示,其中知识图包括表示数据集的实体的顶点以及表示所述实体之间的关系的边,该方法包括以下步骤:提供连接关键词查询的至少两个实体的知识图的子图集合;基于每个子图与数据集的相关性(称为数据相关性)和每个子图的实体彼此的相关性(称为内部相关性)两者来计算每个子图的相关性,以及根据子图集合中子图的相关性对子图进行排序。
[0008]有利地,从两个角度考虑子图的相关性:子图与数据集的相关性以及子图的元素(即实体)彼此的相关性。
[0009]根据该方法的优选实施例,该方法进一步包括计算数据相关性的步骤和/或计算内部相关性的步骤。
[0010]根据该方法的优选实施例,基于数据集的实体与子图的实体对之间的相关度来计算子图与数据集的数据相关性。
[0011]根据该方法的优选实施例,基于所述实体的类别的相似度、特别是类别类型,计算数据集的实体与子图的实体之间的相关度。
[0012]数据集的每个实体和子图的每个实体用它的类别类型来注释,该类别类型由标示,其中是例如在某个目录中给出的所有类别的集合。
[0013]为了计算两个实体v
i
、v
j
之间的相关度r(v
i
, v
j
),实体v
i
、v
j
被表示为由维向量空间给出的向量空间中的两个向量、,其中第l维对应于类别,并且计算该空间
2017)公开。特别地,基于类别在类别层次中的相对位置,该对实体中的一个实体的类别类型和该对实体中的另一个实体的类别类型之间的相似度。如果两个类别靠近在一起,并且通常归类在层次中的特定类别下,则它们是相似的。相似度sim(v
i
,v
j
)可以根据以下公式计算:其中len(type(v
i
), type(v
j
))是类别层次中实体v
i
的类别类型和实体v
j
的类别类型之间的最短路径的长度,是要调谐的参数,并且ic(lcs(type(v
i
), type(v
j
)))是类别层次中类别类型(v
i
)和类别类型(v
j
)的最不常见的归类项(subsumer)lcs的信息含量。两个类别的最不常见的归类项是它们在类别层次中最底层的共享祖先。
[0021]根据该方法的优选实施例,通过计算子图中实体对之间的平均相似度来计算内部相关性,其中平均相似度由下式给出。
[0022]根据该方法的优选实施例,每个子图的相关性通过下式计算,其中标示子图的相关性,标示子图的数据相关性,标示子图的内部相关性,并且并且是调谐数据相关性和内部相关性的相对重要性的参数。
[0023]另外的实施例涉及一种用于在数据集中进行关键词搜索的系统,其中该系统被配置为实行根据任何实施例的计算机实现的方法。
[0024]另外的实施例涉及一种计算机程序,其中该计算机程序包括计算机可读指令,该计算机可读指令当由计算机、特别是根据实施例的系统的计算机执行时,使得该计算机执行根据任何实施例的方法。
[0025]另外的实施例涉及在基于知识图的文本丰富中使用根据实施例的方法和/或根据实施例的系统,其中诸如新闻文章或报告的文档中的单词或短语用来自给定背景知识图的类型注释,链接到知识图的顶点。为了有效地丰富文档,子图应该与文档内容相关。
[0026]先前的方法使用简单的基于单词的度量来计算子图与文档的相关性。这例如在 Viswanathan和Krish namurthi Ilango的Ranking semantic relationships between two entities using personalization in context specification(Inf. Sci., 207:35

49, 2012)中被公开。
[0027]根据所公开的方法,文档的丰富以基于实体的相关性为基础,并且因此可以利用本体知识。
[0028]另外有利的实施例从以下描述和附图导出。在附图中图1描绘了根据实施例的用于关键词搜索的计算机实现的方法的示意性视图;图2描绘了根据实施例的知识图的示意性视图,并且图3描绘了根据实施例的用于关键词搜索的系统的示意性视图。
[0029]图1涉及用于在数据集Q中进行关键词搜索的计算机实现的方法100。数据集Q的数据q由知识图KG表示,其中知识图KG包括表示数据集Q的实体的顶点v和表示所述实体之间的关系的边e。
[0030]图2给出了知识图KG的示例性呈现。知识图KG可以通过描述实体(例如现实世界的实体)及其关系来用于基于图的知识表示。数据集Q的数据q在知识图KG中被表示。知识图可以包括除数据集Q的数据q之外的附加信息。数据集Q本身例如是包括单词或短语的文本文档。例如,文档是新闻文章或报告,其用来自给定背景知识图的类型进行注释,链接到知识图的顶点。每个实体v用它的类型进行注释,该类型是在本体中定义的类别,由标示。中的类别构成归类层次。
[0031]根据公开的实施例,方法100包括以下步骤:提供110连接关键词查询的至少两个实体v的知识图KG的子图的集合;基于每个子图与数据集Q的相关性(称为数据相关性)和每个子图的实体v彼此的相关性(称为内部相关性)两者来计算120每个子图的相关性,以及根据子图的集合中的子图的相关性对子图进行排序130。
[0032]根据方法100的优选实施例,方法100进一步包括计算子图与数据集Q的数据相关性的步骤140。
[0033]根据方法100的优选实施例,基于数据集Q的实体v与子图的实体v对之间的相关度,计算140子图与数本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.用于在数据集(Q)中进行关键词搜索的计算机实现的方法(100),其中数据集(Q)的数据(q)由知识图(KG)表示,其中知识图(KG)包括表示数据集(Q)的实体(v)的顶点(v)和表示所述实体(v)之间的关系的边(e),所述方法(100)包括以下步骤提供(110)连接关键词查询的至少两个实体(v)的知识图(KG)的子图()的集合;基于每个子图()与数据集(Q)的相关性()(称为数据相关性)和每个子图()的实体(v)彼此的相关性()(称为内部相关性)两者来计算(120)每个子图()的相关性(,和根据子图()的集合中的子图()的相关性(对子图()进行排序(130)。2.根据权利要求1所述的计算机实现的方法(100),其中所述方法(100)进一步包括计算(140)数据相关性()的步骤和/或计算(150)内部相关性()的步骤。3.根据前述权利要求中任一项所述的计算机实现的方法(100),其中子图()与数据集(Q)的数据相关性()是基于数据集(Q)的实体(v)与子图()的实体(v)的对之间的相关度(r)来计算的。4.根据权利要求3所述的计算机实现的方法(100),其中,基于所述实体(v)的类别的相似度、特别是类别类型,计算数据集(Q)的实体(v)和子图()的实体(v)之间的相关度(r)。5.根据权利要求3和4中任一项所述的计算机实现的方法(100),其中,通过计算数据集(Q)的实体(v)与子图()的实体(v)的对之间的平均相关度(r)来计算数据相关性(),其中,平均相关度(r)...

【专利技术属性】
技术研发人员:E
申请(专利权)人:罗伯特
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1