识别知识图数据结构中的冗余节点制造技术

技术编号:21771818 阅读:113 留言:0更新日期:2019-08-03 21:36
提供了用于消除知识图中的冗余节点的方法、计算机系统和计算机程序产品。通过确定具有相似结构的两个节点,对知识图执行结构分析。通过确定潜在冗余节点的搜索结果相关性,执行经验分析,搜索结果相关性包括从对知识图的不同的搜索查询产生的搜索结果节点的相关性或者由于在潜在冗余节点的子树中的所选择的搜索结果节点所导致的搜索结果的相关性。将结构分析和经验分析的结果合并,以产生两个节点的冗余置信水平。将两个节点中的一个确定为冗余。从知识图中移除两个冗余节点中的一个。

Recognition of Redundant Nodes in Knowledge Graph Data Structure

【技术实现步骤摘要】
识别知识图数据结构中的冗余节点
本专利技术一般地涉及知识图的优化,更具体地,涉及知识图中的冗余节点的消除。
技术介绍
大数量的数据、特别是非结构化数据的管理继续成为企业的困扰。以允许快速可靠访问的方式存储和管理专业技术知识仍然很困难。近来,认知计算知识图被用于存储和处理信息。知识图包括事实,其可以从企业内部和外部的各种来源收集,并且可以存储在知识图网格(mesh)的节点上。节点典型地通过边(edge)(也被称为链路(link))连接,其代表单个节点之间的关系。知识图的可用性的关键因素是可用的节点数。大的知识图、象那些由在线百科全书或者搜索引擎使用的知识图可能会包含超过上亿个节点。除了需要大量快速磁盘存储之外,如果太多节点需要处理,搜索性能会下降。实际上,在这种知识图中可能会存在太多的潜在地冗余的节点。经验表明,冗余节点(或者更好一些,是带有冗余内容的节点)随着时间的推移被集成在知识图中。冗余节点可能包含相同或者接近相同的信息。例如:在一个开放式的百科全书中,几个作者会生成覆盖(几乎)同一主题的条目,但对该条目使用了(稍微)不同的名称。潜在的冗余并不明显。或者,在因特网上爬取的搜索引擎自然地提取很多冗余信息,导致在该搜索引擎使用的知识图中的冗余条目。因此,以节点数度量的话,知识图的大小会比实现其目的所需要的大。目前,找到这些冗余主要通过手工进行,或者需要非常大量的计算能力,以便在知识图的单个节点之间进行语义比较。
技术实现思路
根据本专利技术的各个方面,提供了用于消除知识图中的冗余节点的方法、计算机系统和计算机程序产品。通过确定具有相似结构的两个节点,可以对知识图执行结构分析,两个节点的相似结构由关联模式(linkagepattern)、图中心性(centrality)和/或图同构(isomorphism)的相似性指示。通过确定潜在冗余节点的搜索结果相关性(correlation),可以执行经验分析(empiricalanalysis),搜索结果相关性包括从对知识图的不同的搜索查询产生的搜索结果节点的相关性或者由于在潜在冗余节点的子树中的所选择的搜索结果节点所导致的搜索结果的相关性。将结构分析和经验分析的结果合并,以产生两个节点的冗余置信水平。如果冗余置信水平超过一个置信水平阈值,则将两个节点中的一个确定为冗余。从知识图中移除确定为冗余的节点。附图说明应该注意,这里参考不同的主题描述了本专利技术的实施例。具体地,参考方法类型权利要求描述了一些实施例,而参考诸如计算机系统和/或计算机程序产品的装置类型权利要求描述了其他实施例。然而,本领域技术人员将从以上和以下描述中了解到,除非另有通知,除了属于一种类型的主题的特征的任何组合之外,与不同主题相关的特征之间的任何组合,特别是在方法类型权利要求的特征与装置类型权利要求的特征之间的任何组合,都被认为在本文件中公开。以上限定的各方面以及本专利技术的其他方面从下文将要描述的实施例的示例中显而易见,并且参考实施例的示例进行解释,但是本专利技术不限于此。仅通过举例的方式,并参考以下附图,将描述本专利技术的优选实施例:图1示出本专利技术的一个用于消除知识图中的冗余节点的实施例的框图。图2示出一个说明如何识别具有相似直接关联的节点的实施例的框图。图3示出一个说明如何用具有相同中心性的图同构来识别节点的实施例的框图。图4示出一个说明如何识别从相似搜索和用户行动中产生经常命中的冗余节点的实施例的框图。图5示出一个说明如何通过以相同的输入值运行穿过知识图的不同路径并产生相同的结果来识别冗余节点和子树的实施例的框图。图6示出基本知识图的一部分的一个实施例的框图,其与相邻节点的表一起,用于说明节点X、Y和Z的潜在冗余。图7示出根据图3的显示连接到相同节点的三条链路的实施例的框图。图8示出根据图3的显示连接到相同节点的四条链路的实施例的框图。图9示出根据图3的显示连接到相同节点的五条链路的实施例的框图以及链路表和逻辑运算表。图10示出说明知识图中的中心性的程度的知识图的一部分的一个实施例的框图。图11示出根据图5的显示由依赖于潜在冗余节点的子树中的命中个数识别的两个潜在冗余节点的实施例的框图。图12示出用于消除知识图中的冗余节点的一个实施例的框图。图13示出根据图12的实施例的框图。具体实施方式在本说明的上下文中,可以使用以下惯例、术语和/或表达:术语“知识图”可以指代网络化数据结构,其包括在节点中代表的事实和代表节点之间的连接或链路的边。这样,知识图可以代表一个组织的所谓的非结构化数据、即事实及其语义关系的知识库。知识图常常被搜索引擎所使用。术语“冗余节点”可以指代知识图中的其内容可以由另一个节点覆盖的节点。因此,可以假设知识图的节点包括/存储知识图的事实。术语“结构分析”与经验分析相反,可以指代对特定领域中的知识图的结构元素的确定。特定领域可以以节点为中心,达到一有限深度,其中,该深度可以指代周边节点的层。例如,深度值1可以描述节点的直接邻居,即只能通过一条边到达的节点。深度值2可以表示在所讨论的节点与另一个节点之间的一个节点,即需要两条边。术语“相似结构”可以指代就节点、图像及其相应关系而言的可比较(comparable)结构,但不是相同的结构。可以通过数学原理确定该结构的元素与另一个结构相似,并且可以导出一个相似性值。如果两个结构的相似性值的差低于一个预先限定的或动态限定的阈值,则认定两个结构之间的相似性。术语“关联模式”可以指代节点、页面和其他节点之间的可识别的特征模式。可以在多个深度水平上调查关联模式。深度值越低,关联模式越相似。如果与更高深度值相比,例如,如果直接关联(路径长度=1)相同,则节点可以被识别为冗余,即,当节点被链接到相似/相同集合的节点时,将其认为是冗余的。术语“图中心性”在图论和/或网络分析中可以指代可以标识图中最重要的顶点(vertices)或可比较的节点的一个指示符。可以应用不同的中心性值确定过程(例如,通过步行结构,通过网络流动)。术语“图同构”可以指代图中的如下情况,即图中的一个节点及其周边、即特定深度的边和节点可以被映射到另一个节点以及该另一个节点的相关周边,这样,所有元素都可以彼此映射。这种映射可以是对称的。术语“经验分析”可以指代例如由用户或搜索引擎对到知识图的历史访问模式的确认。这样,可能需要存储以前的搜索结果、查询以及其他参数和元数据、例如起始点和其他展示结果(即节点)。术语“间接”、特别是“间接节点”可以指代从一个源节点开始仅仅通过一条链路或边不能到达的节点。然而,该节点可以经由一个或更多中间节点由2条或更多条边到达。所提出的本专利技术消除知识图中的冗余节点,可以提供多种好处和技术效果:如果可以识别冗余节点,可以显著减少存储知识图所需的存储总量。然而,不仅所需的存储量减少,知识图的复杂性也可以降低,因为节点的知识图中的边也是冗余的,也不再需要,因此可以消除。这也帮助减少所需的存储量。提出的方法以及相关的装置不需要对节点的内容进行任何语义比较。这可以显著减少识别冗余节点所需的计算量。本专利技术利用知识图的现有结构,而不需要依赖于单个节点的内容。实际上,只有知识图的结构被用来确定冗余节点。这个内容不可知的方法只需要大约为n的计算量,其中n代表节点的个数。并且,由两阶本文档来自技高网...

【技术保护点】
1.一种用于消除知识图中的冗余节点的方法,所述方法包括:通过确定两个节点具有相似结构,执行知识图的结构分析,所述两个节点的所述相似结构由下列结构元素中的一个或多个的相似性指示:关联模式,图中心性,或图同构;通过确定潜在冗余节点的搜索结果相关性,执行经验分析,所述搜索结果相关性包括从对所述知识图的不同的搜索查询产生的搜索结果节点的相关性或者由于在所述潜在冗余节点的子树中的所选择的搜索结果节点所导致的搜索结果的相关性;将所述结构分析和所述经验分析的结果合并,以产生所述两个节点的冗余置信水平;如果所述冗余置信水平超过一个置信水平阈值,则将所述两个节点中的一个确定为冗余;以及从所述知识图中移除所述确定为冗余的节点。

【技术特征摘要】
2018.01.26 US 15/880,6401.一种用于消除知识图中的冗余节点的方法,所述方法包括:通过确定两个节点具有相似结构,执行知识图的结构分析,所述两个节点的所述相似结构由下列结构元素中的一个或多个的相似性指示:关联模式,图中心性,或图同构;通过确定潜在冗余节点的搜索结果相关性,执行经验分析,所述搜索结果相关性包括从对所述知识图的不同的搜索查询产生的搜索结果节点的相关性或者由于在所述潜在冗余节点的子树中的所选择的搜索结果节点所导致的搜索结果的相关性;将所述结构分析和所述经验分析的结果合并,以产生所述两个节点的冗余置信水平;如果所述冗余置信水平超过一个置信水平阈值,则将所述两个节点中的一个确定为冗余;以及从所述知识图中移除所述确定为冗余的节点。2.如权利要求1所述的方法,其中,所述关联模式由下列确定:产生节点标识符、直接邻居和次级邻居的排序列表;如果两个进一步的节点都链接到第三个节点或者如果所述两个进一步的节点都不链接到第三个节点时,将所述两个进一步的节点确定为相似;通过对所述两个进一步的节点的所有关联施加逻辑运算,确定所述两个进一步的节点之间的关联相似性分数值;以及确定具有所述关联相似性分数值的所述两个进一步的节点的结构冗余值S是否高于一个结构冗余置信阈值水平。3.如权利要求1所述的方法,其中,通过确定直接或间接链接到所述节点直至一个深度值的边的个数,确定节点的中心性值C。4.如权利要求3所述的方法,进一步包括:以所述深度值1开始,并且当有两个以上的节点具有所述相同的中心性值时;将所述深度值增加1;以及当所述深度值等于一个预先限定的最大深度值时,停止所述中心性的所述确定。5.如权利要求4所述的方法,进一步包括:确定两个节点是否具有高于一个预先限定的中心性阈值的中心性值,其中所述两个节点的所述预先限定的深度是相同的;由下式确定所述两个节点周围的区域的同构等级RR=(1/|isoMN2-isoMN1+ε|)...

【专利技术属性】
技术研发人员:A吉奥瓦尼尼TU谢德勒E鲁格T斯内尔格罗夫S拉维扎F格拉夫
申请(专利权)人:国际商业机器公司
类型:发明
国别省市:美国,US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1