识别知识图数据结构中的冗余节点制造技术

技术编号：21771818 阅读：113 留言：0更新日期：2019-08-03 21:36

提供了用于消除知识图中的冗余节点的方法、计算机系统和计算机程序产品。通过确定具有相似结构的两个节点，对知识图执行结构分析。通过确定潜在冗余节点的搜索结果相关性，执行经验分析，搜索结果相关性包括从对知识图的不同的搜索查询产生的搜索结果节点的相关性或者由于在潜在冗余节点的子树中的所选择的搜索结果节点所导致的搜索结果的相关性。将结构分析和经验分析的结果合并，以产生两个节点的冗余置信水平。将两个节点中的一个确定为冗余。从知识图中移除两个冗余节点中的一个。

Recognition of Redundant Nodes in Knowledge Graph Data Structure

全部详细技术资料下载

【技术实现步骤摘要】
识别知识图数据结构中的冗余节点
本专利技术一般地涉及知识图的优化，更具体地，涉及知识图中的冗余节点的消除。
技术介绍
大数量的数据、特别是非结构化数据的管理继续成为企业的困扰。以允许快速可靠访问的方式存储和管理专业技术知识仍然很困难。近来，认知计算知识图被用于存储和处理信息。知识图包括事实，其可以从企业内部和外部的各种来源收集，并且可以存储在知识图网格(mesh)的节点上。节点典型地通过边(edge)(也被称为链路(link))连接，其代表单个节点之间的关系。知识图的可用性的关键因素是可用的节点数。大的知识图、象那些由在线百科全书或者搜索引擎使用的知识图可能会包含超过上亿个节点。除了需要大量快速磁盘存储之外，如果太多节点需要处理，搜索性能会下降。实际上，在这种知识图中可能会存在太多的潜在地冗余的节点。经验表明，冗余节点(或者更好一些，是带有冗余内容的节点)随着时间的推移被集成在知识图中。冗余节点可能包含相同或者接近相同的信息。例如：在一个开放式的百科全书中，几个作者会生成覆盖(几乎)同一主题的条目，但对该条目使用了(稍微)不同的名称。潜在的冗余并不明显。或者，在因特网上爬取的搜索引擎自然地提取很多冗余信息，导致在该搜索引擎使用的知识图中的冗余条目。因此，以节点数度量的话，知识图的大小会比实现其目的所需要的大。目前，找到这些冗余主要通过手工进行，或者需要非常大量的计算能力，以便在知识图的单个节点之间进行语义比较。
技术实现思路
根据本专利技术的各个方面，提供了用于消除知识图中的冗余节点的方法、计算机系统和计算机程序产品。通过确定具有相似结构的两个节点，可以对知识...

【技术保护点】
1.一种用于消除知识图中的冗余节点的方法，所述方法包括：通过确定两个节点具有相似结构，执行知识图的结构分析，所述两个节点的所述相似结构由下列结构元素中的一个或多个的相似性指示：关联模式，图中心性，或图同构；通过确定潜在冗余节点的搜索结果相关性，执行经验分析，所述搜索结果相关性包括从对所述知识图的不同的搜索查询产生的搜索结果节点的相关性或者由于在所述潜在冗余节点的子树中的所选择的搜索结果节点所导致的搜索结果的相关性；将所述结构分析和所述经验分析的结果合并，以产生所述两个节点的冗余置信水平；如果所述冗余置信水平超过一个置信水平阈值，则将所述两个节点中的一个确定为冗余；以及从所述知识图中移除所述确定为冗余的节点。

【技术特征摘要】
2018.01.26 US 15/880,6401.一种用于消除知识图中的冗余节点的方法，所述方法包括：通过确定两个节点具有相似结构，执行知识图的结构分析，所述两个节点的所述相似结构由下列结构元素中的一个或多个的相似性指示：关联模式，图中心性，或图同构；通过确定潜在冗余节点的搜索结果相关性，执行经验分析，所述搜索结果相关性包括从对所述知识图的不同的搜索查询产生的搜索结果节点的相关性或者由于在所述潜在冗余节点的子树中的所选择的搜索结果节点所导致的搜索结果的相关性；将所述结构分析和所述经验分析的结果合并，以产生所述两个节点的冗余置信水平；如果所述冗余置信水平超过一个置信水平阈值，则将所述两个节点中的一个确定为冗余；以及从所述知识图中移除所述确定为冗余的节点。2.如权利要求1所述的方法，其中，所述关联模式由下列确定：产生节点标识符、直接邻居和次级邻居的排序列表；如果两个进一步的节点都链接到第三个节点或者如果所述两个进一步的节点都不链接到第三个节点时，将所述两个进一步的节点确定为相似；通过对所述两个进一步的节点的所有关联施加逻辑运算，确定所述两个进一步的节点之间的关联相似性分数值；以及确定具有所述关联相似性分数值的所述两个进一步的节点的结构冗余值S是否高于一个结构冗余置信阈值水平。3.如权利要求1所述的方法，其中，通过确定直接或间接链接到所述节点直至一个深度值的边的个数，确定节点的中心性值C。4.如权利要求3所述的方法，进一步包括：以所述深度值1开始，并且当有两个以上的节点具有所述相同的中心性值时；将所述深度值增加1；以及当所述深度值等于一个预先限定的最大深度值时，停止所述中心性的所述确定。5.如权利要求4所述的方法，进一步包括：确定两个节点是否具有高于一个预先限定的中心性阈值的中心性值，其中所述两个节点的所述预先限定的深度是相同的；由下式确定所述两个节点周围的区域的同构等级RR＝(1/|isoMN2-isoMN1+ε|)...

【专利技术属性】
技术研发人员：A吉奥瓦尼尼，TU谢德勒，E鲁格，T斯内尔格罗夫，S拉维扎，F格拉夫，
申请(专利权)人：国际商业机器公司，
类型：发明
国别省市：美国,US

全部详细技术资料下载我是这个专利的主人