当前位置: 首页 > 专利查询>湖南大学专利>正文

分布式知识图谱查询方法、装置及存储介质制造方法及图纸

技术编号:32574645 阅读:26 留言:0更新日期:2022-03-09 17:03
本申请提供一种分布式知识图谱查询方法及相关设备,可以提高针对分布式知识图谱查询的查询效率。该方法包括:第一设备获取用户输入的目标查询语句;第一设备对目标查询语句进行处理,得到目标查询图;第一设备对目标查询图进行线性分割,以得到N个查询子树;第一设备将N个查询子树分配至多个第二设备,以使得第二设备根据目标查询子树从数据库中进行检索过滤,以得到目标候选结果集,并根据目标候选结果集从第一设备所对应的多个第二设备中获取对应的匹配候选结果集,且将第一候选结果集与所述匹配候选结果集进行匹配,以得到配对结果,且返回配对结果;第一设备将多个第二设备中每个第二设备所对应的配对结果进行合并联接,得到最终结果集。得到最终结果集。得到最终结果集。

【技术实现步骤摘要】
分布式知识图谱查询方法、装置及存储介质


[0001]本申请属于查询领域,特别涉及一种分布式知识图谱查询方法、装置及存储介质。

技术介绍

[0002]知识图谱的查询需求有重要的现实意义,现有的知识检索方式重点在根据关键字的查询,而关键字的查询往往缺失了语义中重要的结构信息,如查找“家乡在福建并在湖南工作的人员”以关键字的形式则为“家乡”,“福建”,“湖南”,“工作”,“人员”等作为查询;其中不同关键字之间的关系丢失引入了不可避免的歧义,例如上述关键字集也能理解为“家乡在湖南并在福建工作的人员”,造成了实际的错误。知识图谱的查询不仅关注关键字内容,也关注不同关键字之间的逻辑关联和交互。
[0003]随着大数据时代的不断发展,现实需要处理的知识数据规模庞大,单机的模式难以处理大规模知识图谱数据的查询,因此需要分布式的集群来提高处理能力。已有的方法核心均是通过将大规模的图数据分割成多份,每份分布到不同机器处理,最后合并结果。这些方式的问题在于两点,

知识图谱合并结果庞大,远远超过最终结果本身,分布式合并阶段将带来大量的数据传递开销;

并行仅局限在各个机器之间,而在合并阶段并没有实现良好的并行。

技术实现思路

[0004]本申请提供一种分布式知识图谱查询方法、装置及存储介质,通过BFS的访问模式让第二设备充分并行联接同时第一设备进行全局联接,使得联接过程足够充分,从而使得能够在存在通信延迟开销的情况下仍然保持足够高的查询效率。
[0005]本申请第一方面提供了一种分布式知识图谱查询方法,包括:
[0006]第一设备获取用户输入的目标查询语句;
[0007]所述第一设备对所述目标查询语句进行处理,得到目标查询图;
[0008]所述第一设备对所述目标查询图进行线性分割,以得到N个查询子树,其中,N为大于或等于2的整数;
[0009]所述第一设备将所述N个查询子树分配至多个第二设备,以使得第二设备根据目标查询子树从数据库中进行检索过滤,以得到目标候选结果集,并根据所述目标候选结果集从所述第一设备所对应的多个第二设备中获取对应的匹配候选结果集,且将所述第一候选结果集与所述匹配候选结果集进行匹配,以得到配对结果,且返回所述配对结果,其中,所述第二设备为所述多个第二设备中的任一第二设备,所述目标查询子树为分配至所述第二设备的查询子树;
[0010]所述第一设备将所述多个第二设备中每个第二设备所对应的配对结果进行合并联接,得到最终结果集。
[0011]本申请第二方面提供了一种分布式知识图谱查询方法,包括:
[0012]第二设备接收第一设备分配的目标查询子树,所述目标查询子树为所述第一设备
对目标查询图进行线性分割得到的N个查询子树中的任一查询子树,所述目标查询图为所述第一设备获取到用户所输入的目标查询语句进行处理得到的,其中,N为大于或等于2的整数;
[0013]所述第二设备根据所述目标查询子树从数据库中进行检索过滤,以得到目标候选结果集;
[0014]所述第二设备根据所述目标候选结果集从所述第一设备所对应的多个第二设备中获取对应的匹配候选结果集;
[0015]所述第二设备将所述目标候选结果集与所述匹配候选结果集进行匹配,以得到配对结果;
[0016]所述第二设备将所述配对结果发送至所述第一设备,以使得所述第一设备将从所述多个第二设备获取的配对结果进行合并联接,得到最终结果集。
[0017]本申请第三方面提供了一种设备,所述设备为第一设备,包括:
[0018]接收单元,用于获取用户输入的目标查询语句;
[0019]处理单元,用于对所述目标查询语句进行处理,得到目标查询图;
[0020]分割单元,用于对所述目标查询图进行线性分割,以得到N个查询子树,其中,N为大于或等于2的整数;
[0021]分配单元,用于将所述N个查询子树分配至多个第二设备,以使得第二设备根据目标查询子树从数据库中进行检索过滤,以得到目标候选结果集,并根据所述目标候选结果集从所述第一设备所对应的多个第二设备中获取对应的匹配候选结果集,且将所述第一候选结果集与所述匹配候选结果集进行匹配,以得到配对结果,且返回所述配对结果,其中,所述第二设备为所述多个第二设备中的任一第二设备,所述目标查询子树为分配至所述第二设备的查询子树;
[0022]合并单元,用于将所述多个第二设备中每个第二设备所对应的配对结果进行合并联接,得到最终结果集。
[0023]本申请第四方面提供了一种设备,所述设备为第二设备,包括:
[0024]接收单元,用于接收第一设备分配的目标查询子树,所述目标查询子树为所述第一设备对目标查询图进行线性分割得到的N个查询子树中的任一查询子树,所述目标查询图为所述第一设备获取到用户所输入的目标查询语句进行处理得到的,其中,N为大于或等于2的整数;
[0025]检索单元,用于根据所述目标查询子树从数据库中进行检索过滤,以得到目标候选结果集;
[0026]获取单元,用于根据所述目标候选结果集从所述第一设备所对应的多个第二设备中获取对应的匹配候选结果集;
[0027]匹配单元,用于将所述目标候选结果集与所述匹配候选结果集进行匹配,以得到配对结果;
[0028]发送单元,用于将所述配对结果发送至所述第一设备,以使得所述第一设备将从所述多个第二设备获取的配对结果进行合并联接,得到最终结果集。
[0029]本申请实施例第五方面提供了一种计算机设备,其包括至少一个连接的处理器、存储器和收发器,其中,所述存储器用于存储程序代码,所述处理器用于调用所述存储器中
的程序代码来执行上述任一方面所述的分布式知识图谱查询方法的步骤。
[0030]本申请实施例第四方面提供了一种计算机存储介质,其包括指令,当其在计算机上运行时,使得计算机执行上述任一方面所述的分布式知识图谱查询方法的步骤。
[0031]相对于相关技术,本申请提供的实施例中,通过BFS的访问模式让第二设备充分并行联接同时第一设备进行全局联接,使得联接过程足够充分,从而使得能够在存在通信延迟开销的情况下仍然保持足够高的查询效率。
【附图说明】
[0032]图1为本申请实施例提供的RDF数据的示意图;
[0033]图2为本申请实施例提供的查询子图的示意图;
[0034]图3为本申请实施例提供的分布式知识图谱查询方法的实施例示意图;
[0035]图4为本申请实施例提供的ID分配的MapReduce流程示意图;
[0036]图5为本申请实施例提供的生成顶点基础编码的流程示意图;
[0037]图6为本申请实施例提供的一步邻居环境特征示意图;
[0038]图7为本申请实施例提供的二步邻居环境特征示意图;
[0039]图8为本申请实施例提供的分布式层级聚类构建位图树的示意图;
[0040]图9为本申请实施例本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种分布式知识图谱查询方法,其特征在于,包括:第一设备获取用户输入的目标查询语句;所述第一设备对所述目标查询语句进行处理,得到目标查询图;所述第一设备对所述目标查询图进行线性分割,以得到N个查询子树,其中,N为大于或等于2的整数;所述第一设备将所述N个查询子树分配至多个第二设备,以使得第二设备根据目标查询子树从数据库中进行检索过滤,以得到目标候选结果集,并根据所述目标候选结果集从所述第一设备所对应的多个第二设备中获取对应的匹配候选结果集,且将所述第一候选结果集与所述匹配候选结果集进行匹配,以得到配对结果,且返回所述配对结果,其中,所述第二设备为所述多个第二设备中的任一第二设备,所述目标查询子树为分配至所述第二设备的查询子树;所述第一设备将所述多个第二设备中每个第二设备所对应的配对结果进行合并联接,得到最终结果集。2.根据权利要求1所述的方法,其特征在于,所述第一设备对所述目标查询语句进行处理,得到目标查询图包括:所述第一设备通过MapReduce对所述目标查询语句进行处理,得到所述目标查询语句所对应的实体以及边;所述第一设备对所述目标查询语句所对应的实体进行编码,得到所述目标查询语句所对应实体的初始基础编码;所述第一设备根据所述目标查询语句所对应的边确定所述目标查询语句所对应实体的近邻拓扑编码;所述第一设备根据所述初始基础编码以及所述近邻拓扑编码构建所述目标查询图。3.根据权利要求2所述的方法,其特征在于,所述第一设备根据所述初始基础编码以及所述近邻拓扑编码构建所述目标查询图包括:步骤1、所述第一设备将随机从所述目标查询语句所对应实体中选取的K个实体确定为初始簇中心,其中,K为大于或等于2的整数;步骤2、所述第一设备根据所述K个实体中每个实体的初始基础编码以及所述每个实体的近邻拓扑编码对第i层进行聚类,得到Ki个簇中心,其中,i为大于或等于1的整数,且i小于所述目标查询图的层数;步骤3、所述第一设备将所述Ki个中心确定所述第i层的图顶点;步骤4、所述第一设备根据随机从所述第i层中选取的K(i+1)个顶点中每个顶点所对应实体的初始基础编码以及所述每个顶点所对应实体的近邻拓扑编码进行聚类,以得到所述目标查询图的第i+1层的K(i+1)个簇中心;步骤5、所述第一设备将所述K(i+1)个簇中心确定为所述第i+1层的图顶点;重复执行步骤4和步骤5,直至确定出所述目标查询图中所有层的图顶点为止。4.根据权利要求3所述的方法,其特征在于,所述方法还包括:所述第一设备获取目标顶点所对应实体的初始基础编码,所述目标顶点为目标层中的任一簇,所述目标层为所述目标查询图中的任一层;所述第一设备对所述目标顶点所对应实体的初始基础编码进行或操作,以得到所述目
标顶点的最终基础编码。5.根据权利要求1至4中任一项所述的方法,其特征在于,所述方法还包括:所述第一设备获取RDF数据集;所述第一设备对所述RDF数据集进行去重,得到目标RDF数据集。所述第一设备通过MapReduce对所述目标RDF数据集中每个RDF数据进行处理,得到所述每个RDF数据所对应的实体、边以及图标识;所述第一设备对所述每个RDF数据所对应的实体进行编码,得到所述每个RDF数据所对应实体的初始基础编码;所述第一设备根据所述每个RDF数据所对应的边以及所述每个RDF数据所对应实体的初始基础编码确定所述每个RDF数据的近邻拓扑编码;所述第一设备根据所述每个RDF数据所对应实体的基础编码以及所述每个RDF数据所对应实体的近邻拓扑编码进行聚类,以构建所述每个RDF数据所对应的位图树;所述第一设备分布式构建所述每个RDF数据所对应实体所对应的索引;所述第一设备将所述索引、所述位图树...

【专利技术属性】
技术研发人员:李友焕石沛凡袁知秋
申请(专利权)人:湖南大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1