分布式知识图谱查询方法、装置及存储介质制造方法及图纸

技术编号：32574645 阅读：26 留言：0更新日期：2022-03-09 17:03

本申请提供一种分布式知识图谱查询方法及相关设备，可以提高针对分布式知识图谱查询的查询效率。该方法包括：第一设备获取用户输入的目标查询语句；第一设备对目标查询语句进行处理，得到目标查询图；第一设备对目标查询图进行线性分割，以得到N个查询子树；第一设备将N个查询子树分配至多个第二设备，以使得第二设备根据目标查询子树从数据库中进行检索过滤，以得到目标候选结果集，并根据目标候选结果集从第一设备所对应的多个第二设备中获取对应的匹配候选结果集，且将第一候选结果集与所述匹配候选结果集进行匹配，以得到配对结果，且返回配对结果；第一设备将多个第二设备中每个第二设备所对应的配对结果进行合并联接，得到最终结果集。得到最终结果集。得到最终结果集。

全部详细技术资料下载

【技术实现步骤摘要】
分布式知识图谱查询方法、装置及存储介质

[0001]本申请属于查询领域，特别涉及一种分布式知识图谱查询方法、装置及存储介质。

技术介绍

[0002]知识图谱的查询需求有重要的现实意义，现有的知识检索方式重点在根据关键字的查询，而关键字的查询往往缺失了语义中重要的结构信息，如查找“家乡在福建并在湖南工作的人员”以关键字的形式则为“家乡”，“福建”，“湖南”，“工作”，“人员”等作为查询；其中不同关键字之间的关系丢失引入了不可避免的歧义，例如上述关键字集也能理解为“家乡在湖南并在福建工作的人员”，造成了实际的错误。知识图谱的查询不仅关注关键字内容，也关注不同关键字之间的逻辑关联和交互。
[0003]随着大数据时代的不断发展，现实需要处理的知识数据规模庞大，单机的模式难以处理大规模知识图谱数据的查询，因此需要分布式的集群来提高处理能力。已有的方法核心均是通过将大规模的图数据分割成多份，每份分布到不同机器处理，最后合并结果。这些方式的问题在于两点，
①
知识图谱合并结果庞大，远远超过最终结果本身，分布式合并阶段将带来大量的数据传递开销；
②
并行仅局限在各个机器之间，而在合并阶段并没有实现良好的并行。

技术实现思路

[0004]本申请提供一种分布式知识图谱查询方法、装置及存储介质，通过BFS的访问模式让第二设备充分并行联接同时第一设备进行全局联接，使得联接过程足够充分，从而使得能够在存在通信延迟开销的情况下仍然保持足够高的查询效率。
[0005]本申...

【技术保护点】

【技术特征摘要】
1.一种分布式知识图谱查询方法，其特征在于，包括：第一设备获取用户输入的目标查询语句；所述第一设备对所述目标查询语句进行处理，得到目标查询图；所述第一设备对所述目标查询图进行线性分割，以得到N个查询子树，其中，N为大于或等于2的整数；所述第一设备将所述N个查询子树分配至多个第二设备，以使得第二设备根据目标查询子树从数据库中进行检索过滤，以得到目标候选结果集，并根据所述目标候选结果集从所述第一设备所对应的多个第二设备中获取对应的匹配候选结果集，且将所述第一候选结果集与所述匹配候选结果集进行匹配，以得到配对结果，且返回所述配对结果，其中，所述第二设备为所述多个第二设备中的任一第二设备，所述目标查询子树为分配至所述第二设备的查询子树；所述第一设备将所述多个第二设备中每个第二设备所对应的配对结果进行合并联接，得到最终结果集。2.根据权利要求1所述的方法，其特征在于，所述第一设备对所述目标查询语句进行处理，得到目标查询图包括：所述第一设备通过MapReduce对所述目标查询语句进行处理，得到所述目标查询语句所对应的实体以及边；所述第一设备对所述目标查询语句所对应的实体进行编码，得到所述目标查询语句所对应实体的初始基础编码；所述第一设备根据所述目标查询语句所对应的边确定所述目标查询语句所对应实体的近邻拓扑编码；所述第一设备根据所述初始基础编码以及所述近邻拓扑编码构建所述目标查询图。3.根据权利要求2所述的方法，其特征在于，所述第一设备根据所述初始基础编码以及所述近邻拓扑编码构建所述目标查询图包括：步骤1、所述第一设备将随机从所述目标查询语句所对应实体中选取的K个实体确定为初始簇中心，其中，K为大于或等于2的整数；步骤2、所述第一设备根据所述K个实体中每个实体的初始基础编码以及所述每个实体的近邻拓扑编码对第i层进行聚类，得到Ki个簇中心，其中，i为大于或等于1的整数，且i小于所述目标查询图的层数；步骤3、所述第一设备将所述Ki个中心确定所述第i层的图顶点；步骤4、所述第一设备根据随机从所述第i层中选取的K(i+1)个顶点中每个顶点所对应实体的初始基础编码以及所述每个顶点所对应实体的近邻拓扑编码进行聚类，以得到所述目标查询图的第i+1层的K(i+1)个簇中心；步骤5、所述第一设备将所述K(i+1)个簇中心确定为所述第i+1层的图顶点；重复执行步骤4和步骤5，直至确定出所述目标查询图中所有层的图顶点为止。4.根据权利要求3所述的方法，其特征在于，所述方法还包括：所述第一设备获取目标顶点所对应实体的初始基础编码，所述目标顶点为目标层中的任一簇，所述目标层为所述目标查询图中的任一层；所述第一设备对所述目标顶点所对应实体的初始基础编码进行或操作，以得到所述目
标顶点的最终基础编码。5.根据权利要求1至4中任一项所述的方法，其特征在于，所述方法还包括：所述第一设备获取RDF数据集；所述第一设备对所述RDF数据集进行去重，得到目标RDF数据集。所述第一设备通过MapReduce对所述目标RDF数据集中每个RDF数据进行处理，得到所述每个RDF数据所对应的实体、边以及图标识；所述第一设备对所述每个RDF数据所对应的实体进行编码，得到所述每个RDF数据所对应实体的初始基础编码；所述第一设备根据所述每个RDF数据所对应的边以及所述每个RDF数据所对应实体的初始基础编码确定所述每个RDF数据的近邻拓扑编码；所述第一设备根据所述每个RDF数据所对应实体的基础编码以及所述每个RDF数据所对应实体的近邻拓扑编码进行聚类，以构建所述每个RDF数据所对应的位图树；所述第一设备分布式构建所述每个RDF数据所对应实体所对应的索引；所述第一设备将所述索引、所述位图树...

【专利技术属性】
技术研发人员：李友焕，石沛凡，袁知秋，
申请(专利权)人：湖南大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人