基于混合存储模式的分布式SPARQL查询优化方法技术

技术编号：28558722 阅读：21 留言：0更新日期：2021-05-25 17:53

本发明专利技术公开了基于混合存储模式的分布式SPARQL查询优化方法，属于知识图谱的应用，包括如下步骤：1)构建RDF数据存储模块，包括数据特征集的生成、前缀树索引的构建以及RDF数据的存储；2)构建SPARQL查询模块，包括查询解析、查询优化、查询执行。本发明专利技术实现了基于混合存储模式的分布式SPARQL查询优化方法，根据RDF原始数据，通过逻辑划分，以不同的关系形式对RDF数据进行存储，然后基于存储的模式构建了前缀树索引和数据特征集，在执行SPARQL查询的过程中基于索引和数据特征集对查询匹配进行优化，从而更有效的获取查询结果。

全部详细技术资料下载

【技术实现步骤摘要】
基于混合存储模式的分布式SPARQL查询优化方法
本专利技术属于知识图谱的应用，具体的涉及基于混合存储模式的分布式SPARQL查询优化方法。
技术介绍
近年来，随着知识图谱相关技术的发展，知识图谱数据呈现爆炸式增长，由此也引发了诸多问题。如何有效的管理大规模的知识图谱数据，对于基于知识图谱的智能问答、搜索、推荐等上层应用具有重要的影响。在语义网中主要以RDF(ResourceDescriptionFramework)数据模型来表示知识图谱数据，其主要形式为一个三元组<主语，谓语，宾语>,其中主语和宾语表示客观世界的实体，谓语描述实体之间的关系。SPARQL是由W3C推荐的标准RDF数据查询语言。通常情况下，SPARQL选择语句主要包含两部分：select子句和where子句，其中select部分包含待选择的数据，where子句部分包含用于过滤和匹配数据的条件。对于SPARQL查询而言，其本质是在知识图谱中进行子图匹配。传统的RDF数据管理方式主要是集中式管理，也就是往往以单节点的形式来存储RDF数据，当遇到问题的时采用纵向扩展的方式，通过增大节点的内存容量等来提升节点对数据的处理能力。但随着RDF数据的激增，集中式管理的方式往往不能满足真实场景的需求，存在管理效率低、扩展性能差等问题。随着大数据技术的发展，出现了众多优秀的数据处理框架和模型，近些年兴起的Spark是一款内存型引擎，其克服了传统的MapReduce模型存在过多数据I/O导致效率低下的问题。在Spark基础上存在很多优秀的模块，其中包...

【技术保护点】
1.基于混合存储模式的分布式SPARQL查询优化方法，其特征在于，包括以下步骤：/n1)构建RDF数据存储模块，包括数据特征集的生成、前缀树索引的构建以及RDF数据的存储；/n2)构建SPARQL查询模块，包括查询解析、查询优化、查询执行。/n

【技术特征摘要】
1.基于混合存储模式的分布式SPARQL查询优化方法，其特征在于，包括以下步骤：
1)构建RDF数据存储模块，包括数据特征集的生成、前缀树索引的构建以及RDF数据的存储；
2)构建SPARQL查询模块，包括查询解析、查询优化、查询执行。

2.根据权利要求1所述的基于混合存储模式的分布式SPARQL查询优化方法，其特征在于，所述的步骤1)中，构建RDF数据存储模块包括以下步骤：
1.1)基于原始三元组表数据生成数据集的基本特征信息，包括三元组的数量、不同主语的数量、不同宾语的数量、不同谓语的数量；
1.2)构建前缀树索引；
1.3)基于三元组表构建垂直划分表和宽属性表。

3.根据权利要求2所述的基于混合存储模式的分布式SPARQL查询优化方法，其特征在于，所述的步骤1.2)中，前缀树索引的构建是基于前缀树的变种进行构建的，用于SPARQL查询匹配过程中符合一定条件三元组的快速检索，避免不必要的磁盘读取操作。

4.根据权利要求2所述的基于混合存储模式的分布式SPARQL查询优化方法，其特征在于，所述的步骤1.2)中，包括构建以主语为根的前缀树索引和以宾语为根的前缀树索引；构建两个不同的前缀树索引，利用三元组中已知的主语和谓语来快速检索到宾语，或者是通过已知的宾语和谓语快速检索到对应的主语。

5.根据权利要求2所述的基于混合存储模式的分布式SPARQL查询优化方法，其特征在于，所述的步骤1.3)中，所述的垂直划分表的构建是基于三元组表中不同谓语来构建的，即含有共同谓语的三元组被划分到同一个表中，该表只有两列，分别为主语列和宾语列，表的名称对应一个谓语；所述的宽属性表的构建，是基于三元组的主语进行划分，将相同主语的元组划分为一行，三元组的宾语通过主语，谓语进行定位；对于主语和宾语中一对多的情形，使用一个集合容器，存储不同的宾语；最终使用ORC列式存储，并结合SNAPPY压缩算法，将数据存储在磁盘上。

6.根据权利要求1所述的基于混合存储模式的分布式SPARQL查询优化方法，其特征在于，所述的步骤2)中，构建SPARQL查询模块包括以下步骤：
2.1)查询解析
在执行SPARQL查询时，首先使用JenaARQ对SPARQL查询进行解析，分解成若干个待匹配的三元组；
2.2)查询优化
SPARQL查询的本质是子图匹配，在基于关系模式查找对应数据的过程中主要涉及的操作就是连接操作，连接操作涉及磁盘读写和数据的传输，代价昂贵；
2.3)查询执行
依据上一步骤中优化后的查询连接顺序，构造连接树，并采用自底向上的方式处理书中的节点；连接树中的节点代表SPARQL查询的子查询，在处理完树中所有...

【专利技术属性】
技术研发人员：冯钧，邓治国，陆佳民，
申请(专利权)人：河海大学，
类型：发明
国别省市：江苏;32

全部详细技术资料下载我是这个专利的主人