基于稀疏矩阵的RDF数据存储和查询方法技术

技术编号：20329149 阅读：13 留言：0更新日期：2019-02-13 05:45

本发明专利技术涉及数据库引擎的数据存储和查询处理领域，为充分利用真实人类社会活动关系数据的特点，将局部紧密的实体关系进行存储，提高查询效率，节省大量存储空间。本发明专利技术，基于稀疏矩阵的RDF数据存储和查询方法，步骤如下：步骤一：将原始RDF数据的字符串类型哈希编码成整数类型；步骤二：对编码后的RDF数据构建RDF立方体RDF Cube；步骤三：通过建立谓词索引采用一系列稀疏矩阵的形式来存储RDF Cube；步骤四：解析并优化SPARQL查询语句得到最优的查询计划；步骤五：基于稀疏矩阵的Join查询执行，结果输出。本发明专利技术主要应用于存储和查询处理场合。

全部详细技术资料下载

【技术实现步骤摘要】
基于稀疏矩阵的RDF数据存储和查询方法
本专利技术涉及数据库引擎的数据存储和查询处理领域。具体来说，设计了一种基于稀疏矩阵的存储模式来存储大量RDF数据，设计了一个基于稀疏矩阵乘法的Join运算执行RDF数据的查询。
技术介绍
资源描述框架(ResourceDescriptionFramework，RDF)是一种非常流行的数据模型，以三元组(subject,predicate,object)的形式来表示Web上的信息。一个RDF数据集也可以被描述为一个有向标签图，一个三元组就表示一条边，subject和object表示两个顶点，predicate表示这条边的标签。SPARQL(SPARQLProtocolandRDFQueryLanguage)是万维网联盟(WorldWideWebConsortium,W3C)推荐的标准的RDF图数据查询语言。来自于真实世界中的大规模RDF数据，比如DBpedia(一个很特殊的语义网应用范例)和YAGO(一个链接数据库)数据，它们却存在着一种重要的数据特性---“稀疏性”。RDF数据的稀疏性意味着RDF图中每个顶点的邻接点只占据整个图中顶点的很小一部分。事实上，RDF数据的稀疏性无处不在。比如在现实生活中的社会活动关系情境中，人与人之间具有不同的社会活动关系，而且在这些社会活动关系中还包含着很多复杂的实体类型数据，比如地点关联，人物关系，涉及的时间点等等。任何两个实体都可以通过某些关系进行联系在一起。我们通过数据之间的关联也能够反映出人类社会活动的变化关系，比如某地区外来人口数的变化、交通道路使用量、假期旅游地等等都可以通...

【技术保护点】
1.一种基于稀疏矩阵的RDF数据存储和查询方法，其特征是，步骤如下：步骤一：将原始RDF数据的字符串类型哈希编码成整数类型；步骤二：对编码后的RDF数据构建RDF立方体RDF Cube；步骤三：通过建立谓词索引，采用一系列稀疏矩阵的形式来存储RDF Cube；步骤四：解析并优化SPARQL查询语句得到最优的查询计划；步骤五：基于稀疏矩阵的Join查询执行，结果输出。

【技术特征摘要】
1.一种基于稀疏矩阵的RDF数据存储和查询方法，其特征是，步骤如下：步骤一：将原始RDF数据的字符串类型哈希编码成整数类型；步骤二：对编码后的RDF数据构建RDF立方体RDFCube；步骤三：通过建立谓词索引，采用一系列稀疏矩阵的形式来存储RDFCube；步骤四：解析并优化SPARQL查询语句得到最优的查询计划；步骤五：基于稀疏矩阵的Join查询执行，结果输出。2.如权利要求1所述的基于稀疏矩阵的RDF数据存储和查询方法，其特征是，步骤四具体地：对于给定的一个RDF数据的SPARQL查询语句，将其解析成一个查询图，然后再根据查询图中每条边的统计数据进行排序，在保证边与边连接的情况下重构查询执行计划。3.如权利要求2所述的基于稀疏矩阵的RDF数据存储和查询方法，其特征是，步骤四进一步具体地：输入的是一个SPARQL查询语句，其形式是一个L＝(e1,e2,...,en)，包含这个查询语句的所有边，首先初始化一个记为N的点集合来记录选取的边的点，并且按照L中所有的边的统计数据对L进行排序；然后在排序后的查询语句L中选取第一条边加入Q中，并将所选取的边的点加入N中，并更新L；只要L不为空，依次循环的从L中选取一条统计数小并且和之前已选边有关联的边加入Q中，所选边的点∈N并将该所选边的点加入到N中，更新L；最终得...

【专利技术属性】
技术研发人员：张小旺，张明月，冯志勇，
申请(专利权)人：天津大学，
类型：发明
国别省市：天津,12

全部详细技术资料下载我是这个专利的主人