当前位置: 首页 > 专利查询>天津大学专利>正文

面向大规模RDF数据的高效语义索引的构建方法技术

技术编号:12929228 阅读:39 留言:0更新日期:2016-02-29 00:19
本发明专利技术公开了一种面向大规模RDF数据的高效语义索引的构建方法,包括以下步骤:步骤1.配置开源分布式RDF数据库,作为存储RDF数据的持久化数据库;步骤2.区分RDF数据库中的TBox数据和ABox数据;步骤3.生成TBox数据中的类之间的子父语义关系索引;步骤4.生成TBox数据中的属性之间的子父子父语义关系索引;步骤5.将上述生成的语义关系融入到RDF数据中,包括原本的TBox数据和ABox数据,构成新的RDF数据;步骤6.将生成的新的RDF数据持久化到配置好的RDF数据库中。本发明专利技术针对的是大规模RDF数据的查询和推理,最终提供了一种新的构建RDF数据语义关系索引的方案,从而在保证查询效率的同时能够支持较为丰富的离线推理。

【技术实现步骤摘要】
【专利摘要】本专利技术公开了一种面向大规模RDF数据的高效语义索引的构建方法,包括以下步骤:步骤1.配置开源分布式RDF数据库,作为存储RDF数据的持久化数据库;步骤2.区分RDF数据库中的TBox数据和ABox数据;步骤3.生成TBox数据中的类之间的子父语义关系索引;步骤4.生成TBox数据中的属性之间的子父子父语义关系索引;步骤5.将上述生成的语义关系融入到RDF数据中,包括原本的TBox数据和ABox数据,构成新的M)F数据;步骤6.将生成的新的RDF数据持久化到配置好的RDF数据库中。本专利技术针对的是大规模RDF数据的查询和推理,最终提供了一种新的构建RDF数据语义关系索引的方案,从而在保证查询效率的同时能够支持较为丰富的离线推理。【专利说明】面向大规模RDF数据的高效语义索引的构建方法
本专利技术涉及RDF数据库领域,具体来说,涉及RDF数据库中数据的有效组织以及推 理。
技术介绍
随着Web的发展,从最初的Webl. 0时代步入了当今的Web2. 0时代,并在逐渐进入 一个新的阶段--Web3. 0时代,也即语义Web时代。语义Web的概念由蒂姆?伯纳斯-李 (Tim Berners-Lee)于20世纪90年代提出,主要是为了解决计算机无法理解网络上的文档 的含义这样一个问题。其主要技术点在于,为Web上的资源通过给其标注相应的语义信息 来让计算机进行理解。计算机能够理解网络上的资源,使得人机互通更进一步,从而使整个 Web变成一个更加易用和智能的Web。 随着语义Web的发展,对网络资源的语义信息的标准化工作也逐步完成。RDF 就是用来描述网络资源的语义信息的一种标准化方案。RDF(Resource Description Framework),是语义Web的一种标准数据模型,用来构建和表示机器可理解的数据,是典型 的图结构数据。如今RDF数据呈几何量级增长,已经达到百亿级三元组规模。这样大规模 的RDF数据的高效存储和查询工作已经成为语义Web研究的一个重点问题。 语义Web中,RDF数据的访问主要分为查询和推理两部分。由于数据本身的特点, RDF数据的查询涉及到图的连接等操作,具有较高的复杂度,因此需要底层强大的索引机制 支持以便进行高效查询。当前RDF数据的索引模型主要有三元组索引,倒排索引和关键字 索引等,支持SPARQL等查询。同时,由于RDF数据包含一定的语义信息,是用来构建机器可 理解的信息的标准,因此可以用推理机对其进行推理查询。通过推理,可以丰富查询的结果 集。但是,通过对RDF数据的相关存储和查询工作的研究发现,RDF数据的查询和推理相关 工作一直都是分开的。针对查询的工作主要围绕优化索引结构、空间代价换取时间代价等 问题展开, 针对以上问题,有必要针对RDF数据的有效组织以及在其上的推理进行有效融 合,将RDF中所蕴含的语义信息固化到底层的索引机制中去,这样,即支持通过RDF的索引 结构对RDF数据进行高效的查询之外,还可以通过索引结构携带的语义信息进行推理,从 而支持在查询的时候的推理工作,实现离线推理,极大丰富查询结果。
技术实现思路
为了克服上述现有技术存在的问题,本专利技术提出了一种面向大规模RDF数据的高 效语义索引的构建方法,在现有的RDF三元组高效索引的基础上,通过融入RDFS层的语义 信息,来构建新的支持语义推理的索引结构一语义索引,并持久化到底层数据库中去,从而 支持RDF数据的高效查询以及查询时的离线推理。 本专利技术提出了一种面向大规模RDF数据的高效语义索引的构建方法,该方法包括 以下步骤: 步骤1、配置开源分布式RDF数据库,作为存储RDF数据的持久化数据库; 步骤2、区分RDF数据库中的TBox数据和ABox数据; 步骤3、生成TBox数据中的类之间的子父语义关系索引; 步骤4、生成TBox数据中的属性之间的子父子父语义关系索引;针对每一个属性, 其中:对于域,直接用Class的语义关系索引;对于range,贝U是将其中Class的部分的语义 关系索引直接用Class的语义关系索引,而非Class的range则重新进行语义关系索引的 生成; 步骤5、将上述生成的语义关系融入到RDF数据中,包括原本的TBox数据和ABox 数据,构成新的RDF数据; 步骤6、将生成的新的RDF数据持久化到配置好的RDF数据库中。 所述步骤2的生成TBox数据中的类之间的子父语义关系索引中,还具体包含以下 处理: 通过广度优先遍历从根类到叶子类的过程,来分别生成其对应的子父语义关系索 引。 所述步骤3的生成TBox数据中的属性之间的子父子父语义关系索引中,具体包含 以下处理: 通过广度优先遍历从根属性到叶子属性的过程,来分别生成对应语义关系索引。 所述步骤5的将上述生成的语义关系融入到RDF数据中,还具体包括以下处理: 根据RDF数据库中三元组数据S、P、0中的谓词来判断这条三元组的类别,如果 谓词是rdf:type,则表示S是个体,则将其与0的语义关系索引进行绑定;如果谓词是 subClassOf,则表明S和0都是类,则将它们分别和各自的父类语义关系索引绑定;如果谓 词是subProperty,则表明S和0都是属性,则将它们分别和各自的父属性语义索引码绑定; 剩余的谓词则是自定义属性,分别将S、P和0与各自对应的语义关系索引绑定;所谓自定义 属性即数据集中由用户通过继承自根属性(如〇wl:0bjectProperty)而自定义的属性(如 dbpedia:influenced). 与现有技术相比,本专利技术具有以下有益效果: 本专利技术针对的是大规模RDF数据的查询和推理,最终提供了一种新的构建RDF数 据语义关系索引的方案,从而在保证查询效率的同时能够支持较为丰富的离线推理。 【专利附图】【附图说明】 图1是本专利技术中所用到的数据的示例图; 图2是本专利技术的核心部分,语义索引的结构示例图; 图3是本专利技术的整体架构图,也即流程图。 【具体实施方式】 下面结合附图对本专利技术作进一步详细说明。 步骤1、配置开源分布式RDF数据库Bigdata,作为存储RDF数据的持久化数据库; 步骤2、区分RDF数据库中的TBox数据和ABox数据,便于进行编码以创建语义索 引; 步骤3、根据ORDPath编码规则,对TBox数据中的Class的子父关系进行编码,体 现类之间的子父语义关系; 步骤4、根据ORDPath编码规则,对TBox数据中的Property的子父类关系进行编 码,体现属性之间的子父语义关系; 步骤5、根据ORDPath编码规则,针对每一个Property的domain进行编码;由于 在RDF数据中,一个Property的domain全是Class,因此针对domain的编码则是直接用到 针对Class的编码; 步骤6、根据ORDPath编码规则,针对每一个Property的range进行编码;由于 在RDF数据中,一个Property的range可能是Class,也可能是非Class,则将range中是 Class的部分的本文档来自技高网
...

【技术保护点】
一种面向大规模RDF数据的高效语义索引的构建方法,其特征在于,该方法包括以下步骤:步骤1、配置开源分布式RDF数据库,作为存储RDF数据的持久化数据库;步骤2、区分RDF数据库中的TBox数据和ABox数据;步骤3、生成TBox数据中的类之间的子父语义关系索引;步骤4、生成TBox数据中的属性之间的子父子父语义关系索引;针对每一个属性,其中:对于域,直接用Class的语义关系索引;对于range,则是将其中Class的部分的语义关系索引直接用Class的语义关系索引,而非Class的range则重新进行语义关系索引的生成;步骤5、将上述生成的语义关系融入到RDF数据中,包括原本的TBox数据和ABox数据,构成新的RDF数据;步骤6、将生成的新的RDF数据持久化到配置好的RDF数据库中。

【技术特征摘要】

【专利技术属性】
技术研发人员:魏亚洲冯志勇王鑫饶国政
申请(专利权)人:天津大学
类型:发明
国别省市:天津;12

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1