一种基于领域本体的油气大数据查询和存储方法技术

技术编号：21913927 阅读：27 留言：0更新日期：2019-08-21 12:25

本发明专利技术公开了一种基于领域本体的油气大数据查询和存储方法，该方法包含：通过领域本体内的概念及概念间的关系进行形式化统一表示完成本体的构建；以三元组和五元组的数据结构对多个领域中的知识和概念进行形式化的描述，实现RDF有向图非结构化存储；通过建立系列R2G结构化映射规则完成RDF有向图到Neo4j数据结构的映射，然后在Neo4j数据结构的基础上构建Key‑Neo4j分布式存储模型，实现Neo4j数据库的分布式存储；形成了适用于石油领域本体的双层索引检索法，最后输出占用的存储空间大小和数据查询时间，实现了大数据环境下的海量资源的正常存储与动态扩展。本发明专利技术的方法能够有效地解决领域本体存储时的阻抗不匹配问题，极大地缓解了存储空间的负载压力。

A Method of Oil and Gas Big Data Query and Storage Based on Domain Ontology

全部详细技术资料下载

【技术实现步骤摘要】
一种基于领域本体的油气大数据查询和存储方法
本专利技术属于计算机油气大数据领域，涉及一种基于领域本体的油气大数据查询和存储方法。
技术介绍
石油领域本体对石油勘探开发领域中二十多个学科的知识概念进行了描述，同时表现了概念和属性之间的相互关系。在石油勘探开发工作中，石油本体可以完成石油勘探开发领域中多学科的知识集成和信息集成，阐明术语与术语之间的关系及其领域公理，并对它们进行了形式化描述，该领域本体可以作为一种解决石油领域中多专业之间的知识融合的模式。石油领域本体的特点可以解决石油勘探开发领域中由于多学科而导致的概念之间的不规范性、概念相对独立等问题，将石油领域各个学科之间的知识概念形成一个统一的整体，加快了石油领域电子信息化建设进程。已有的算法形如三重表法、水平分区和垂直分区等算法，三重表法将整个RDF数据存储到一个三列数据表中，每一行都分别对应RDF数据的主体资源、映射关系和客体资源，三重表法针对于小型规模的数据有着十分优越的性能，但是随着数据规模的增加，会产生大量的自连接，导致数据处理速度效率大幅度降低。水平分区方法是将所有RDF数据存储到一个表中，该表为RDF数据的每个谓词值指定一个专用列，且这个表支持多值属性，但由于稀疏属性导致大量空单元格，所以该存储方法不适用与大规模数据存储。垂直分区方法将三重表重写为n个两列表，其中n是数据中唯一属性的数量，对于指定谓词值的查询来说，执行效率高，但随着数据规模的增加，信息的检索时间将呈指数增长。以往的石油领域本体数据存储量小，选择传统关系型数据库为存储介质可以满足实际的需要，但是，由于大数据时代的到来，数据呈爆...

【技术保护点】
1.一种基于领域本体的油气大数据查询和存储方法，其特征及具体步骤如下：S1，通过领域本体内的概念及概念间的关系进行形式化统一表示，完成本体的构建；S2，以三元组t＝<s,p,o>的数据结构对多个领域中的专业知识和概念进行清晰且形式化的描述；S3，通过增加元组的数量，由多个RDF三元组数据组合构建五元组O＝{C,R,At,Rel,Ao}数据模型；S4，以图结构中的节点表示本体数据中的概念及属性，以两节点之间的边代表本体之中的对应关系，进行RDF有向图非结构化存储；S5，通过建立系列R2G结构化映射规则，实现RDF有向图到Neo4j数据结构的映射；S6，在Neo4j数据结构的基础上构建Key‑Neo4j分布式存储模型，实现Neo4j数据库的分布式存储；S7，通过创建对象索引和三元组索引机制，形成适用于石油领域本体的双层索引检索法；S8，输出占用的存储空间大小和数据查询时间。

【技术特征摘要】
1.一种基于领域本体的油气大数据查询和存储方法，其特征及具体步骤如下：S1，通过领域本体内的概念及概念间的关系进行形式化统一表示，完成本体的构建；S2，以三元组t＝<s,p,o>的数据结构对多个领域中的专业知识和概念进行清晰且形式化的描述；S3，通过增加元组的数量，由多个RDF三元组数据组合构建五元组O＝{C,R,At,Rel,Ao}数据模型；S4，以图结构中的节点表示本体数据中的概念及属性，以两节点之间的边代表本体之中的对应关系，进行RDF有向图非结构化存储；S5，通过建立系列R2G结构化映射规则，实现RDF有向图到Neo4j数据结构的映射；S6，在Neo4j数据结构的基础上构建Key-Neo4j分布式存储模型，实现Neo4j数据库的分布式存储；S7，通过创建对象索引和三元组索引机制，形成适用于石油领域本体的双层索引检索法；S8，输出占用的存储空间大小和数据查询时间。2.根据权利要求1所述的一种基于领域本体的油气大数据查询和存储方法，其特征在于，对于步骤S3，本发明使用的五元组O＝{C,R,At,Rel,Ao}数据模型，通过增加元组的数量可以更好地对本体中的概念和术语进行更清晰的层次化表示，利用改变模型的数据结构，完整地描述出概念和术语以及两者之间的关系，包括五个要素：类(C)、关系(R)、属性(At)、公理(Rel)和实例(Ao)；类是除了概念的一般意义外，还可以将RDF三元组中的任务、动作和事件等名称表示为主体资源和客体资源，例如“油气勘探开发”是一个类，使用三元组形式表示为(油气勘探开发，rdfs：type，Owl：class)；关系是定义本体中概念和属性的一种映射方法，主要是指两者的约束关系，其中，定义域由概念集合中的概念组成，而值域可以由概念和数值等数据类型组成；领域本体之间的主要关系包括子类关系(subClassOf)、实例和本体术语之间的关系(edf：type)；属性是描述领域本体中概念的主要特性，主要包含两个属性，即数据属性和对象属性，数据属性是指对象与数据类型值之间相关联，对象属性是指对象之间彼此相关联；公理是对永恒真理的描述，在任何情况下都是真实的，而实例是类的具体实例，如塔中一井(rdfs：type；Owl：钻孔)表示塔中一井是钻孔型油井的一个实例。3.根据权利要求1所述的一种基于领域本体的油气大数据查询和存储方法，其特征在于，对于步骤S4，本发明采用的图结构为Neo4j图，也称为属性图(PG)，PG的重要组成方式就是节点和关系；以Neo4j图结构中的节点表示本体数据中的概念及属性，以两节点之间的边代表本体之中的对应关系，其中，从属性映射中的起始节点到下一个节点首尾相连形成一个端到端的关系，节点与节点之间通过关系进行连通，每个节点和关系都可以拥有单独的属性声明，可以为每一个节点赋予多个类型的标签。4.根据权利要求1所述的一种基于领域本体的油气大数据查询和存储方法，其特征在于，对于步骤S5，本发明采用通过建立系列的R2G映射规则，实现RDF有向图到Neo4j数据结构的映射，其中，RDF有向图由主体资源、对应关系和客体资源表示，主体资源可以对类和概念进行表达；客体资源除了可以表达类和概念之外，还可以表示类的定义和属性；对应关系主要描述主体资源和客体资源之间的关系，而Neo4j的...

【专利技术属性】
技术研发人员：宫法明，马玉辉，唐昱润，袁向兵，李昕，李传涛，李翛然，
申请(专利权)人：中国石油大学华东，
类型：发明
国别省市：山东,37

全部详细技术资料下载我是这个专利的主人