一种基于领域本体的油气大数据查询和存储方法技术

技术编号:21913927 阅读:27 留言:0更新日期:2019-08-21 12:25
本发明专利技术公开了一种基于领域本体的油气大数据查询和存储方法,该方法包含:通过领域本体内的概念及概念间的关系进行形式化统一表示完成本体的构建;以三元组和五元组的数据结构对多个领域中的知识和概念进行形式化的描述,实现RDF有向图非结构化存储;通过建立系列R2G结构化映射规则完成RDF有向图到Neo4j数据结构的映射,然后在Neo4j数据结构的基础上构建Key‑Neo4j分布式存储模型,实现Neo4j数据库的分布式存储;形成了适用于石油领域本体的双层索引检索法,最后输出占用的存储空间大小和数据查询时间,实现了大数据环境下的海量资源的正常存储与动态扩展。本发明专利技术的方法能够有效地解决领域本体存储时的阻抗不匹配问题,极大地缓解了存储空间的负载压力。

A Method of Oil and Gas Big Data Query and Storage Based on Domain Ontology

【技术实现步骤摘要】
一种基于领域本体的油气大数据查询和存储方法
本专利技术属于计算机油气大数据领域,涉及一种基于领域本体的油气大数据查询和存储方法。
技术介绍
石油领域本体对石油勘探开发领域中二十多个学科的知识概念进行了描述,同时表现了概念和属性之间的相互关系。在石油勘探开发工作中,石油本体可以完成石油勘探开发领域中多学科的知识集成和信息集成,阐明术语与术语之间的关系及其领域公理,并对它们进行了形式化描述,该领域本体可以作为一种解决石油领域中多专业之间的知识融合的模式。石油领域本体的特点可以解决石油勘探开发领域中由于多学科而导致的概念之间的不规范性、概念相对独立等问题,将石油领域各个学科之间的知识概念形成一个统一的整体,加快了石油领域电子信息化建设进程。已有的算法形如三重表法、水平分区和垂直分区等算法,三重表法将整个RDF数据存储到一个三列数据表中,每一行都分别对应RDF数据的主体资源、映射关系和客体资源,三重表法针对于小型规模的数据有着十分优越的性能,但是随着数据规模的增加,会产生大量的自连接,导致数据处理速度效率大幅度降低。水平分区方法是将所有RDF数据存储到一个表中,该表为RDF数据的每个谓词值指定一个专用列,且这个表支持多值属性,但由于稀疏属性导致大量空单元格,所以该存储方法不适用与大规模数据存储。垂直分区方法将三重表重写为n个两列表,其中n是数据中唯一属性的数量,对于指定谓词值的查询来说,执行效率高,但随着数据规模的增加,信息的检索时间将呈指数增长。以往的石油领域本体数据存储量小,选择传统关系型数据库为存储介质可以满足实际的需要,但是,由于大数据时代的到来,数据呈爆炸式进行增长,选择关系型数据库所产生的重复存储,极大地占用了存储资源,冗余的存储模式也给信息的检索带来了极大的困难。因此,如何在数据繁多和极其复杂的关系中,充分地利用领域本体进行准确高效的数据查询和存储成为一个亟待解决的难题。
技术实现思路
本专利技术为了克服上述缺陷,提出了一种基于领域本体的油气大数据查询和存储方法,本专利技术具体步骤如下:S1,通过领域本体内的概念及概念间的关系进行形式化统一表示,完成本体的构建;S2,以三元组t=<s,p,o>的数据结构对多个领域中的专业知识和概念进行清晰且形式化的描述;S3,通过增加元组的数量,由多个RDF三元组数据组合构建五元组O={C,R,At,Rel,Ao}数据模型;S4,以图结构中的节点表示本体数据中的概念及属性,以两节点之间的边代表本体之中的对应关系,进行RDF有向图非结构化存储;S5,通过建立系列R2G结构化映射规则,实现RDF有向图到Neo4j数据结构的映射;S6,在Neo4j数据结构的基础上构建Key-Neo4j分布式存储模型,实现Neo4j数据库的分布式存储;S7,通过创建对象索引和三元组索引机制,形成适用于石油领域本体的双层索引检索法;S8,输出占用的存储空间大小和数据查询时间。本专利技术的技术方案特征和改进为:对于步骤S3,本专利技术使用的五元组O={C,R,At,Rel,Ao}数据模型,通过增加元组的数量可以更好地对本体中的概念和术语进行更清晰的层次化表示,利用改变模型的数据结构,完整地描述出概念和术语以及两者之间的关系,包括五个要素:类(C)、关系(R)、属性(At)、公理(Rel)和实例(Ao);类是除了概念的一般意义外,还可以将RDF三元组中的任务、动作和事件等名称表示为主体资源和客体资源,例如“油气勘探开发”是一个类,使用三元组形式表示为(油气勘探开发,rdfs:type,Owl:class);关系是定义本体中概念和属性的一种映射方法,主要是指两者的约束关系,其中,定义域由概念集合中的概念组成,而值域可以由概念和数值等数据类型组成;领域本体之间的主要关系包括子类关系(subClassOf)、实例和本体术语之间的关系(edf:type);属性是描述领域本体中概念的主要特性,主要包含两个属性,即数据属性和对象属性,数据属性是指对象与数据类型值之间相关联,对象属性是指对象之间彼此相关联;公理是对永恒真理的描述,在任何情况下都是真实的,而实例是类的具体实例,如塔中一井(rdfs:type;Owl:钻孔)表示塔中一井是钻孔型油井的一个实例。对于步骤S4,本专利技术采用的图结构为Neo4j图,也称为属性图(PG),PG的重要组成方式就是节点和关系;以Neo4j图结构中的节点表示本体数据中的概念及属性,以两节点之间的边代表本体之中的对应关系,其中,从属性映射中的起始节点到下一个节点首尾相连形成一个端到端的关系,节点与节点之间通过关系进行连通,每个节点和关系都可以拥有单独的属性声明,可以为每一个节点赋予多个类型的标签。对于步骤S5,本专利技术采用通过建立系列的R2G映射规则,实现RDF有向图到Neo4j数据结构的映射,其中,RDF有向图由主体资源、对应关系和客体资源表示,主体资源可以对类和概念进行表达;客体资源除了可以表达类和概念之外,还可以表示类的定义和属性;对应关系主要描述主体资源和客体资源之间的关系,而Neo4j的数据模型由节点、关系、节点和关系的属性组成;优选地,所述从RDF有向图到Neo4j数据库的映射步骤包括:(S510)遍历RDF有向图中的每个属性值,在Neo4j数据库中,RDF有向图中的每个属性值都由相应的图节点生成;每个节点可以与多个节点建立多个关系,单个节点可以设置多个属性,如V={v1,v2,v3,v4}是Neo4j数据库中RDF有向图被映射的一组节点;(S520)对于节点集合V中的每个空节点(bnode)v(b),获取属性集,表示该节点除了类型标签之外没有额外的属性;(S530)对于节点集合V中的每个资源标识符节点(iri)v(u),分别得到节点类型和IRI标签的属性集合,如下:式(1)中,φ(v(u1))、φ(v(u2))和φ(v(u3))为资源标识符节点,kind表示节点的类型,属性集合为IRI之后的描述语言;(S540)对于节点集V中的每个文字节点(literal)v(l),获取属性集:式(2)中,分别获取节点类型与相应的值、数据类型和language属性,其中language属性可以为null值,如下:φ(v(u3))={<"kind","literal">,<"literal",3582>,〈"datatype",int〉}(3)式(3)中,通过多属性详细地描述出资源标识符节点v(u3),节点的类型literal的值为3582,datatype表示的是该值的数据类型,用int进行修饰;(S550)Neo4j数据库中的每个边都代表不同的RDF三元组,如E={e1,e2,e3}是Neo4j数据库中的RDF有向图图的边集;(S560)对于每个三元组t=<s,p,o>,边缘的标签对应于lbl(p),起始和结束节点是sre(p)和tgt(p),具体关系如下:式(4)中,描述了3条从RDF有向图到Neo4j数据库的映射规则,e1、e2和e3表示的是有向图中的边,而v1,v2,v3,v4是有向图中的节点,通过将RDF有向图的主体资源、对应关系和客体资源描述为1条映射规则,进而将RDF有向图非结构化存储转化映射为Neo4j结构化数据进行存储。对于步本文档来自技高网
...

【技术保护点】
1.一种基于领域本体的油气大数据查询和存储方法,其特征及具体步骤如下:S1,通过领域本体内的概念及概念间的关系进行形式化统一表示,完成本体的构建;S2,以三元组t=<s,p,o>的数据结构对多个领域中的专业知识和概念进行清晰且形式化的描述;S3,通过增加元组的数量,由多个RDF三元组数据组合构建五元组O={C,R,At,Rel,Ao}数据模型;S4,以图结构中的节点表示本体数据中的概念及属性,以两节点之间的边代表本体之中的对应关系,进行RDF有向图非结构化存储;S5,通过建立系列R2G结构化映射规则,实现RDF有向图到Neo4j数据结构的映射;S6,在Neo4j数据结构的基础上构建Key‑Neo4j分布式存储模型,实现Neo4j数据库的分布式存储;S7,通过创建对象索引和三元组索引机制,形成适用于石油领域本体的双层索引检索法;S8,输出占用的存储空间大小和数据查询时间。

【技术特征摘要】
1.一种基于领域本体的油气大数据查询和存储方法,其特征及具体步骤如下:S1,通过领域本体内的概念及概念间的关系进行形式化统一表示,完成本体的构建;S2,以三元组t=<s,p,o>的数据结构对多个领域中的专业知识和概念进行清晰且形式化的描述;S3,通过增加元组的数量,由多个RDF三元组数据组合构建五元组O={C,R,At,Rel,Ao}数据模型;S4,以图结构中的节点表示本体数据中的概念及属性,以两节点之间的边代表本体之中的对应关系,进行RDF有向图非结构化存储;S5,通过建立系列R2G结构化映射规则,实现RDF有向图到Neo4j数据结构的映射;S6,在Neo4j数据结构的基础上构建Key-Neo4j分布式存储模型,实现Neo4j数据库的分布式存储;S7,通过创建对象索引和三元组索引机制,形成适用于石油领域本体的双层索引检索法;S8,输出占用的存储空间大小和数据查询时间。2.根据权利要求1所述的一种基于领域本体的油气大数据查询和存储方法,其特征在于,对于步骤S3,本发明使用的五元组O={C,R,At,Rel,Ao}数据模型,通过增加元组的数量可以更好地对本体中的概念和术语进行更清晰的层次化表示,利用改变模型的数据结构,完整地描述出概念和术语以及两者之间的关系,包括五个要素:类(C)、关系(R)、属性(At)、公理(Rel)和实例(Ao);类是除了概念的一般意义外,还可以将RDF三元组中的任务、动作和事件等名称表示为主体资源和客体资源,例如“油气勘探开发”是一个类,使用三元组形式表示为(油气勘探开发,rdfs:type,Owl:class);关系是定义本体中概念和属性的一种映射方法,主要是指两者的约束关系,其中,定义域由概念集合中的概念组成,而值域可以由概念和数值等数据类型组成;领域本体之间的主要关系包括子类关系(subClassOf)、实例和本体术语之间的关系(edf:type);属性是描述领域本体中概念的主要特性,主要包含两个属性,即数据属性和对象属性,数据属性是指对象与数据类型值之间相关联,对象属性是指对象之间彼此相关联;公理是对永恒真理的描述,在任何情况下都是真实的,而实例是类的具体实例,如塔中一井(rdfs:type;Owl:钻孔)表示塔中一井是钻孔型油井的一个实例。3.根据权利要求1所述的一种基于领域本体的油气大数据查询和存储方法,其特征在于,对于步骤S4,本发明采用的图结构为Neo4j图,也称为属性图(PG),PG的重要组成方式就是节点和关系;以Neo4j图结构中的节点表示本体数据中的概念及属性,以两节点之间的边代表本体之中的对应关系,其中,从属性映射中的起始节点到下一个节点首尾相连形成一个端到端的关系,节点与节点之间通过关系进行连通,每个节点和关系都可以拥有单独的属性声明,可以为每一个节点赋予多个类型的标签。4.根据权利要求1所述的一种基于领域本体的油气大数据查询和存储方法,其特征在于,对于步骤S5,本发明采用通过建立系列的R2G映射规则,实现RDF有向图到Neo4j数据结构的映射,其中,RDF有向图由主体资源、对应关系和客体资源表示,主体资源可以对类和概念进行表达;客体资源除了可以表达类和概念之外,还可以表示类的定义和属性;对应关系主要描述主体资源和客体资源之间的关系,而Neo4j的...

【专利技术属性】
技术研发人员:宫法明马玉辉唐昱润袁向兵李昕李传涛李翛然
申请(专利权)人:中国石油大学华东
类型:发明
国别省市:山东,37

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1