适用于大规模地震数据存储、快速定位的方法及装置制造方法及图纸

技术编号:17264965 阅读:29 留言:0更新日期:2018-02-14 12:17
本发明专利技术提供了一种适用于大规模地震数据存储、快速定位的方法和装置。所述存储方法包括设计第一级哈希索引结构,将数据对象存储空间划分为多个数据分区;设计第二级哈希索引结构,将所述数据分区划分为多个数据块组;将数据对象存储在所属的数据分区和数据块组。所述快速定位方法包括根据数据对象第一哈希值,确定数据对象所属数据分区;根据每个对象存储服务器所应处理数据分区的哈希范围,确定数据分区所属对象存储服务器;通过数据对象第二哈希值,确定数据对象所属数据块组,得到对象位置信息。根据本发明专利技术方法和装置能够支持对大规模地震数据对象存储空间的弹性扩展,能够以较低的开销实现负载均衡,支持大规模地震数据的高效管理。

Method and device for large scale seismic data storage and rapid positioning

The invention provides a method and device for large scale seismic data storage and rapid positioning. The storage method includes the design of the first level hash index structure, the data object storage space is divided into a plurality of data partition; design of second level hash index structure, the data is divided into a plurality of data blocks; data objects stored in the data partition and data block. The fast positioning method according to the data object including the first hash value, to determine the data object belongs to the data partition; according to the hash range should handle data partitions for each object storage server, determine the data partition is the object storage server through the data object; second hash values, data block is determined by the position of the object data object. Information. According to the method and device of the invention, it can support elastic expansion of large scale seismic data object storage space, realize load balancing at low cost, and support efficient management of large-scale seismic data.

【技术实现步骤摘要】
适用于大规模地震数据存储、快速定位的方法及装置
本专利技术涉及石油地震勘探资料数据存储领域,更具体地讲,涉及一种适用于大规模地震数据存储、快速定位的方法及装置。
技术介绍
当前的石油天然气地震勘探工作中,由于可控震源高效采集技术的推广应用和高密度三维地震勘探的迅速发展,地震观测采样精度越来越高,采集的数据越来越大。采集获得的数据量呈几何指数增长,从几十TB到上百TB,甚至更大。同时,多业务的并发应用规模对于地震数据存储的访问频率越来越高。如此庞大的数据量和应用规模对地震数据的存储技术提出了新的要求。地震数据存储的文件系统必须具备对PB甚至EB级存储空间进行管理的能力。由于现有的大多数计算机集群文件系统均采用对象存储的方法来管理数据,每个文件被分成固定大小的对象存储在系统中,随着存储总量和处理性能的提高,系统中对象的数量和其访问频率均会有大幅度的增加,数据放置和定位的开销随存储对象数量的增多而增加。当地震数据的存储规模达到PB级时,文件系统需要对超过上亿规模的对象提供放置和定位服务。特别是当数据多以小文件的方式存储时,需管理的对象位置信息可达到万亿规模。但是受计算机集群文件系统技术现状和数据位置信息管理维护方法局限性的影响,在面向大规模地震数据存储读写应用时,多个存储服务器会随着数据规模的扩大和应用的增多而造成负载的不均衡,计算机集群文件系统会根据服务器的磁盘空间利用率和访问负载来调整数据分布。在进行负载均衡时,对于通过记录位置来管理存储空间的系统而言,大量地震数据对象文件的迁移会导致数据位置信息的频繁更改,对象位置信息一致性的系统开销工作量增大。由于需维护的地震数据与对象存储服务器映射规模较大,存储服务器管理维护的映射关系信息总量会大大的超过服务器的系统内存容量,数据存储的效率和空间的可扩展性很低。
技术实现思路
针对现有技术中存在的不足,本专利技术的目的之一在于解决上述现有技术中存在的一个或多个问题。为了实现上述目的,本专利技术的一方面提供了一种适用于大规模地震数据存储方法。所述方法包括设计第一级哈希索引结构,将数据对象存储空间划分为多个数据分区,并将所述数据分区分布到不同数据存储服务器以支持并发操作;设计第二级哈希索引结构,将所述数据分区划分为多个数据块组,以支持文件系统调整数据分区大小;将数据对象存储在所属的数据分区和数据块组。本专利技术的另一方面提供了一种适用于大规模地震数据的快速定位方法。所述方法包括根据数据对象第一哈希值,确定数据对象所属数据分区;根据每个存储服务器所应处理数据分区的哈希范围,确定数据分区所属对象存储服务器;通过数据对象第二哈希值,确定数据对象所属数据块组;确定对象位置信息,得到数据对象存储位置。本专利技术的再一方面提供了一种适用于大规模地震数据的存储装置。所述装置包括数据分区模块,通过第一级哈希索引结构,将数据对象存储空间划分为多个数据分区,用于存储对象位置信息;数据块组模块,通过第二级哈希索引结构,将数据分区划分为多个数据块组,用于存储对象位置信息;数据存储模块,包括多个存储服务器;其中,所述数据存储服务器根据所应处理数据分区的哈希范围将所述数据分区分布到不同数据存储服务器。与现有技术相比,本专利技术的数据存储、快速定位方法及装置支持对大规模地震数据对象存储空间的弹性扩展,同时,本专利技术的方法及装置通过对象位置信息在多个储服务器的分布结果来放置数据,文件系统通过对索引结构的调整,能够以较低的开销实现负载均衡,不仅能支持大规模地震数据的高效管理,而且通过负载均衡的方式,多个存储服务器的I/O聚合带宽具有稳定的加速比,在多节点客户端并发访问地震数据存储的情况下,其性能优势更明显。附图说明通过下面结合附图进行的描述,本专利技术的上述和其他目的和特点将会变得更加清楚,其中:图1示出了根据本专利技术示例性实施例的数据对象文件存储结构示意图。图2示出了根据本专利技术示例性实施例的扩展的两级哈希索引结构示意图。具体实施方式在下文中,将结合附图和示例性实施例详细地描述根据本专利技术的适用于大规模地震数据存储、快速定位的方法及装置。本专利技术的核心内容是可将地震数据和对象存储服务器之间的大规模映射关系转换为多级小规模映射,基于动态哈希算法原理,通过设计两级结构的可扩展哈希索引来组织数据,将地震数据信息均匀映射到一个有限的连续空间上,保证存储数据分布的均匀性和单调性。文件系统对数据的放置和定位可在两次I/O操作之内完成,数据均匀分散在各个对象存储上,支持和解决分布式存储系统中的数据规模扩展的问题。图1示出了根据本专利技术示例性实施例的数据对象文件存储结构示意图。图2示出了根据本专利技术示例性实施例的扩展的两级哈希索引结构示意图。如图2所示,具体来讲,为了支持对大规模地震数据对象映射关系的高效访问,本专利技术的方法及装置可将地震数据对象的位置信息抽取出来并组织成可扩展的索引结构进行独立管理,并将其索引结构分布到多个对象存储服务器以并发处理的方法将存储空间中的地震数据对象位置信息抽取出来独立组织,依靠对象位置信息在多个存储服务器的分布结果来放置对象。对象位置信息可采用两级结构的可扩展哈希索引的方式进行组织,通过第一级索引结构,存储空间被划分成多个数据分区并分布到不同的存储服务器上可支持并发操作;通过第二级索引结构,数据分区被划分成多个数据块组,可支持系统对数据分区大小的调整,使计算机集群文件系统可以在单个节点支持对包括TB级或者更大规模地震数据对象的快速定位。本专利技术的一方面提供了一种适用于大规模地震数据的存储方法。根据本专利技术示例性实施例的数据存储方法可通过以下步骤实现:(1)设计第一级哈希索引结构,将数据对象存储空间划分为多个数据分区,并将数据分区分布到不同的数据存储服务器上以支持并发操作。维护数据分区在多个对象存储服务器的分布可以采用一致性哈希的方法。在具体的实施过程中,可将一致性哈希以全局映射表的方式缓存所有节点,全局映射表可采用二维数据的形式记录每个存储服务器所应处理数据分区的哈希范围,通过查询全局映射表,计算机群节点就可以获取指定数据分区所属的对象存储服务器。当地震数据对象存储空间划分为多个数据分区后,在地震数据存储服务器中,为了确定对象数据所属数据分区,需要在多个节点维护对象到数据分区的映射信息。由于该映射是通过可扩展哈希索引建立的,定位节点需要维护第一级索引结构的信息包括表示所有数据分区的位图信息以及表示数据分区存储的最大空间数值。通过以上两个数据信息,计算出数据对象的第一哈希值,查询到该对象所属数据分区。优选的,这里的第一哈希值的计算可以采用一致性哈希算法得到,即使用一致性哈希算法使数据对象存储在相应的数据分区。例如,假设数据为x,存储节点数目为N。将数据分布到各个数据分区的最直接做法可以是,计算数据x的Hash(哈希)值,并将计算结果Hash值同数据分区数目N取余数,余数就是数据x的目的存储数据分区,即目的数据分区为Hash(x)%N。对数据计算Hash值的目的为了可以让数据均匀分布在N个数据分区中。(2)设计第二级哈希索引结构,将所述数据分区划分为多个数据块组,以支持文件系统调整数据分区大小。当确定数据对象所属数据分区后,查询数据的请求被发送到数据分区所属数据对象存储服务器进行节点内查找,根据计算出的数据对象第二哈希值,服本文档来自技高网
...
适用于大规模地震数据存储、快速定位的方法及装置

【技术保护点】
一种适用于大规模地震数据的存储方法,其特征在于,所述存储方法包括以下步骤:设计第一级哈希索引结构,将数据对象存储空间划分为多个数据分区,并将所述数据分区分布到不同数据存储服务器以支持并发操作;设计第二级哈希索引结构,将所述数据分区划分为多个数据块组,以支持文件系统调整数据分区大小;将数据对象存储在所属数据分区和数据块组。

【技术特征摘要】
1.一种适用于大规模地震数据的存储方法,其特征在于,所述存储方法包括以下步骤:设计第一级哈希索引结构,将数据对象存储空间划分为多个数据分区,并将所述数据分区分布到不同数据存储服务器以支持并发操作;设计第二级哈希索引结构,将所述数据分区划分为多个数据块组,以支持文件系统调整数据分区大小;将数据对象存储在所属数据分区和数据块组。2.根据权利要求1所述的适用于大规模地震数据的存储方法,其特征在于,所述将数据对象存储在所属的数据分区和数据块组的步骤包括:根据第一级哈希索引计算数据对象第一哈希值,确定数据对象所属数据分区;根据第二级哈希索引计算数据对象第二哈希值,确定数据对象所属数据块组。3.根据权利要求2所述的适用于大规模地震数据的存储方法,其特征在于,所述计算第一哈希值与第二哈希值的方法包括一致性哈希算法,所述第一级哈希索引与第二级哈希索引为可扩展哈希索引。4.根据权利要求1所述的适用于大规模地震数据的存储方法,其特征在于,所述存储方法还包括根据每个数据存储服务器所应处理数据分区的哈希值范围将所述数据分区分布到不同数据存储服务器,所述分布步骤采用一致性哈希方法。5.根据权利要求4所述的适用于大规模地震数据的存储方法,其特征在于,所述每个数据存储服务器所应处理数据分区的哈希值范围根据查询全局映射表所得,所述全局映射表是将一致性哈希以全局映射表的方式缓存所有节点,记录每个存储服务器所应处理数据分区的哈希范围。6.一种适用于大规模地震数据的快速定位方法,其特征在于,所述快速...

【专利技术属性】
技术研发人员:李振李亚林何光明刘鸿金德刚罗红明席彬安胜平巫骏
申请(专利权)人:中国石油集团川庆钻探工程有限公司地球物理勘探公司
类型:发明
国别省市:四川,51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1