当前位置: 首页 > 专利查询>浙江大学专利>正文

一种面向海量Argo数据的分布式存储方法技术

技术编号:14521091 阅读:114 留言:0更新日期:2017-02-02 00:01
本发明专利技术公开了一种面向海量Argo数据的分布式存储方法。该方法可以用来实现对多源异构、动态多维及海量的Argo数据进行高效的存储。其步骤如下:1)设计合理的表结构。2)针对Argo数据的不同特征和应用需求,本方法采用了不同的数据组织与管理方式。3)以HDFS为基础,实现Argo海量数据的分布式存储功能,并自动实现负载均衡。在数据传输中,系统采用了HDFS多节点与虚拟IP相结合的技术,解决了多节点无法同时与外界通信的问题。4)将海量argo数据自动化存入分布式云存储中。本发明专利技术在Argo数据管理中具有重要的实际应用价值,应用前景较广。

【技术实现步骤摘要】

本专利技术涉及Argo数据的存储方法,具体涉及到不同类型包括元数据、信息产品、剖面数据等的海量Argo数据的存储,在Argo数据存储中发挥着较大的实际应用。
技术介绍
国际Argo计划是由美国、法国和日本等国的科学家于1998年推出的全球大洋观测计划。计划于2000年正式启动实施,截止2012年3月,全球大洋中已有3500多个Argo剖面浮标在正常工作。我国自加入国际Argo计划以来,在国家相关部门的大力主持下,取得了重大的进展,并且在科技部和国家海洋局的支持下,依托国家海洋局第二海洋研究所卫星海洋环境动力学国家重点实验室,于2002年成立了“中国Argo实时资料中心”,承担起了我国Argo浮标的布放及其观测资料的接收,以及全球Argo资料的收集、处理和分发等任务,使我国成为世界上9个(美国、英国、法国、日本、韩国、印度、澳大利亚、加拿大和中国)有能力向全球Argo资料中心实时上传Argo资料的国家之一;截止目前,中心已收集了1996年1月-2014年11月期间,各国际Argo计划成员国在全球海洋上布放的11000多个Argo浮标所获得的约110余万条温、盐度观测剖面资料。Argo数据资料已经成为从海盆尺度到全球尺度物理海洋研究的主要数据源,并且在当前海洋环境和气候变化研究和业务化方面得到了广泛的应用。同时,西太平洋是影响我国海洋环流及气候变化的重要海区,又是暖池分布的主要区域,台风和黑潮的发源地,该海区存在着强烈的海洋和大气的年际变化特征和强西边界流,也是关系到我国国家安全的关键海区。在2007年召开的NPOCE(西北太平洋海洋环流试验)国际学术研讨会上,已确定西边界流辐聚区为气候研究的关键海区,而西边界流辐聚区也是直接影响黑潮源地及我国气候变化的重要区域,是连接SPICE(西南太平洋海洋环流与气候试验计划)和PACSWIN(印尼贯通流水源试验计划)等重大调查研究计划的纽带。因此,加强对该区域的实时海洋调查,并获得第一手资料,不仅是海洋和大气科学发展的需要,也是我国应对气候变化的一项重要举措,更是维护海洋权益、确保海洋安全的必要手段。目前Argo数据量已十分庞大,且随着时间的推移和新浮标的不断投放,数量将不断增长,需要建立适合海量数据库存储的Argo元数据、部署信息、数据获取、数据更新和维护等方面的技术规范体系和共享策略,来保证海量Argo数据的有效存储和高效读取。
技术实现思路
本专利技术的目的是为克服现有技术存在的问题,提供一种面向海量Argo数据的分布式存储方法。面向海量Argo数据的分布式存储方法,包括如下步骤:1)针对Argo数据格式、前台组合查询要求、大数据增量需求设计若干张表结构;2)针对多源Argo数据采用不同的数据组织与管理方式:地图切片数据以影像金字塔文件夹形式进行组织管理;Argo剖面数据和Argo元数据以表记录的形式在PostGreSQL中分别组织;Argo信息产品网格化数据基于MATLAB进行可视化后以文件形式进行组织;3)以Hadoop的HDFS为基础,将上述的多源Argo文件及文件夹数据以不同的组织管理方式在云端进行存储,相应表记录插入PostGreSQL数据库中存储;4)针对不同类型数据设置不同入库步骤,将海量Argo数据自动化解析并存入分布式云存储中。上述方案中,各步骤可采用如下优选方式:所述的步骤1)具体包括:2.1)对Argo文件中包括Argo剖面观测数据、元数据在内的不同格式的数据进行拆分处理;2.2)在数据库中建立了5个关系表以分类存放不同的信息,包括:元数据表存储Argo相关的元数据信息,提供按Argo类型、通信方式等进行组合查询;Argo部署信息表存储Argo部署相关的信息,提供Argo所属国家的信息、所属区域信息并按投放海域的经纬度区域进行查询;Argo剖面信息表存储Argo剖面信息,提供Argo的基本信息,通过浮标号与元数据表和部署信息表连接查询,并按浮标号、日期和经纬度范围信息进行组合查询;Argo详细观测数据表存储Argo剖面观测的详细观测数据,提供Argo剖面数据的详细观测数据、单一或多个观测参数的值查询;数据查询视图采用虚表,组合多个查询条件得出的字段,包含浮标WMO编号、浮标类型、浮标施放时间、浮标观测日期、投放平台、纬度、经度和详细观测数据信息。所述的步骤2)中:地图切片数据在同一空间参照下,将多级不同分辨率的底图裁剪成m×n个切片数据进行存储与显示,形成分辨率由低到高、切片数据量由小到大的分层数据结构形式;Argo剖面数据与Argo元数据通过将属性数据以记录的形式进行组织,存放入PostGreSql属性数据库中,数据入库后,客户应用程序对Argo数据通过统一的数据访问接口对数据库各数据表中的数据进行操作;Argo信息产品网格化数据利用MATLAB绘图技术生成相应的信息产品,在分类归档后利用互联网信息服务管理器对外发布,并且将对应的元数据信息进行存储,Argo信息产品网格化数据入库的过程分为三步:第一步是读取各种类型格式的数据,抽取目标信息,对应形成数据库元数据表记录的形式;第二步是对抽取的数据进行重新组织,消除一对多或多对多的关系,建立多张表及表之间的关联关系;第三步是将数据逐条存入数据库,属性数据存储于元数据表。所述的步骤4)中,采用以Hadoop为基础的的HDFS基本结构,一个HDFS集群由一个NameNode和一定数目的DataNodes组成;NameNode作为中心服务器,管理文件系统的名字空间以及客户端对文件的访问;集群中的DataNode负责管理它所在节点上的存储;HDFS中,文件被分为一个或多个数据块,并存储在一组DataNode上;NameNode执行文件系统的名字空间操作,,同时负责确定数据块到具体DataNode节点的映射;DataNode负责处理文件系统客户端的读写请求,并在NameNode的统一调度下进行数据块的创建、删除和复制;在数据传输过程中,采用HDFS多节点与虚拟IP相结合的方式。本专利技术与现有技术相比具有的有益效果:(1)扩展了传统的Argo存储方法,为Argo存储工作提供了一种新的形式,并易于通过编程在软件平台上进行模型开发实现。(2)采用分布式存储方法有效的解决了Argo海洋环境综合数据的多源异构、动态多维以及海量的特性带来的复杂性,实现了海量Argo数据的高效存储。附图说明图1是一种实现本专利技术的技术流程示意图;图2是Argo原始数据、数据库表、Java类对应图。具体实施方式下面结合附图对本专利技术做进一步阐述。如图1所示,一种面向海量Argo数据的分布式存储方法,包括如下步骤:第一步:针对Argo数据格式、前台组合查询要求、大数据增量需求设计若干张表结构。具体来说,首先,对Argo文件中包括Argo剖面观测数据、元数据在内的不同格式的数据进行拆分处理;然后在数据库中建立了5个关系表以分类存放不同的信息,包括:元数据表存储Argo相关的元数据信息,提供按Argo类型、通信方式等进行组合查询;Argo部署信息表存储Argo部署相关的信息,提供Argo所属国家的信息、所属区域信息并按投放海域的经纬度区域进行查询;Argo剖面信息表存储Argo剖面信息,提供Argo的基本信息,通过浮标号与元数据表和部署信息本文档来自技高网
...

【技术保护点】
一种面向海量Argo数据的分布式存储方法,其特征在于包括如下步骤:1)针对Argo数据格式、前台组合查询要求、大数据增量需求设计若干张表结构;2)针对多源Argo数据采用不同的数据组织与管理方式:地图切片数据以影像金字塔文件夹形式进行组织管理;Argo剖面数据和Argo元数据以表记录的形式在PostGreSQL中分别组织;Argo信息产品网格化数据基于MATLAB进行可视化后以文件形式进行组织;3)以Hadoop的HDFS为基础,将上述的多源Argo文件及文件夹数据以不同的组织管理方式在云端进行存储,相应表记录插入PostGreSQL数据库中存储;4)针对不同类型数据设置不同入库步骤,将海量Argo数据自动化解析并存入分布式云存储中。

【技术特征摘要】
1.一种面向海量Argo数据的分布式存储方法,其特征在于包括如下步骤:1)针对Argo数据格式、前台组合查询要求、大数据增量需求设计若干张表结构;2)针对多源Argo数据采用不同的数据组织与管理方式:地图切片数据以影像金字塔文件夹形式进行组织管理;Argo剖面数据和Argo元数据以表记录的形式在PostGreSQL中分别组织;Argo信息产品网格化数据基于MATLAB进行可视化后以文件形式进行组织;3)以Hadoop的HDFS为基础,将上述的多源Argo文件及文件夹数据以不同的组织管理方式在云端进行存储,相应表记录插入PostGreSQL数据库中存储;4)针对不同类型数据设置不同入库步骤,将海量Argo数据自动化解析并存入分布式云存储中。2.根据权利要求1所述的一种面向海量Argo数据的分布式存储方法,其特征在于所述的步骤1)包括:2.1)对Argo文件中包括Argo剖面观测数据、元数据在内的不同格式的数据进行拆分处理;2.2)在数据库中建立了5个关系表以分类存放不同的信息,包括:元数据表存储Argo相关的元数据信息,提供按Argo类型、通信方式等进行组合查询;Argo部署信息表存储Argo部署相关的信息,提供Argo所属国家的信息、所属区域信息并按投放海域的经纬度区域进行查询;Argo剖面信息表存储Argo剖面信息,提供Argo的基本信息,通过浮标号与元数据表和部署信息表连接查询,并按浮标号、日期和经纬度范围信息进行组合查询;Argo详细观测数据表存储Argo剖面观测的详细观测数据,提供Argo剖面数据的详细观测数据、单一或多个观测参数的值查询;数据查询视图采用虚表,组合多个查询条件得出的字段,包含浮标WMO编号、浮标类型、浮标施放时间、浮标观测日期、投放平台、纬度、经度和详细观测数据信息。3.根据权利要...

【专利技术属性】
技术研发人员:杜震洪张丰刘仁义吴森森李志鹏
申请(专利权)人:浙江大学
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1