面向全球变化研究的空间科学数据元数据自动汇聚方法技术

技术编号:6963462 阅读:284 留言:0更新日期:2012-04-11 18:40
本发明专利技术公开一种面向全球变化研究的空间科学数据元数据自动汇聚方法,属于信息技术领域。本方法为:1)选定数据源,服务器定期对数据源进行访问,生成下载列表和下载任务;2)根据当前下载列表和下载任务,访问数据源服务器,进行元数据文件下载,并将其保存到服务器;3)对下载的元数据文件进行质量检查,并对检查合格的元数据文件进行元数据项提取、计算和转换;4)将元数据文件路径、元数据项保存到元数据项数据库并建立索引;5)通过文件路径、元数据项数据库的id值、索引项的id值,建立元数据文件、元数据项数据库数据、索引数据之间一一对应的映射关系。本方法可一站式地查询分布在全球各地的海量全球变化空间科学数据元数据资源。

【技术实现步骤摘要】

本专利技术属于信息技术、全球变化研究领域,尤其涉及在面向全球变化研究领域中采用信息技术对分布、多源、异构空间科学数据元数据进行自动汇聚方法。
技术介绍
随着全球变化的负面影响越来越严重、全球环境问题的日益突出,全球变化的研究正在受到空前的重视。这一点可从国际科学联合会理事会(ICSU)等国际科学组织陆续发起的四大全球环境变化研究计划表现出来1980年发起世界气候研究计划(WCRP)、1987 年发起国际地圈生物圈计划(IGBP)、1991年发起生物多样性计划(DIVERSITAQ、1996年发起国际全球环境变化的人文因素计划(IHDP)。并且,这四大科学计划于2001年联合组建了地球系统科学联盟(ESSP),联盟的目的在于推动对地球系统的综合集成研究、促进地球系统各研究计划之间的合作、加强人类对地球系统的深入认识。目前全球变化研究主要采用的手段和方法包括发展全球分析、模拟、数据挖掘等。 在当前的大科学时代,无论上述的哪一种研究手段,都需要大量的科学数据作为研究的基础和支持。观测技术,特别是卫星遥感技术的快速发展,提供了对整个地球系统行为进行监测的能力,而基于此的空间科学数据则为全球变化的研究提供了直接的基础。在全球变化研究领域中,不同层次、角度的研究模型众多,而这通常需要各种来源的科学数据作为基础。即使针对一个研究模型,也常常需要汇聚多个数据源的遥感空间科学数据来支持,而这些遥感科学数据源一般情况下处于分布、异构状态。比如遥感数据由于气象等自然条件影响,单一数据源的遥感影像无法覆盖整个研究区域,通常需要使用其他数据源进行替补。在无法快速、准确定位、汇聚分布、异构遥感空间科学数据的情况下,这些遥感空间科学数据的空间分布、结构多样性在很大程度上限制了科学研究的计算尺度范围。此问题需要一个功能完善的空间科学数据自动汇聚平台去解决。考虑到空间科学数据自动汇聚的前提是元数据的自动汇聚,全球变化的研究计划和科学家迫切需要一种能对分布式、多源、异构空间科学数据元数据进行自动汇聚的平台。 它能方便科学数据元数据的查询、定位,最终使得科学家可以方便地、一站式地查询分布在全球各地的海量全球变化空间科学数据元数据资源。经过查询文献,目前尚未发现能解决上述问题的方法和平台。
技术实现思路
针对上述需要对全球变化空间科学数据元数据资源自动汇聚的问题,本专利技术的目的在于提供一种。本专利技术提出结合空间科学数据的特点,根据系统工程分而治之的思路,通过元数据资源动态发现、元数据动态汇聚、元数据一致化表达及转换、元数据统一快速准确检索等步骤实现空间科学数据元数据资源的自动汇聚。本专利技术包括以下步骤(如图1所示)(1)元数据资源动态发现考虑到全球变化科学数据海量膨胀,涌现出了大量的优质数据资源,且多数数据资源的元数据资源都采用友好的数据共享政策。不断扩展新的元数据资源,并实现元数据资源的动态发现是元数据资源自动汇聚的一个关键。为此需要建立兼容性强的数据源汇聚接口,通过透明、快捷的方式对元数据资源进行动态发现和确认,以更好地整合分布式遥感空间科学数据元数据资源。(2)元数据动态汇聚即如何保持数据提供方和面向全球变化研究的空间科学数据元数据自动汇聚平台之间元数据记录的一致性问题。为此,需要在分析数据源的元数据资源更新状况基础上, 形成不同的元数据收割方式和频率,及基于此的元数据下载模块,以满足数据更新需求和减轻系统负载之间的良好折中,实现元数据实时或准实时同步。(3)元数据一致化表达及转换分布式空间科学数据元数据的表达具有多样性特征,要实现对元数据的统一化管理和检索,必须实现全球变化科学数据元数据的一致化表达。为解决不同来源元数据的表达多样性问题,需要在全球变化科学数据领域的国际通用数据表达和数据互操作规范的基础上建立本地兼容性良好的元数据信息模型,并开发本地元数据转换器对不同来源的元数据进行解析、转换、信息提取,以实现元数据的一致化表达。(4)元数据统一快速准确检索如上述,全球变化相关数据具有关系复杂、非结构化、数据量大、多比例尺、随时间变化等特点,异构性强。在进行元数据的一致化转换和表达基础上,面对超大规模的海量科学数据元数据,需要建立高效快速索引(数字)系统和元数据库系统,以实现统一、快速、准确的元数据检索、定位。为实现上述目的,本专利技术采用如下的技术方案一种,包括如下步骤(1)服务器对不同的数据源,定期循环执行以下过程根据数据产品类型的不同, 生成该数据源元数据文件的可能有效id列表,并对其中的每一个id进行有效性验证(验证的标准是id所标示的元数据文件是否存在)从而得到当前有效的元数据文件id列表, 对其中有效的id生成完整的元数据文件url (含对应的图片文件url),并将这些元数据文件url (含对应的图片文件url)组合生成下载列表和下载任务,并启动下载任务(如图2 所示)。(2)服务器在识别目标任务(含正常与否、任务类型等)后按照任务量和资源情况启动相应的下载线程,并按照线程的情况和公平规则动态分配下载列表(对于已下载的任务,会默认不进行重复下载),之后各线程按照配置文件连接数据服务器及按照所分配的列表顺序获取文件流、对下载内容进行存储、对图片文件进行尺寸缩小和对下载过程中的异常进行恢复和纠正等(如图3所示)。(3)元数据文件(含对应的图片文件)下载完成后服务器对下载的文件完成质量检查(包括文件是否可以正常打开、文件大小是否匹配、元数据文件和图片文件及缩小的图片文件之间是否一一对应等)、元数据项提取、在计算的基础上识别四个顶点的经纬度值、元数据转换、元数据入库和建立数字索引等(如图4所示)。(4)服务器对元数据按照文件(之前步骤完成)、元数据项数据库数据、索引数据等不同形式进行存储,并按照规则进行映射形成逻辑上统一的元数据环境,基于此提供逻辑上统一的元数据检索接口(如图5所示)。(5)用户检索部分提供用户检索接口,并完成对用户的查询(经纬度、空间对象) 进行相关性计算、按照规则(如距离等)对结果数据进行排序、根据用户的需要完成元数据查询、定位等(如图6所示)。通过上述步骤,完整地实现了面向全球变化研究的空间科学数据元数据自动汇聚等工作。与现有技术相比,本专利技术的优点和积极效果基于本专利技术的方法,可以使得科学家们方便地、一站式地查询分布在全球各地的海量全球变化空间科学数据元数据资源,解决全球变化研究中的元数据自动汇聚问题。附图说明图1面向全球变化研究的空间科学数据元数据自动汇聚流程图;图2元数据资源动态发现;图3元数据动态汇聚;图4元数据一致化表达及转换;图5元数据存储管理;图6用户检索部分。具体实施例方式下面以Iandsat数据为例说明一下本专利技术的实施方式。首先对需要汇聚的特定数据源整理其数据网站的地址(比如Iandsat的数据网站地址为http://gl0vis. usgs. gov/)和需要汇聚的数据产品类型(比如LANDSAT-7 SLC_ off)。接下来服务器根据Iandsat数据产品类型、年份、日数等不同,生成可能有效的数据产品id列表,Iandsat的数据产品id是一种格式为LXSPPPRRRYYYYDDDGSIVV型的字符串,其中每一位的含义为L- ^^ Landsat ^ig。X-表示产品类型(M代表MSS,T本文档来自技高网
...

【技术保护点】
1.一种面向全球变化研究的空间科学数据元数据自动汇聚方法,其步骤为:1)选定数据源,服务器定期对所选数据源进行访问,生成下载列表和下载任务;其方法为:首先根据数据源的数据产品类型,生成该数据源元数据文件的可能有效id列表;然后验证可能有效id列表中每一id所标示的元数据文件是否存在,从而得到当前有效的元数据文件id列表;最后根据有效的id生成完整的元数据文件url,并根据元数据文件url生成所述下载列表和下载任务;2)服务器根据当前下载列表和下载任务,访问数据源数据服务器,进行数据下载并将其保存到服务器;3)服务器对下载的元数据文件进行质量检查,并对检查合格的元数据文件进行元数据项提取;4)将元数据项及元数据文件路径保存到元数据项数据库并建立索引;5)服务器通过元数据文件路径、元数据项数据库的数据id值、索引项的id值,建立元数据文件、元数据项数据库数据、索引数据之间一一对应的映射关系。

【技术特征摘要】

【专利技术属性】
技术研发人员:杨风雷林青慧黎建辉沈志宏胡良霖周园春
申请(专利权)人:中国科学院计算机网络信息中心
类型:发明
国别省市:11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1