一种基于Hadoop的大数据遥感卫星数据处理系统技术方案

技术编号:12304369 阅读:123 留言:0更新日期:2015-11-11 13:35
本发明专利技术提供了一种基于Hadoop的大数据遥感卫星数据处理系统,该系统包括数据获取子系统、Hadoop数据平台、计算处理子系统和应用子系统,其中,Hadoop数据平台包括分布式文件子系统、资源管理子系统、数据库和物理存储单元;该系统以数据在线化为基础,支持面向应用的分布式存储和处理,可以同时支持横向跨行业和纵向跨历史的数据分析。该系统具有灵活的可扩展性,支持未来新发射的遥感卫星地面系统的快速建设和在线接入。

【技术实现步骤摘要】

本专利技术涉及计算机技术在遥感卫星数据处理系统中的应用领域,特别涉及一种基于Hadoop的大数据遥感卫星数据处理系统
技术介绍
随着卫星遥感的快速发展,遥感卫星数据在国土、林业等领域逐渐呈现出业务化应用的趋势,而目前遥感卫星数据处理系统的体系架构,基于现有技术发展水平,以满足用户需求为导向,尚未对具有“3V(Volume !Variety !Velocity) ”特征且不能用常规手段处理的遥感卫星大数据进行适应性分析与设计。随着硬件成本的降低,网络带宽的提升,分布式计算的兴起,网络技术的发展、智能终端及物联网等的兴起与应用,遥感卫星数据的时空尺度和要素类型全面拓展,其种类和数据量急剧膨胀,逐渐呈现出多源、多维、大量、多态和高速的大数据特征,且用户在大数据时代对于数据信息的需求呈现多元化趋势,有效处理、存储、分析和应用这些大数据,满足用户的多元化需求已经成为未来遥感卫星数据处理系统设计的关键。当前,为满足多星地面处理系统功能和性能的要求,根据计算机、存储、网络和信息技术的发展,遥感卫星数据处理系统采用集中存储管理、集中处理的体系架构,分为数据获取层、数据存储层、数据处理与分析层及数据应用层,其架构如图1所示。现有的多个系统之间有独立的计算、存储、软件及算法资源,这些资源尚未得到很好的统筹利用。然而,随着遥感卫星发射越来越密集,其载荷数据及应用多样性越来越显著,同时遥感卫星数据存储规模急速增长,用户对数据处理及应用的高时效性需求越来越强烈,系统还面临着高可扩展性需求及系统资源整合的紧迫性需求。当前遥感卫星数据处理系统架构无法满足大数据时代面临的新的挑战,必须结合当前大数据技术的发展,解决目前系统面临的挑战。
技术实现思路
本专利技术的目的在于克服现有技术的不足,提供一种基于Hadoop的大数据遥感卫星数据处理系统,该系统采用基于Hadoop的数据平台实现数据分布式存储和管理,适用于大数据处理和分析。本专利技术的上述目的通过以下方案实现:一种基于Hadoop的大数据遥感卫星数据处理系统,包括数据获取子系统、Hadoop数据平台、计算处理子系统和应用子系统,所述Hadoop数据平台包括分布式文件子系统、资源管理子系统、数据库和物理存储单元,其中:数据获取子系统:接收外部采集系统发送的源数据,对所述源数据进行解压缩或格式转换,然后将数据发送到Hadoop数据平台的分布式文件子系统;分布式文件子系统:接收数据获取子系统发送的数据,以及计算处理子系统发送的数据处理结果,将所述数据和数据处理结果按照分布式存储策略存储在物理存储单元中,并将所述存储数据和数据处理结果的元信息存储在数据库中;资源管理子系统:接收应用子系统发送的指令,对所述指令进行解析,按照指令解析结果从数据库中读取相应数据的元信息,然后将指令解析结果和数据元信息发送到计算处理子系统;计算处理子系统:接收资源管理子系统发送的数据元信息和指令解析结果,根据所述数据元信息在Hadoop数据平台的物理存储单元中读取相应数据,然后按照所述指令解析结果对数据进行相应处理,并将数据处理结果发送到分布式文件子系统进行存储;应用子系统:发送指令到资源管理子系统,并通过分布文件子系统读取数据处理结果进行显示。在上述的基于Hadoop的大数据遥感卫星数据处理系统中,Hadoop数据平台的存储物理单元为在线盘阵。在上述的基于Hadoop的大数据遥感卫星数据处理系统中,计算处理子系统包括多个分布式物理计算单元,并且所述分布式物理计算单元和资源管理子系统通过光纤网络实现互连。在上述的基于Hadoop的大数据遥感卫星数据处理系统中,资源管理子系统包括MapReduce计算框架,所述计算框架实现数据划分、计算调度和数据归约整合控制,具体控制实现方法如下:(I)、MapReduce计算框架根据指令解析结果对数据处理任务进行划分,按照任务划分结果将各分任务对应的数据元信息和指令分发到计算处理子系统的各分布式物理计算单元;(2)、各分布式物理计算单元根据接收到的数据元信息读取相应数据,并按照接收到的指令进行数据处理;(3)、MapReduce计算框架根据步骤(I)的任务划分结果,对各分布式物理计算单元的数据处理结果进行归约整合,即各分布式物理计算单元按照MapReduce计算框架给出的归约整合指令将数据处理结果发送到分布式文件子系统进行存储。在上述的基于Hadoop的大数据遥感卫星数据处理系统中,应用子系统包括多个应用服务器,所述应用服务器通过如下方法实现数据查询和下载处理:应用服务器接收外部输入的数据查询或下载命令,对所述命令进行解析后,按照命令解析结果在Hadoop数据平台的数据库中查找数据元信息,然后按照所述数据元信息从物理存储单元中读取数据,并在用户计算机上对所述数据进行显示或下载。本专利技术与现有技术相比,具有以下优点:(I)、本专利技术采用的Hadoop数据平台采用分布式存储策略实现大数据的存储,相对于现有技术中采用的集中存储方式,这种分布存储策略可以避免存储单元物理损坏造成大片数据丢失的问题,提高了数据存储的安全性,而且这种分布存储策略支持存储物理单元的规模扩展,从而实现存储容量的灵活扩充;(2)、本专利技术采用的Hadoop数据平台采用在线盘阵作为物理存储单元,数据完全采用在线化存储,提高了数据存储和提取效率;(3)、本专利技术的计算处理子系统由多个分布式计算单元组成,每个计算单元处理的数据类型和算法类型互补,各单元之间可以共享计算资源后可以实现多类型数据的多种处理实现。【附图说明】图1为现有技术中遥感卫星数据处理系统组成框图;图2为本专利技术的基于Hadoop的大数据遥感卫星数据处理系统组成框图。【具体实施方式】下面结合附图和具体实施例对本专利技术作进一步详细的描述:如图2所示的系统组成框图,本专利技术的基于Hadoop的大数据遥感卫星数据处理系统包括数据获取子系统、Hadoop数据平台、计算处理子系统和应用子系统,其中,Hadoop数据平台包括分布式文件子系统、资源管理子系统、数据库和物理存储单元。(一)、数据获取子系统数据获取子系统处于大数据获取层,用于接收外部采集系统发送的源数据。该源数据包括卫星遥感数据、定标数据、基础地理信息数据等。数据获取子系统需要根据源数据的类型进行数据整理,如果源数据为压缩数据,则需要按照设定的压缩格式对该数据进行解压缩,而且需要将各源数据的数据格式统一为适应Hadoop数据平台的格式。完成数据整理后,将适应于Hadoop数据平台的数据发送到Hadoop数据平台的分布式文件子系统。(二)、Hadoop 数据平台本专利技术的Hadoop数据平台为基于Hadoop的大数据平台,该平台基于分布式文件系统HDFS建立遥感卫星数据存储策略,可以满足不同时效性数据存储和读取需求,而且该平台采用YARN架构,如同平台的资源管理器,控制整个集群并管理应用程序向基础计算资源的分配,允许多个应用程序同时、高效地运行在一个集群上。而且该平台具有MapReduce分布式计算框架,该计算框架可以进行数据划分、计算调度和数据归约整合,从而完成数据信息快速分布式处理。该平台的数据库采用HBase列式数据库系统,可以用来存储大量的数据元信息。该平台还具有s当前第1页1 2 本文档来自技高网
...

【技术保护点】
一种基于Hadoop的大数据遥感卫星数据处理系统,其特征在于:包括数据获取子系统、Hadoop数据平台、计算处理子系统和应用子系统,所述Hadoop数据平台包括分布式文件子系统、资源管理子系统、数据库和物理存储单元,其中:数据获取子系统:接收外部采集系统发送的源数据,对所述源数据进行解压缩或格式转换,然后将数据发送到Hadoop数据平台的分布式文件子系统;分布式文件子系统:接收数据获取子系统发送的数据,以及计算处理子系统发送的数据处理结果,将所述数据和数据处理结果按照分布式存储策略存储在物理存储单元中,并将所述存储数据和数据处理结果的元信息存储在数据库中;资源管理子系统:接收应用子系统发送的指令,对所述指令进行解析,按照指令解析结果从数据库中读取相应数据的元信息,然后将指令解析结果和数据元信息发送到计算处理子系统;计算处理子系统:接收资源管理子系统发送的数据元信息和指令解析结果,根据所述数据元信息在Hadoop数据平台的物理存储单元中读取相应数据,然后按照所述指令解析结果对数据进行相应处理,并将数据处理结果发送到分布式文件子系统进行存储;应用子系统:发送指令到资源管理子系统,并通过分布式文件子系统读取数据处理结果进行显示。...

【技术特征摘要】

【专利技术属性】
技术研发人员:邵俊徐文喻文勇徐大琦冯春
申请(专利权)人:中国资源卫星应用中心
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1