基于Hadoop架构的气象大数据汇聚方法技术

技术编号:25123139 阅读:62 留言:0更新日期:2020-08-05 02:52
本发明专利技术公开了一种基于Hadoop架构的气象大数据汇聚方法,技术方案可概括为:首先搭建并部署多源异构气象大数据资源汇聚环境,然后获取气象分析的需求信息,根据需求信息通过可视化界面Web端配置资源汇聚信息创建资源汇聚任务,并配置资源汇聚任务基础信息,设计气象数据的清洗算法;设计资源汇聚的入口调用方法,根据资源汇聚任务进行资源汇聚参数配置,调用气象多源异构数据接口从不同类型的数据源中获取原始气象数据,利用设计的清洗算法对接入的原始气象数据进行数据清洗,最后将清洗后的气象数据存储到目标数据库,完成资源汇聚。通过本方案可获取不同数据源中的气象数据并对其进行数据清洗,完成数据的资源汇聚,为气象数据分析提供数据支持。

【技术实现步骤摘要】
基于Hadoop架构的气象大数据汇聚方法
本专利技术涉及大数据处理
,具体涉及基于Hadoop架构的气象大数据汇聚方法。
技术介绍
气候资料指的是用常规气象仪器和专业气象器材所观测到各种原始资料的集合以及加工、整理、整编所形成的各种资料。但随着现代气候的发展,气候研究内容不断扩大和深化,气候资料概念和内涵得以进一步的延伸,泛指整个气候系统的有关原始资料的集合和加工产品。天气资料是为天气分析和预报服务的一种实时性很强的气象资料。天气资料和气候资料主要区别是:天气资料随着时间的推移转化为气候资料;气候资料的内容比天气资料要广泛得多;气候资料是长时间序列的资料,而天气资料是短时间内的资料。国家气象信息中心每天接收来自国内外主要台站的观测资料,这些资料日积月累,随时间的推移而成为气候资料。国内一部分台站每月将观测记录报表和数字化资料寄送或传输到国家气象信息中心,这些资料或报表成为气候资料重要的部分。此外,气候资料还包括通过各种渠道收集到的其他学科如水文、地学等资料。目前随着物联网技术的高速发展,各种终端、基础采集设备的数量和种类不断增加,每时每刻都会产生大量数据,这些数据种类繁多,分为结构化数据和非结构化数据。如何从不同的数据源获取众多的气象数据并对气象数据进行数据清洗成为亟待解决的问题。
技术实现思路
本专利技术目的在于为现有的气象数据分析系统提供数据支持。本专利技术的目的是通过以下技术方案来实现的:基于Hadoop架构的气象大数据汇聚方法,包括如下步骤:S1,搭建并部署多源异构气象大数据资源汇聚环境;S2,获取气象分析的需求信息,根据需求信息通过可视化界面Web端配置资源汇聚信息创建资源汇聚任务,并配置资源汇聚任务基础信息;S3,设计气象数据的清洗算法;S4,设计资源汇聚的入口调用方法,根据资源汇聚任务进行资源汇聚参数配置;S5,从气象多源异构数据接口获取原始气象数据,根据设计的清洗算法开始对接入的原始气象数据进行数据清洗;S6,将清洗后的气象数据存储到目标数据库,完成资源汇聚。其中,所述的步骤S1资源汇聚环境搭建部署过程中包括数据汇聚实时消息系统Kafka集群的搭建、Hadoop分布式文件存储系统HDFS数据存储环境的搭建、搭建资源汇聚任务在Linux系统中运行环境。其中,所述Kafka集群的搭建过程中包括搭建4个缓存代理节点和2个消息生成者节点。其中,所述的Hadoop分布式文件存储系统HDFS数据存储环境的搭建过程中包括搭建2个NameNode节点和4个DataNode节点。其中,所述的步骤S4中的资源汇聚参数配置包括数据源类型配置、数据源地址配置、目的数据库字段映射关系配置、初步数据清洗算法配置、大数据量的分页及循环设置。其中,所述的步骤S3中的数据清洗方法采用脚本方式编写,通过Java技术调用清洗算法脚本。其中,所述的资源汇聚任务基础信息包括录入任务名、执行时间和执行频次。其中,所述的数据源包括关系型数据库和结构化及文本数据。本专利技术的有益效果:本专利技术提出的一种基于Hadoop架构的气象大数据汇聚方法,可以从不同的数据源中获取原始的气象资料,包括结构化数据和非结构化数据,并对获取的原始气象资料进行数据清洗,并将清洗过后的气象数据存储到数据库,完成对气象大数据的资源汇聚。本专利技术的方法为气象分析提供数据支持,可提高气象分析中的资源汇聚效率。附图说明图1是本专利技术的方法流程图。图2是本专利技术的气象大数据清洗流程图。具体实施方式为了对本专利技术的技术特征、目的和效果有更加清楚的理解,现对照附图说明本专利技术的具体实施方式。本实施例中,如图1所示,基于Hadoop架构的气象大数据汇聚方法如下:S1,搭建并部署多源异构气象大数据资源汇聚环境;S2,获取气象分析的需求信息,根据需求信息通过可视化界面Web端配置资源汇聚信息创建资源汇聚任务,并配置资源汇聚任务基础信息;S3,设计气象数据的清洗算法;S4,设计资源汇聚的入口调用方法,根据资源汇聚任务进行资源汇聚参数配置;S5,从气象多源异构数据接口获取原始气象数据,根据设计的清洗算法开始对接入的原始气象数据进行数据清洗;S6,将清洗后的气象数据存储到目标数据库,完成资源汇聚。其中,所述的步骤S1资源汇聚环境搭建部署过程中包括数据汇聚实时消息系统Kafka集群的搭建、Hadoop分布式文件存储系统HDFS数据存储环境的搭建、搭建资源汇聚任务在Linux系统中运行环境。其中,所述Kafka集群的搭建过程中包括搭建4个缓存代理节点和2个消息生成者节点。其中,所述的Hadoop分布式文件存储系统HDFS数据存储环境的搭建过程中包括搭建2个NameNode节点和4个DataNode节点。其中,所述的步骤S4中的资源汇聚参数配置包括数据源类型配置、数据源地址配置、目的数据库字段映射关系配置、初步数据清洗算法配置、大数据量的分页及循环设置。其中,所述的步骤S3中的数据清洗方法采用脚本方式编写,通过Java技术调用清洗算法脚本。其中,所述的资源汇聚任务基础信息包括录入任务名、执行时间和执行频次。其中,所述的数据源包括关系型数据库和结构化及文本数据。如图2所示,气象大数据的清洗过程包括:预处理阶段,将数据导入处理工具,查看待清洗数据的描述信息;缺失值清洗,计算数据字段中的缺失比例和字段重要性,去除或者补全有缺失的数据;格式内容清洗,去除或者修改人工收集的数据中存在的格式和内容错误;逻辑错误清洗,通过逻辑推理去除数据中的逻辑错误,防止分析结果出现偏差;非需求数据清洗,删除数据中对业务不重要的字段;关联性验证,在对多个来。源的数据整合过程中进行关联性验证,确保在分析过程中不出现数据互相矛盾的问题。具体的,在预处理阶段中,主要完成两件事:一是将数据导入处理工具。通常来说,建议使用数据库,单机跑数搭建MySQL环境即可。如果数据量大(千万级以上),可以使用文本文件存储+Python操作的方式。二是查看数据。这里包含两个部分:一是查看元数据,包括字段解释、数据来源、代码表等等一切描述数据的信息;二是抽取一部分数据,使用人工查看方式,对数据本身有一个直观的了解,并且初步发现一些问题,为之后的处理做准备。缺失值清洗过程中,分四个步骤进行:一、确定缺失值的范围,对数据的每个字段都计算其缺失值比例,然后按照缺失比例和字段重要性分别制定数据缺失处理策略;二、去除不需要的字段,直接删除掉数据中不需要的字段,清洗的同时对数据进行备份,或者在小规模数据上进行试验,成功后再处理全量数据;三、填充缺失内容,通过缺失填充方法对数据中的缺失内容进行填充,保证数据的完整性;四、重新取数,如果数据中某些指标非常重要而缺失率又高,需要同相关技术人员了解,是否有其它渠道可以取到该数据,重新对该数据进行读取。其中,第一步中按照缺失比例和字段重要性分别制定处理策略包本文档来自技高网...

【技术保护点】
1.基于Hadoop架构的气象大数据汇聚方法,其特征在于,包括以下步骤:/nS1,搭建并部署多源异构气象大数据资源汇聚环境;/nS2,获取气象分析的需求信息,根据需求信息通过可视化界面Web端配置资源汇聚信息创建资源汇聚任务,并配置资源汇聚任务基础信息;/nS3,设计气象数据清洗算法;/nS4,设计资源汇聚的入口调用方法,根据资源汇聚任务进行资源汇聚参数配置;/nS5,调用气象多源异构数据接口从不同类型的数据源中获取原始气象数据,根据设计的清洗算法开始对接入的原始气象数据进行数据清洗;/nS6,将清洗后的气象数据存储到目标数据库,完成资源汇聚。/n

【技术特征摘要】
1.基于Hadoop架构的气象大数据汇聚方法,其特征在于,包括以下步骤:
S1,搭建并部署多源异构气象大数据资源汇聚环境;
S2,获取气象分析的需求信息,根据需求信息通过可视化界面Web端配置资源汇聚信息创建资源汇聚任务,并配置资源汇聚任务基础信息;
S3,设计气象数据清洗算法;
S4,设计资源汇聚的入口调用方法,根据资源汇聚任务进行资源汇聚参数配置;
S5,调用气象多源异构数据接口从不同类型的数据源中获取原始气象数据,根据设计的清洗算法开始对接入的原始气象数据进行数据清洗;
S6,将清洗后的气象数据存储到目标数据库,完成资源汇聚。


2.根据权利要求1所述的基于Hadoop架构的气象大数据汇聚方法,其特征在于,所述的步骤S1资源汇聚环境搭建部署过程中包括数据汇聚实时消息系统Kafka集群的搭建、Hadoop分布式文件存储系统HDFS数据存储环境的搭建、搭建资源汇聚任务在Linux系统中运行环境。


3.根据权利要求2所述的基于Hadoop架构的气象大数据汇聚方法,其特征在于,所述Kafka集群的搭建过程中包括搭建4个...

【专利技术属性】
技术研发人员:张强陈东辉刘一鸣韩瑞罗岚心高静石岩赵煜飞刘雨佳冯爱霞战云健姜筱玮王妍梁中军兰平范邵华李默予
申请(专利权)人:国家气象信息中心
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1