The invention provides a processing method of ETL E-government Based on data acquisition, which belongs to the technical field of data acquisition, the method provides an external file to import the data, through the external database platform tool mode extraction to obtain data, and real-time monitoring, in the process of data acquisition finally, statistical analysis of the collected data to achieve according to the size and quantity of the data acquisition time, solve the management and use of data and efficient government. The invention also provides a ETL processing device, including: ETL data acquisition module through the ETL tool to provide external file data import and external database extraction to complete data acquisition; tools provided by ETL interface to realize the data by creating a task task scheduling, real-time monitoring scheduling and monitoring module for query; file or data extraction data amount, quantity, amount of success and failure, the total amount of statistical data acquisition success size and the number of days issued by statistical analysis graph analysis module.
【技术实现步骤摘要】
一种基于政务数据采集的ETL处理方法及装置
本专利技术涉及数据采集
,具体地说是一种基于政务数据采集的ETL处理方法及装置。
技术介绍
随着网络和信息技术的不断普及,人类产生的数据量正在呈指数级增长。大约每两年翻一番,根据监测,这个速度在2020年之前会继续保持下去。这意味着人类在最近两年产生的数据量相当于之前产生的全部数据量。大量新数据源的出现则导致了非结构化、半结构化数据爆发式的增长。信息数据的单位由TB-PB-EB-ZB的级别暴增。这些由我们创造的信息背后产生的这些数据早已经远远超越了目前人力所能处理的范畴。如何管理和使用这些数据,逐渐成为一个新的领域,于是大数据的概念应运而生。随着BIGDATA大数据概念逐渐升温,如何搭建一个能够采集海量数据的架构体系摆在大家眼前,如何能够做到所见即所得的无阻拦式采集、如何快速把不规则数据结构化并存储、如何满足越来越多的数据在有限时间内采集迫在眉睫。
技术实现思路
本专利技术的技术任务是解决现有技术的不足,提供一种基于政务数据采集的ETL处理方法及装置,实现政务的高效管理和数据的有效利用。本专利技术解决其技术问题所采用的技术方案是:一种基于政务数据采集的ETL处理方法,该ETL处理方法包括政务数据的采集、数据采集过程中实时监控、对采集数据进行汇总及统计分析三部分。所涉及ETL处理方法具体通过ETL工具的方式提供外部文件数据的导入、外部数据库的抽取完成政务数据的采集。所涉及ETL工具为kettle,ETL处理方法具体通过kettle提供的http接口来实现外部文件数据的导入、外部数据库的抽取。所涉及外部文件数据导入 ...
【技术保护点】
一种基于政务数据采集的ETL处理方法,其特征在于,该ETL处理方法包括政务数据的采集、数据采集过程中实时监控、对采集数据进行汇总及统计分析三部分。
【技术特征摘要】
1.一种基于政务数据采集的ETL处理方法,其特征在于,该ETL处理方法包括政务数据的采集、数据采集过程中实时监控、对采集数据进行汇总及统计分析三部分。2.根据权利要求1所述的一种基于政务数据采集的ETL处理方法,其特征在于,所述ETL处理方法通过ETL工具的方式提供外部文件数据的导入、外部数据库的抽取完成政务数据的采集。3.根据权利要求2所述的一种基于政务数据采集的ETL处理方法,其特征在于,所述ETL工具为kettle,ETL处理方法通过kettle提供的http接口来实现外部文件数据的导入、外部数据库的抽取。4.根据权利要求3所述的一种基于政务数据采集的ETL处理方法,其特征在于,所述外部文件数据导入、外部数据库的抽取时,需要获取文件导入或者数据抽取任务列表、查询任务列表数量、查看任务详情、更新任务状态。5.根据权利要求3所述的一种基于政务数据采集的ETL处理方法,其特征在于,所述外部文件数据导入的实现流程为:1)开始;2)填写任务名称、任务描述;3)选择文件获取方式:a)采用文件上传方式,首先下载导入模板,然后上传文件;b)采用远程获取方式,首先填写主机地址、端口、用户及密码,然后填写文件路径、命名格式;c)采用服务器读取的方式,直接填写文件路径、命名格式;4)配置数据更新方式;5)数据格式:a)为非结构化数据时,依次完成文件获取、提交至hdfs存储、存储位置保存至关系型数据库工作后;b)为结构化数据时,依次完成适配器解析、通过增量或全量的同步方式完成文件解析...
【专利技术属性】
技术研发人员:李会,郝文祥,
申请(专利权)人:山东浪潮云服务信息科技有限公司,
类型:发明
国别省市:山东,37
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。