一种基于政务数据采集的ETL处理方法及装置制造方法及图纸

技术编号:16779536 阅读:64 留言:0更新日期:2017-12-12 23:51
本发明专利技术提供一种基于政务数据采集的ETL处理方法,属于数据采集技术领域,该处理方法通过平台工具的方式提供外部文件数据的导入、外部数据库的抽取获取到数据,并在获取数据的过程中实时监控,最后,对采集到的数据实现按数据量大小和采集天数进行统计分析,解决政务高效的管理和使用数据。本发明专利技术还提供一种ETL处理装置,包括:通过ETL工具的方式提供外部文件数据的导入、外部数据库的抽取完成数据采集的ETL数据采集模块;通过ETL工具提供的接口来实现数据调度、通过创建task任务进行实时监控的调度与监控模块;用于查询文件导入或者数据抽取的数据总量、成功量、失败量,并把采集成功的数据总量分大小和天数出具统计分析图的统计分析模块。

A ETL processing method and device based on government data acquisition

The invention provides a processing method of ETL E-government Based on data acquisition, which belongs to the technical field of data acquisition, the method provides an external file to import the data, through the external database platform tool mode extraction to obtain data, and real-time monitoring, in the process of data acquisition finally, statistical analysis of the collected data to achieve according to the size and quantity of the data acquisition time, solve the management and use of data and efficient government. The invention also provides a ETL processing device, including: ETL data acquisition module through the ETL tool to provide external file data import and external database extraction to complete data acquisition; tools provided by ETL interface to realize the data by creating a task task scheduling, real-time monitoring scheduling and monitoring module for query; file or data extraction data amount, quantity, amount of success and failure, the total amount of statistical data acquisition success size and the number of days issued by statistical analysis graph analysis module.

【技术实现步骤摘要】
一种基于政务数据采集的ETL处理方法及装置
本专利技术涉及数据采集
,具体地说是一种基于政务数据采集的ETL处理方法及装置。
技术介绍
随着网络和信息技术的不断普及,人类产生的数据量正在呈指数级增长。大约每两年翻一番,根据监测,这个速度在2020年之前会继续保持下去。这意味着人类在最近两年产生的数据量相当于之前产生的全部数据量。大量新数据源的出现则导致了非结构化、半结构化数据爆发式的增长。信息数据的单位由TB-PB-EB-ZB的级别暴增。这些由我们创造的信息背后产生的这些数据早已经远远超越了目前人力所能处理的范畴。如何管理和使用这些数据,逐渐成为一个新的领域,于是大数据的概念应运而生。随着BIGDATA大数据概念逐渐升温,如何搭建一个能够采集海量数据的架构体系摆在大家眼前,如何能够做到所见即所得的无阻拦式采集、如何快速把不规则数据结构化并存储、如何满足越来越多的数据在有限时间内采集迫在眉睫。
技术实现思路
本专利技术的技术任务是解决现有技术的不足,提供一种基于政务数据采集的ETL处理方法及装置,实现政务的高效管理和数据的有效利用。本专利技术解决其技术问题所采用的技术方案是:一种基于政务数据采集的ETL处理方法,该ETL处理方法包括政务数据的采集、数据采集过程中实时监控、对采集数据进行汇总及统计分析三部分。所涉及ETL处理方法具体通过ETL工具的方式提供外部文件数据的导入、外部数据库的抽取完成政务数据的采集。所涉及ETL工具为kettle,ETL处理方法具体通过kettle提供的http接口来实现外部文件数据的导入、外部数据库的抽取。所涉及外部文件数据导入、外部数据库的抽取时,需要获取文件导入或者数据抽取任务列表、查询任务列表数量、查看任务详情、更新任务状态。所涉及外部文件数据导入的实现流程为:1)开始;2)填写任务名称、任务描述;3)选择文件获取方式:a)采用文件上传方式,首先下载导入模板,然后上传文件;b)采用远程获取方式,首先填写主机地址、端口、用户及密码,然后填写文件路径、命名格式;c)采用服务器读取的方式,直接填写文件路径、命名格式;4)配置数据更新方式;5)数据格式:a)为非结构化数据时,依次完成文件获取、提交至hdfs存储、存储位置保存至关系型数据库工作后;b)为结构化数据时,依次完成适配器解析、通过增量或全量的同步方式完成文件解析和数据保存工作;6)结束。所涉及外部数据库抽取的实现流程为:1)开始;2)抽取任务创建流程;3)启用任务:4)生成任务文件,并上传;5)生成kettle执行任务;6)调度执行;7)停用任务;8)更新为停用状态;9)停止并删除调度任务;10)结束。所涉及数据采集过程中,通过创建task任务进行实时监控。对采集数据进行汇总及统计分析的过程具体包括:查询文件导入或者数据抽取的数据总量、成功量、失败量;把采集成功的数据总量分大小和天数出具统计分析图。本专利技术还提供了一种基于政务数据采集的ETL处理装置,该ETL处理装置包括:ETL数据采集模块,该模块通过ETL工具的方式提供外部文件数据的导入、外部数据库的抽取完成政务数据的采集;调度与监控模块,该模块通过ETL工具提供的接口来实现数据调度、通过创建task任务进行实时监控;统计分析模块,该模块用于查询文件导入或者数据抽取的数据总量、成功量、失败量,并把采集成功的数据总量分大小和天数出具统计分析图。所涉及ETL数据采集模块完成外部文件数据导入、外部数据库的抽取时,需要获取文件导入或者数据抽取任务列表、查询任务列表数量、查看任务详情、更新任务状态。本专利技术的一种基于政务数据采集的ETL处理方法及装置与现有技术相比所产生的有益效果是:1)本专利技术的ETL处理方法包括政务数据的采集、数据采集过程中实时监控、对采集数据进行汇总及统计分析三部分,能够通过平台工具的方式提供外部文件数据的导入、外部数据库的抽取获取到数据,并在获取数据的过程中实时监控,对采集到的数据实现按数据量大小和采集天数进行统计分析,实现政务的高效管理和数据的有效利用;2)另外,本专利技术还提供一种ETL处理装置,其与上述ETL处理方法的相同,通过平台工具的方式提供外部文件数据的导入、外部数据库的抽取获取到数据,并在获取数据的过程中实时监控,对采集到的数据实现按数据量大小和采集天数进行统计分析,实现政务的高效管理和数据的有效利用。附图说明附图1是本专利技术中实施例一的方法流程图;附图2是实施例一中外部文件数据导入的实现流程图;附图3是实施例一中外部数据库抽取的实现流程图;附图4是本专利技术中实施例二的连接框图。具体实施方式下面结合附图1-4,对本专利技术的一种基于政务数据采集的ETL处理方法及装置作以下详细说明。实施例一:如附图1所示,本专利技术提供一种基于政务数据采集的ETL处理方法,该ETL处理方法包括政务数据的采集、数据采集过程中实时监控、对采集数据进行汇总及统计分析三部分。所涉及ETL处理方法具体通过ETL工具的方式提供外部文件数据的导入、外部数据库的抽取完成政务数据的采集。所涉及ETL工具为kettle,ETL处理方法具体通过kettle提供的http接口来实现外部文件数据的导入、外部数据库的抽取。所涉及外部文件数据导入、外部数据库的抽取时,需要获取文件导入或者数据抽取任务列表、查询任务列表数量、查看任务详情、更新任务状态。如附图2所示,所涉及外部文件数据导入的实现流程为:1)开始;2)填写任务名称、任务描述;3)选择文件获取方式:a)采用文件上传方式,首先下载导入模板,然后上传文件;b)采用远程获取方式,首先填写主机地址、端口、用户及密码,然后填写文件路径、命名格式;c)采用服务器读取的方式,直接填写文件路径、命名格式;4)配置数据更新方式;5)数据格式:a)为非结构化数据时,依次完成文件获取、提交至hdfs存储、存储位置保存至关系型数据库工作后;b)为结构化数据时,依次完成适配器解析、通过增量或全量的同步方式完成文件解析和数据保存工作;6)结束。如附图3所示,所涉及外部数据库抽取的实现流程为:1)开始;2)抽取任务创建流程;3)启用任务:4)生成任务文件,并上传;5)生成kettle执行任务;6)调度执行;7)停用任务;8)更新为停用状态;9)停止并删除调度任务;10)结束。所涉及数据采集过程中,通过创建task任务进行实时监控。对采集数据进行汇总及统计分析的过程具体包括:查询文件导入或者数据抽取的数据总量、成功量、失败量;把采集成功的数据总量分大小和天数出具统计分析图。本专利技术的ETL处理方法能够通过平台工具的方式提供外部文件数据的导入、外部数据库的抽取获取到数据,并在获取数据的过程中实时监控,对采集到的数据实现按数据量大小和采集天数进行统计分析,实现政务的高效管理和数据的有效利用。实施例二:参考附图4,本专利技术还提供了一种基于政务数据采集的ETL处理装置,该ETL处理装置包括:ETL数据采集模块,该模块通过ETL工具的方式提供外部文件数据的导入、外部数据库的抽取完成政务数据的采集;调度与监控模块,该模块通过ETL工具提供的接口来实现数据调度、通过创建task任务进行实时监控;统计分析模块,该模块用于查询文件导入或者数据抽取的数据总量、成功量、失败量,并把采集成功的数据总量分本文档来自技高网...
一种基于政务数据采集的ETL处理方法及装置

【技术保护点】
一种基于政务数据采集的ETL处理方法,其特征在于,该ETL处理方法包括政务数据的采集、数据采集过程中实时监控、对采集数据进行汇总及统计分析三部分。

【技术特征摘要】
1.一种基于政务数据采集的ETL处理方法,其特征在于,该ETL处理方法包括政务数据的采集、数据采集过程中实时监控、对采集数据进行汇总及统计分析三部分。2.根据权利要求1所述的一种基于政务数据采集的ETL处理方法,其特征在于,所述ETL处理方法通过ETL工具的方式提供外部文件数据的导入、外部数据库的抽取完成政务数据的采集。3.根据权利要求2所述的一种基于政务数据采集的ETL处理方法,其特征在于,所述ETL工具为kettle,ETL处理方法通过kettle提供的http接口来实现外部文件数据的导入、外部数据库的抽取。4.根据权利要求3所述的一种基于政务数据采集的ETL处理方法,其特征在于,所述外部文件数据导入、外部数据库的抽取时,需要获取文件导入或者数据抽取任务列表、查询任务列表数量、查看任务详情、更新任务状态。5.根据权利要求3所述的一种基于政务数据采集的ETL处理方法,其特征在于,所述外部文件数据导入的实现流程为:1)开始;2)填写任务名称、任务描述;3)选择文件获取方式:a)采用文件上传方式,首先下载导入模板,然后上传文件;b)采用远程获取方式,首先填写主机地址、端口、用户及密码,然后填写文件路径、命名格式;c)采用服务器读取的方式,直接填写文件路径、命名格式;4)配置数据更新方式;5)数据格式:a)为非结构化数据时,依次完成文件获取、提交至hdfs存储、存储位置保存至关系型数据库工作后;b)为结构化数据时,依次完成适配器解析、通过增量或全量的同步方式完成文件解析...

【专利技术属性】
技术研发人员:李会郝文祥
申请(专利权)人:山东浪潮云服务信息科技有限公司
类型:发明
国别省市:山东,37

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1