一种基于Kettle的大数据汇聚集成方法技术

技术编号:37333011 阅读:15 留言:0更新日期:2023-04-21 23:11
本发明专利技术涉及一种基于Kettle的大数据汇聚集成方法,包括:数据资源管理,对数据资源的各类信息进行配置和管理,实现各数据库与ETL工具的连接与联动;Kettle流程设计器,通过对kettle各核心组件的封装与二次开发,实现高效数据集成;任务调度管理,提供调度规则的配置和任务的管理;任务监控管理,提供任务执行状态的监控和管理;集群配置管理,对Kettle集群的配置信息进行管理;分布式文件存储,对文件资源进行存储和管理,实现高效的文件存储;文件解析,对文件资源进行高效的解析入库。本发明专利技术可提供基于分布式并行架构开发的ETL数据集成功能,具备高吞吐、高可用、高扩展特性。高扩展特性。

【技术实现步骤摘要】
一种基于Kettle的大数据汇聚集成方法


[0001]本专利技术属于大数据处理
,涉及一种基于Kettle的大数据汇聚集成方法。

技术介绍

[0002]随着企业信息化应用的不断深入,在寻求业务管理精益的同时,信息化对于决策的支撑、对于市场前沿的洞察力成为了越来越多企业深化应用的方向。当前企业信息系统的数据量越来越多,种类越来越丰富,但是总体来说,数据相互独立,内在逻辑互不联系,信息孤岛问题严重,迫切需要对数据进行汇聚、集成、整合和分析。数据整合分析已成为现代企业管理的通用性需求。

技术实现思路

[0003]本专利技术的目的是提供一种大数据汇聚集成方法,采用简单直观的数据管理视图,针对百亿级规模的结构化、半结构化、非结构化数据,提供可适配的统一接入模式,提供数据资源管理、任务调度管理、任务监控管理、集群配置管理、分布式文件存储、文件解析等多项功能。
[0004]本专利技术的技术方案如下:
[0005]一种基于Kettle的大数据汇聚集成方法,其特征在于包括以下步骤:
[0006](1)数据资源管理:对数据资源的各类信息进行配置和管理,实现各数据库与ETL工具的连接与联动;
[0007](2)Kettle流程设计器:通过对kettle各核心组件的封装与二次开发,实现复杂流程的设计并生成任务,同时,创新使用集群抽取方式,实现高效数据集成;
[0008](3)任务调度管理:提供调度规则的配置和任务的管理;
[0009](4)任务监控管理:提供任务执行状态的监控和管理;
[0010](5)集群配置管理:对Kettle集群的配置信息进行管理;
[0011](6)分布式文件存储:对文件资源进行存储和管理,提供HDFS和Fastdfs两种文件存储方式,实现高效的文件存储;
[0012](7)文件解析:对文件资源进行高效的解析入库。
[0013]本专利技术可提供基于分布式并行架构开发的ETL数据集成功能,具备高吞吐、高可用、高扩展特性,可以为海量数据的超大规模数据仓库建设提供抽取、整合、清洗、入库等集成业务;可提供任务配置及调度管理全流程可视化配置方式,以及基于策略的智能化管理,有效保障集群的高可用。
具体实施方式
[0014]一种基于Kettle的大数据汇聚集成方法,其特征在于包括以下步骤:
[0015](1)数据资源管理:对数据资源的各类信息进行配置和管理,实现各数据库与ETL工具的连接与联动;
[0016](2)Kettle流程设计器:通过对kettle各核心组件的封装与二次开发,实现复杂流程的设计并生成任务,同时,创新使用集群抽取方式,实现高效数据集成;
[0017](3)任务调度管理:提供调度规则的配置和任务的管理;
[0018](4)任务监控管理:提供任务执行状态的监控和管理;
[0019](5)集群配置管理:对Kettle集群的配置信息进行管理;
[0020](6)分布式文件存储:对文件资源进行存储和管理,提供HDFS和Fastdfs两种文件存储方式,实现高效的文件存储;
[0021](7)文件解析:对文件资源进行高效的解析入库。
[0022]上述方法中,所述数据资源管理主要包括:
[0023](11)数据源管理:
[0024]提供对业务数据库、NoSql数据库、基于Hadoop的Hive、Hbase数据库的管理,配置数据库连接信息,加载至数据源管理的资源库实现统一配置管理。数据源管理配置的主要属性包含:数据库名称、数据库类型、数据库连接方式、数据库模式名称、数据库用户名、数据库密码等相关配置信息。
[0025](12)数据库类型资源管理:
[0026]提供数据库连接资源,集成了26类数据库,实现了对数据源的配置管理和数据抽取,兼容了关系型数据库如:Mysql、Oracle、DB2等;支持NoSql数据库如:MongoDB;支持基于hadoop大数据平台的Hive、Hbase;支持内存数据库SQLlite、H2。
[0027](13)数据源连接方式管理:
[0028]提供多样化数据库接入方式,实现5类数据库连接方式,如Native JDBC、ODBC、OCI、JNDI、pluhin,常用的连接方式都实现了支持,满足对常用数据库数据接入需求。
[0029]所述任务调度管理,主要包括:
[0030](31)调度任务管理:
[0031]对配置好的数据抽取任务加入到一个任务中来。定义了该调度任务的任务名称、任务类型、任务组别,任务目录、运行方式、触发器名称、表达式、触发器组别、任务描述等创建调度任务的最基本的信息。
[0032](31)调度触发器管理:
[0033]调度触发器主要是设置调度的时间规则的管理。定义了该调度规则的是否定时调度开关、调度的类型、根据类型的选择设置每月、每周、每天、每时、每分、每秒的基础信息设置。调度触发器管理采用前后端分离的形式,后端程序不仅为前端提供服务接口,也支持外部系统的接口调用。
[0034](31)调度任务运行情况管理:
[0035]调度任务运行情况管理主要是对任务运行状态的调整。调度任务的状态包含:暂停、运行、编辑、删除这四种状态。如果调度任务处于暂停状态,可以进行编辑、删除操作,如果调度任务处于运行状态,则必须先将调度任务设置为暂停状态才可以进行编辑和删除操作。
[0036]调度任务运行情况管理包含任务运行状态的切换功能,平台采用前后端分离的形式,后端程序不仅为前端提供服务接口,也支持外部系统的接口调用。
[0037]所述任务监控管理,主要包括:
[0038](41)收集日志:
[0039]日志分为运行中程序内部日志和调度任务在各个节点执行的状态日志。系统会捕获程序内部出现异常信息,然后记录时间、异常类型和具体错误程序引用信息;系统会通过第三方组件收集远程访问调度任务在集群各个节点上执行过程中产生的日志信息。
[0040]:(42)获取任务状态
[0041]任务包含运行中、已完成、暂停、错误、等待着5种状态,任务状态是从各个节点任务执行状态日志获取。在集群中执行任务时会比较复杂,日志收集通过多线程和线程同步以及字段匹配等获取相同任务多节点执行中状态信息。
[0042](43)计算任务进度
[0043]一个调度任务拥有多个步骤,系统会实时统计每个步骤的完成状态,这些状态是通过上面任务状态步骤中的信息获取。任务进度是百分制,具体是:完成步骤的个数/总步骤的个数*100。
[0044](44)存储监控信息
[0045]系统会实时存储日志、任务状态、任务进度、开始时间、结束时间、任务结构图等信息。
[0046](45)对外信息接口
[0047]系统提供HTTP接口,认证用户可以通过接口实时查看任务监控信息。
[0048]所述集群配置管理,主要包括:
[0本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于Kettle的大数据汇聚集成方法,其特征在于包括以下步骤:(1)数据资源管理:对数据资源的各类信息进行配置和管理,实现各数据库与ETL工具的连接与联动;(2)Kettle流程设计器:通过对kettle各核心组件的封装与二次开发,实现复杂流程的设计并生成任务,同时,创新使用集群抽取方式,实现高效数据集成;(3)任...

【专利技术属性】
技术研发人员:张丹普
申请(专利权)人:北京航天长峰科技工业集团有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1