一种基于多类数据源的高效ETL处理方法及系统技术方案

技术编号:37469904 阅读:24 留言:0更新日期:2023-05-06 09:49
本发明专利技术公开了一种基于多类数据源的高效ETL处理方法及系统,系统包括任务调度模块、数据抽取模块、数据转换模块、数据加载模块,任务调度模块将不同类型的任务节点,根据业务要求进行并发处理;所述数据抽取模块根据源库的类型,定义数据抽取方法,并根据目标库的类型,定义输出文件格式;所述数据转换模块:用户自定义数据转换标准,将杂乱的数据转换为可统一标准的数据;所述数据加载模块:用户自定义数据加载方法,方法包括但不限于:SQL语句、存储过程、自定义处理类。本发明专利技术将ETL任务拆解为多个处理节点,通过任务调度模块,将不同业务系统的数据从源端经过抽取、转换、加载至目的端,将分散、零乱、标准不统一的数据整合到一起。标准不统一的数据整合到一起。

【技术实现步骤摘要】
一种基于多类数据源的高效ETL处理方法及系统


[0001]本专利技术涉及数据处理
,特别是一种基于多类数据源的高效ETL处理方法及系统。

技术介绍

[0002]ETL,extract

transform

load的缩写,即数据提取、转换和加载,是海量数据分析处理过程中的重要步骤。
[0003]但随着业务的发展,各业务系统多采用分库、分表的架构模式。常规的ETL技术,通过执行存储于业务系统数据库上的存储过程,直接在业务系统的数据库上对数据进行分析、筛选等操作,整个操作过程在同一业务环境中实施;或者使用分布式的ETL工具。以上两种方式在真实的业务环境中存在以下几个问题:
[0004]1.集中部署影响业务性能:数据分析筛选存储过程在运行存期间对数据库主机的CPU、内存、磁盘I/O等资源占用极大,严重影响业务系统性能。
[0005]2.分布式ETL建设、维护、学习成本高。
[0006]3.线性处理效率低:常规ETL过程中,多个数据源往同一个目标或多个目标抽取数据;或者各任务节本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于多类数据源的高效ETL处理方法,其特征在于步骤包括:1)将ETL任务分解为三个:数据抽取、数据转换、数据加载三个环节;2)在数据抽取环节,根据表字段定义信息拼接成对应的采集视图;根据视图之间的依赖关系进行视图分组,根据抽取的前后关系,将每组视图加入到数据抽取队列中;3)将数据抽取分解为导出和导入两个步骤;在导出中根据先后关系获取抽取队列中的视图,根据视图关联的数据源,将对各个数据源的操作在划分为一个独立的任务节点;4)将一组导出节点发送给任务调度器,调度器根据服务器性能,任务数量,分配对应的处理线程,将数据生成到本地;5)在导入中,根据视图构建相应独立的任务队列,由任务调度器进行监控;当导出完毕后,将数据文件推入对应的队列中;当任务调度器发现有文件后,从线程池中获取线程进行数据导入。6)在数据转换、加载阶段,任务控...

【专利技术属性】
技术研发人员:曾庆威熊方明刘奇
申请(专利权)人:南京通达海科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1