【技术实现步骤摘要】
一种基于多类数据源的高效ETL处理方法及系统
[0001]本专利技术涉及数据处理
,特别是一种基于多类数据源的高效ETL处理方法及系统。
技术介绍
[0002]ETL,extract
‑
transform
‑
load的缩写,即数据提取、转换和加载,是海量数据分析处理过程中的重要步骤。
[0003]但随着业务的发展,各业务系统多采用分库、分表的架构模式。常规的ETL技术,通过执行存储于业务系统数据库上的存储过程,直接在业务系统的数据库上对数据进行分析、筛选等操作,整个操作过程在同一业务环境中实施;或者使用分布式的ETL工具。以上两种方式在真实的业务环境中存在以下几个问题:
[0004]1.集中部署影响业务性能:数据分析筛选存储过程在运行存期间对数据库主机的CPU、内存、磁盘I/O等资源占用极大,严重影响业务系统性能。
[0005]2.分布式ETL建设、维护、学习成本高。
[0006]3.线性处理效率低:常规ETL过程中,多个数据源往同一个目标或多个目标抽 ...
【技术保护点】
【技术特征摘要】
1.一种基于多类数据源的高效ETL处理方法,其特征在于步骤包括:1)将ETL任务分解为三个:数据抽取、数据转换、数据加载三个环节;2)在数据抽取环节,根据表字段定义信息拼接成对应的采集视图;根据视图之间的依赖关系进行视图分组,根据抽取的前后关系,将每组视图加入到数据抽取队列中;3)将数据抽取分解为导出和导入两个步骤;在导出中根据先后关系获取抽取队列中的视图,根据视图关联的数据源,将对各个数据源的操作在划分为一个独立的任务节点;4)将一组导出节点发送给任务调度器,调度器根据服务器性能,任务数量,分配对应的处理线程,将数据生成到本地;5)在导入中,根据视图构建相应独立的任务队列,由任务调度器进行监控;当导出完毕后,将数据文件推入对应的队列中;当任务调度器发现有文件后,从线程池中获取线程进行数据导入。6)在数据转换、加载阶段,任务控...
【专利技术属性】
技术研发人员:曾庆威,熊方明,刘奇,
申请(专利权)人:南京通达海科技股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。