一种实时ETL系统及方法技术方案

技术编号：12354457 阅读：805 留言：0更新日期：2015-11-19 04:31

本发明专利技术公开了一种实时ETL系统及方法，包括ETL客户端、分布式数据缓存队列、分布式状态管理机和ETL群集；所述ETL客户端，用于设计ETL流程、测试ETL流程和发布ETL流程；所述分布式数据缓存队列，用于缓存输入数据；所述分布式状态管理机，用于存储系统状态信息；所述ETL群集，用于按行从数据源获取输入数据，并将输入数据缓存到分布式数据缓存队列中，然后对输入数据进行处理。本发明专利技术具有很高的效率，能够解决目前ETL技术应用在实时大数据环境下的局限性问题。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及数据处理技术，特别是涉及一种实时ETL系统及方法。
技术介绍
ETL(Extract-Transformation-Loading)即数据的抽取、转换和加载，也叫数据集成，是构建数据仓库的一种重要技术。传统ETL过程将批量数据从业务数据库等数据源中抽取出来，经过清洗、转换等分析统计处理后，最终按照预先定义好的数据仓库模型将结果加载到数据仓库中。ETL过程通常采用定时任务调度的方式执行，当满足时间条件时，ETL服务器调度执行预先定义好的ETL任务，每次对数据源中的一批数据进行操作，将结果加载到数据仓库中，适用于对原始数据进行定时的批量处理情况，其业务流程如图1所示。但是，随着电子商务、移动互联网、电信业务的发展，对业务数据分析的时限要求越来越高，出现了一批诸如用户点击流分析、基于位置的服务、实时账单查询等应用，这些应用都要求业务系统中的数据能尽快被后台分析系统感知。传统的ETL技术方案在面对实时大数据分析应用的情况下，其局限性非常明显，主要表现在以下几个方面： (1)时间片调度方式不能满足实时性要求：传统ETL方案中数据处理任务按时间片调度，即每隔一段时间调度一次任务，对业务系统中的数据进行抽取、转换、加载操作，后台分析系统能否在业务系统的数据发生改变的情况下立即与之同步取决于调度的时间片大小，时间片过大则分析系统同步时延较大，这在时延要求较高的实时分析环境下是不允许的；时间片过小则会导致计算资源浪费。 (2)大数据环境下执行ETL任务效率不高：传统ETL方案中所有任务在特定的ETL 服务器上执行，在大数据...

【技术保护点】
一种实时ETL系统，其特征在于：包括ETL客户端、分布式数据缓存队列、分布式状态管理机和ETL群集；所述ETL客户端，用于设计ETL流程、测试ETL流程和发布ETL流程；所述分布式数据缓存队列，用于缓存输入数据；所述分布式状态管理机，用于存储系统状态信息；所述ETL群集，用于按行从数据源获取输入数据，并将输入数据缓存到分布式数据缓存队列中，然后对输入数据进行处理。

【技术特征摘要】

【专利技术属性】
技术研发人员：林劼，李虹峰，郝玉洁，廖虹光，
申请(专利权)人：电子科技大学，
类型：发明
国别省市：四川;51

全部详细技术资料下载我是这个专利的主人