【技术实现步骤摘要】
本专利技术涉及电信运营商数据仓库应用,尤其是海量数据处理中多线程工作包并行的ETL技术。
技术介绍
ETL是对大量企业数据进行处理时采用的数据抽取(Extract)、转换(Transform)和装载(Load)技术。随着企业数据量的剧增,ETL技术日益受到人们的重视。ETL产品的长足发展,是企业应用和技术发展共同推动的结果。ETL除了上述主要功能外,还要对自身处理进程进行调度和管理,另外一个重要因素就是扩展性,数据种类和来源随时都可能增加,理想的ETL解决方案要快速适应这些变化,满足用户的扩展需求。第一代ETL工具,如CA InfoPump,Oracle SQL Loader,etc..没有集成化的开发环境和元数据交换,数据的抽取、加载和转化需要编写大量的脚本程序,同时要靠手工和外部作业调度来完成整个ETL过程。第二代ETL工具,如Ardent(后被Informix收购,现在属Ascential Software公司)Data Stage,Oracle Warehouse Builder,以及Sagent等产品只是将数据转换引擎与元数据管理集成,并可利用内部的 ...
【技术保护点】
海量数据处理中多线程工作包并行的ETL方法,对大量企业数据进行处理时采用的数据抽取、转换和装载,其特征是设有一系列相互衔接、自动进行的业务活动或任务的工作流,工作流遵循路由、规则和任务或操作;其中路由:定义对象及其传送所通过的路径;规则:定义信息的路由及路由隶属。规则包括流向控制条件与异常情况处理;任务或操作:定义工作流在面向某种状态、某种事务或某一工作组的具体操作;将调度对象分为任务、子任务、工作包三个级别,工作包是可调度的最小单位。每个工作包是各种具体操作的集合,工作包的功能由其中的具体操作完成;工作包有输入数据结构和输出数据结构,每个数据结构可具体定义数据项,工作包中 ...
【技术特征摘要】
CN 2006-4-27 200610039946.41.海量数据处理中多线程工作包并行的ETL方法,对大量企业数据进行处理时采用的数据抽取、转换和装载,其特征是设有一系列相互衔接、自动进行的业务活动或任务的工作流,工作流遵循路由、规则和任务或操作;其中路由定义对象及其传送所通过的路径;规则定义信息的路由及路由隶属。规则包括流向控制条件与异常情况处理;任务或操作定义工作流在面向某种状态、某种事务或某一工作组的具体操作;将调度对象分为任务、子任务、工作包三个级别,工作包是可调度的最小单位。每个工作包是各种具体操作的集合,工作包的功能由其中的具体操作完成;工作包有输入数据结构和输出数据结构,每个数据结构可具体定义数据项,工作包中各项操作是对输入数据结构的数据项进行操作,输出为输出数据结构数据项;一个子任务中的工作包之间可以有关联,工作包可以有前置工作包和后续工作包,任务又包括了子任务的集合与关联;每个任务对应一个线程,通过多线程的并发运行,从而实现了多任务可以同时运行,同时每个任务中的子任务、工作包等可以根据预先设定的条件自行运行;数据结构中包含对每个数据项的具体描述,包括数据项名、数据项类型、数据项序号;每个工作包都有一个输入数据结构和输出数据结构,工作包的所有操作都是对输入数据结构的数据项的操作,然后形成工作包输出数据结构的数据项,对工作包的操作为对数据结构的转换将输入数据结构转换为输出数据结构。2.根据权利要求1所述的海量数据处理中多线程工作包并行的ETL方法,其特征是通过模型是描述ETL平台流程调度所需数据模型及其之间的关系,其中通过1...
【专利技术属性】
技术研发人员:赵懿敏,李捷,曹小华,郭景东,沈晓军,魏凌,陈松乐,
申请(专利权)人:南京联创科技集团股份有限公司,
类型:发明
国别省市:84[中国|南京]
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。