数据仓库中的数据处理方法及系统技术方案

技术编号:2918473 阅读:289 留言:0更新日期:2012-04-11 18:40
本发明专利技术公开了一种数据仓库中的数据处理方法及系统,以解决单一进程处理需要花费大量时间和人力成本,以及无法及时处理ETL过程异常的问题。所述方法包括:设置数据同步配置表及数据刷新配置表;对应数据源配置信息,并行启动多个同步进程;对应刷新级别,并行启动多个刷新进程,对多个数据源同时顺次执行同步及刷新处理。还包括并行监控处理:定时检查同步刷新信息表,若发现异常,将异常信息记录到报警信息表。还包括并行报警处理:定时检查报警信息表,对应新的异常信息,立即发送相应报警信息。本发明专利技术提高了同步和刷新的效率,可以节省大量的时间和人力成本。实时监控方式保证了问题处理的及时性及数据仓库安全、合理、稳定的运行。

【技术实现步骤摘要】

本专利技术涉及数据仓库的数据处理,特别是涉及一种数据仓库联机分析处理(OLAP)系统数据抽取、转换及转载(ETL)过程的处理方法及系统。
技术介绍
数据仓库是在企业管理和决策中面向主题的、集成的、与时间相关的、不 可修改的数据集合,也就是对所有应用系统,例如客户关系管理(CRM, Customer Relationship Management )系统、财务系统等,按主题进行集成, 并记录整个历史变化情况。随着企业信息化程度的不断提高,企业内部积累了 大量的业务数据,数据仓库系统用于对这些相互独立、分散的数据进行统一处 理,以满足企业高层决策与分析需要。参照图1,是数据仓库系统的体系结构框图。整个数据仓库系统是一个包 含四个层次的体系结构,包括数据源101、数据仓库102、联机分析处理(OLAP, On-line Analytical Processing)系统103及前端工具104。其中数据源101,是数据仓库系统的基础,通常包括企业内部信息和外部信息。 内部信息包括各种业务处理数据和各类文档数据,外部信息包括各类法律法 规、市场信息和竟争对手的信息等。例如,CRM系统、财务系统等;数据仓库102,是以数据表的结构存储所述数据源101的数据,每个数据 表对应 一个数据对象, 一个数据源可以对应多个数据对象;OLAP系统103,用于对分析需要的数据进行有效集成,按多维模型予以组 织,以便进行多角度、多层次的分析,并发现趋势;前端工具104,主要包括各种报表工具、查询工具、数据分析工具、数据 挖掘工具以及各种基于数据仓库的应用开发工具,实现对所述数据仓库102 的访问。其中,数据分析工具主要针对OLAP服务器,报表工具、数据挖掘工 具主要针对数据仓库。数据仓库的ETL过程是指数据抽取(Extract )、转换(Transform )、装载(Load)的过程,是对0LAP系统开发的过程。其中,所述数据抽取指从源系 统中提取数据;所述数据转换指开发者将提取的数据,按照业务需要转换为目 标数据结构,并实现汇总;所述数据装载指加载经转换和汇总的数据到目标数据仓库中。对源数据的抽取过程称为同步处理,对源数据的转换和装载过程称为刷新处理。参照图2,现有技术中数据仓库OLAP系统ETL处理过程流程图,该模式 是一种流水线型处理模式,包括ETL主模块、同步模块、刷新模块的功能调用。 处理流程为步骤201,每天通过定时触发器(Crontab)调用ETL主模块; 步骤202,主模块再调用同步模块,等待数据源恢复(即等待数据源数据是否 已准备好),逐一对已恢复的数据源进行同步操作,例如先同步CRM数据源数 据,再同步财务数据源数据,而且每个数据源对应的多个数据对象的同步都采 用单一进程执行;步骤203,同步模块完成后,再调用刷新模块,也是采用单 一进程处理模式,逐个刷新各个数据表。所述同步及刷新过程完成对数据源数 据的抽取、转换和装载处理。建设数据仓库的作用在于满足企业高层决策与分析需要,为确保数据仓库 分析数据的准确性,还设置了监控模块和报警模块,用于处理上述数据仓库 0LAP系统ETL处理过程中出现的异常状况。对凄t据源数据完成同步及刷新处 理后,执行步骤2(M,刷新模块完成后,启动监控模块,检查同步刷新过程 的曰志记录是否异常;步骤205,监控模块检查出异常后,启动报警模块发送 报警信息,提示ETL工程师,重新执行同步刷新处理。上述处理方法中,针对每个数据源及数据对象的同步及刷新过程都采用单 一进程处理方式, 一个数据源同步完成后,再同步另一个数据源; 一个数据表 刷新完成后,再刷新另一个数据表。 一方面,由于各个数据源的恢复时间点不 同,单进程的处理方式不能及时同步数据,造成ETL过程处理时间超时,影响 数据处理效率。另一方面,所述一个进程进行到底的串行方式,没有合理充分 利用网络和服务器资源,在网络或服务器资源出现空闲时,ETL处理过程需要 花费很多的时间,等待单进程的处理。而且,随着公司业务的不断扩大和市场的快速变化,带来分析需求数据的 高速增长,所需要的数据源和数据对象也会不断增加。所述单进程处理方式下, ETL过程新添加数据源或数据对象,需要修改程序。因此,针对不同的处理需求,所述方法将耗费大量的开发人力成本。此外,在ETL处理过程中,同步、刷新、监控、报警四个模块的调用同样采用串行调度方式,因此对同步刷新过程的监控属于事后监控模式,会造成ETL过程异常问题得不到及时解决,以至于影响公司决策分析数据获取的及时桂,从而也会影响数据仓库在客户中的影。向力。
技术实现思路
本专利技术所要解决的技术问题是提供一种数据仓库0LAP系统数据ETL过程问题,以及程序修改的不便和无法及时处理ETL过程的异常问题。为解决上述技术问题,本专利技术提供了数据仓库中的数据处理方法,包括 设置包括数据源配置信息的数据同步配置表及数据刷新配置表; 对应所述数据源配置信息,并行启动多个同步进程,对多个数据源同时执行同步处理;启动刷新进程,执行刷新处理。优选的,对应每个同步进程,在该同步进程执行完毕,启动所述刷新进程。其中,在所有同步进程执行完毕,启动所述刷新进程。其中,按照下述步骤进行同步处理对应所述数据源配置信息中的数据源 个数,并行启动相应个数的同步等待进程;定时检查数据源是否恢复,若恢复 则相应的同步等待进程并行启动多个同步进程。优选的,按照下述步骤进行刷新处理每个数据源包括至少一个数据对象, 所述数据刷新配置表设置有刷新级别,对应所述刷新级别定义的数据对象个 数,并行启动相应个数的刷新等待进程;定时检查数据对象的刷新执行条件是 否符合,若符合则相应的刷新等待进程启动刷新进程。其中,所述刷新执行条件包括对应数据对象完成同步处理,以及调用所 述数据对象的上一级数据对象完成刷新处理。优选的,所述多个同步进程间或多个刷新进程间均采用优先级方式调用。还包括将处理过程信息记录到同步刷新信息表。还包括并行监控处理设置报警级别配置表;定时检查所述同步刷新信息 表,若发现异常,对应所述报警级别配置表,将异常信息记录到报警信息表。还包括并行报警处理定时检查所述报警信息表,对应异常信息,立即发 送相应报警信息。本专利技术还提供了数据仓库中的数据处理系统,包括存储单元,用于存储包括数据源配置信息的数据同步配置表、包括刷新级 別的数据刷新配置表、同步刷新信息表。同步单元,用于读取所述数据同步配置表;对应所述数据源配置信息中的 数据源个数,并行启动相应个数的同步等待进程;定时检查数据源是否恢复, 若恢复则相应的同步等待进程并行启动多个同步进程。刷新单元,用于读取所述数据刷新步配置表;每个数据源包括至少一个数 据对象,对应所述刷新级别定义的数据对象个数,并行启动相应个数的刷新等 待进程;定时检查数据对象的刷新执行条件是否符合,若符合则相应的刷新等 待进程启动刷新进程。其中,所述刷新-执行条件包括对应数据对象完成同步处理,以及调用所 述数据对象的上一级数据对象完成刷新处理。还包括记录单元,用于将同步及刷新处理过程信息记录到所述同步刷新 信息表。其中,所述存储单元还存储报警级别配置表及报警信息表。还包括监控单元,用于读取所述报警级别配置表;定时检查同步刷新信息表,本文档来自技高网
...

【技术保护点】
数据仓库中的数据处理方法,其特征在于,包括:设置包括数据源配置信息的数据同步配置表及数据刷新配置表;对应所述数据源配置信息,并行启动多个同步进程,对多个数据源同时执行同步处理;启动刷新进程,执行刷新处理。

【技术特征摘要】

【专利技术属性】
技术研发人员:史健樊亚飞张金银
申请(专利权)人:阿里巴巴集团控股有限公司
类型:发明
国别省市:KY[开曼群岛]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1