当前位置: 首页 > 专利查询>陈慧专利>正文

对全量源数据进行抽取转换加载的装置及方法制造方法及图纸

技术编号:6591632 阅读:379 留言:0更新日期:2012-04-11 18:40
本发明专利技术公开了一种对全量源数据进行抽取转换加载的装置及方法。该 装置包括数据接收单元、数据处理单元、数据导出单元和数据库,该数据 库具有一临时工作区和一基础区,且在该数据库的基础区中具有一目标 表,数据接收单元连接于数据库,用于接收来自于源系统的全量源数据文 件,并将该全量源数据文件加载到数据库中的临时工作区;数据处理单元 连接于数据库,用于对加载到数据库临时工作区中的全量源数据文件进行 抽取转换加载处理,并以历史拉链形式将处理后的全量源数据保存到数据 库中;数据导出单元连接于数据库,用于将保存到数据库中的全量源数据 导出,供其他系统使用。利用本发明专利技术,满足了数据库对全量源数据保留历 史轨迹的需求。

【技术实现步骤摘要】

本专利技术涉及数据库源数据处理
,尤其涉及一种。
技术介绍
对于企业级数据仓库(EDW)来说,其最基本的职能是对来自业务源系统的数据按一定的规则进行抽取、转换和加载(即Extract、 Transform和Load, ETL)。由于源系统的多样性,来自源系统的数据也是形形色色的,无法用单一的规则来加以抽取转换。企业级数据仓库就是要把各种属性不一、规则多变的数据转换成满足一定规律、符合数据库相关范式的标准化的数据信息,这对于任何一个拥有大量数据信息并以此为生存发展之根本的企业来说,都是非常重要的。特别是对于大型国有商业银行,由于其数据量是海量的,如何将这海量的数据抽取并整理成一整套有序、规范化的信息系统,是EDW的重中之重。 在业务源系统中,除了少数几种数据会保留历史信息(例如,营销系统金额类数据),大多数数据在源系统中是不保留历史的,而只维护一个当前的最新数据值。也就是说,如果某条记录的值一旦发生了变化,源系统中就会立刻更新并覆盖原有数值,记录中的原有信息便不再保存。而企业级数据仓库可以弥补这一不足,历史拉链型的加工转换方法就可以将原本只有当前最新值的记录以历史时间段的方式进本文档来自技高网...

【技术保护点】
一种对全量源数据进行抽取转换加载的装置,该装置包括数据接收单元、数据处理单元、数据导出单元和数据库,该数据库具有一临时工作区和一基础区,且在该数据库的基础区中具有一目标表,其中, 数据接收单元,连接于数据库,用于接收来自于源系统的全量源数据文件,并将该全量源数据文件加载到数据库中的临时工作区; 数据处理单元,连接于数据库,用于对加载到数据库临时工作区中的全量源数据文件进行抽取转换加载处理,并以历史拉链形式将处理后的全量源数据保存到数据库中; 数据导出单元,连接于数据库,用于将保存到数据库中的全量源数据导出,供其他系统使用。

【技术特征摘要】
1、一种对全量源数据进行抽取转换加载的装置,该装置包括数据接收单元、数据处理单元、数据导出单元和数据库,该数据库具有一临时工作区和一基础区,且在该数据库的基础区中具有一目标表,其中,数据接收单元,连接于数据库,用于接收来自于源系统的全量源数据文件,并将该全量源数据文件加载到数据库中的临时工作区;数据处理单元,连接于数据库,用于对加载到数据库临时工作区中的全量源数据文件进行抽取转换加载处理,并以历史拉链形式将处理后的全量源数据保存到数据库中;数据导出单元,连接于数据库,用于将保存到数据库中的全量源数据导出,供其他系统使用。2、 根据权利要求1所述的对全量源数据进行抽取转换加载的装置, 其特征在于,所述数据库具有的临时工作区,能够为所述数据处理单元创 建临时表提供空间。3、 根据权利要求2所述的对全量源数据进行抽取转换加载的装置, 其特征在于,所述数据处理单元创建的临时表包括临时表CUR、临时表 PRE、临时表INS和临时表UPD,所述临时表CUR、临时表PRE、临时 表INS、临时表UPD的结构与目标表的结构一致,且临时表CUR、临时 表PRE、临时表INS和临时表UPD是可变临时表,仅存在于会话期间, 当会话结束时将自动被删除。4、 根据权利要求3所述的对全量源数据进行抽取转换加载的装置, 其特征在于,在所述临时表CUR中,具有标志历史拉链的字段开始日期 和结束日期,在处理临时表CUR表时,开始日期字段统一为当前批量 处理的工作日期,结束日期则统一成默认设置的最大日期。5、 根据权利要求3所述的对全量源数据进行抽取转换加载的装置, 其特征在于,在所述临时表CUR中存在、但在临时表PRE中不存在的数 据,是新增或更新过的数据,临时表CUR中存放的数据是从数据库临时 区中抽取而来的一份当日全量源数据,而临时表PRE中存放的数据是目标 表中当前有效的数据,采用临时表CUR减去临时表PRE能够得到当日全量源数据中新增或修改的当日增量源数据;在所述临时表PRE中存在的数据,在目标表中目前仍然是有效的;但 在临时表CUR中不存在的数据,在全量源数据中已经被删除,属于过 期、作废的数据。6、 根据权利要求3所述的对全量源数据进行抽取转换加载的装置, 其特征在于,在所述目标表中,结束日期等于最大日期的数据,是当前有 效的数据;结束日期不等于最大日期的数据,是当前已经无效的数据;对 于所述目标表中无效的数据,需要将其进行关链,具体过程如下将 对应记录的结束日期字段置为当前批量日期,则该记录的有效期是截 止到当前的批量日期;采用临时表UPD中的记录和目标表中的记录进行 比对,能够査找目标表中哪些数据是过期、作废的无效数据;采用 目标表中的记录和临时表UPD中的记录作逐条比对,若匹配成功,则将 该条记录的结束日期更改为当前批量日期,否则不变。7、 一种对全量源数据进行抽取转换加载的方法,应用于包括数据接 收单元、数据处理单元、数据导出单元和数据库的装置,该数据库具有一 临时工作区和一基础区,且在该数据库的基础区中具有一目标表,该方法 包括数据接收单元接收来自于源系统的全量源数据文件,并将该全量源数 据文件加载到数据库中的临时工作区;数据处理单元对加载到数据库临时工作区中的全量源数据文件进行 抽取转换加载处理,并以历史拉链形式将处理后的全量源数据保存到数据库中。8、 根据权利要求7所述的对全量源数据进行抽取转换加载的方法, 其特征在于,所述数据处理...

【专利技术属性】
技术研发人员:陈慧俞斌赵亚华张海军
申请(专利权)人:陈慧俞斌赵亚华张海军
类型:发明
国别省市:11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1