一种数据仓库中ETL任务离线和数据清理的方法及装置制造方法及图纸

技术编号:8517327 阅读:328 留言:0更新日期:2013-03-30 20:22
本发明专利技术提供了一种数据仓库中ETL任务离线和数据清理的方法及装置。所述方法包括:获取数据仓库中各数据库对象的调用信息;根据所述数据库对象的调用信息,进行离线对应的ETL任务,和/或,清理对应的数据的操作。本发明专利技术可以提高数据仓库中ETL任务离线和数据清理的效率和准确率。

【技术实现步骤摘要】
一种数据仓库中ETL任务离线和数据清理的方法及装置
本申请涉及数据仓库分析的
,特别是涉及一种数据仓库中ETL任务离线 和数据清理的方法,以及,一种数据仓库中ETL任务离线和数据清理的装置。
技术介绍
数据仓库是一个独立的数据环境,通过抽取过程将数据从联机事务处理环境、外 部数据源和脱机的数据存储介质导入到数据仓库中。它的目的是建立结构化的数据存储空 间,将不同数据源的数据分离出来,形成统一、有效的数据集,并最终加工、整合成所需要的 数据。ETL (Extraction-Transformation-Loading)是数据抽取、清洗、转换和装载的过 程。是构建数据仓库的重要一环,用户从数据库抽取出所需的数据,经过数据清洗,最终按 照预先定义好的数据仓库模型,将数据加载到数据仓库中去。随着成熟的数据仓库技术不断发展,当数据仓库投入使用以后,各业务部门的需 求会越来越多,使用数据仓库中数据量的增长速度也会越来越快,历史数据的大量聚集给 数据查询和存储成本带来极大的冲击,许多已经衰亡不再使用的应用所对应的ETL任务和 数据由于没有合理的下线策略,导致ETL任务一直在执行,数据仍然存储在系统中并不断 在增长,极大的浪费了数据仓库中有限的计算和存储资源,因此对于数据仓库的ETL任务 离线管理和数据仓库数据清理日渐成为一个现实的技术问题亟待解决。目前对ETL任务的离线和数据清理工作大多数情况是通过人为判断的,由数据仓 库的开发人员与业务方沟通,由业务方确定哪些应用不再使用和关注,由数据仓库开发人 员将应用对应的ETL任务和清理数据存储,以完成ETL任务离线和数据清理工作。以上现有技术存在的问题是由于是与业务方确认,当业务方人员众多时,对每个 应用进行复查,效率极低,同时可能会无法覆盖所有人员,在做ETL任务下线和数据清理时 不可避免的会存在遗漏,也可能会存在将正在使用的应用错误下线,人工的感性判断没有 理性数据支持,下线时准确性不高,人为误判断可能会导致不可预知错误。因此,目前需要本领域技术人员迫切解决的一个技术问题就是如何提供一种高 效的数据仓库中ETL任务离线和数据清理的方法及装置。
技术实现思路
本申请所要解决的技术问题是提供一种数据仓库中ETL任务离线和数据清理的 方法,用以提高数据仓库中ETL任务离线和数据清理的效率和准确率。相应的,本申请还提供了数据仓库中ETL任务离线和数据清理的装置,用以保证 上述方法在实际中的实现及应用。为了解决上述问题,本申请公开了一种数据仓库中ETL任务离线和数据清理的方 法,包括获取数据仓库中各数据库对象的调用信息;根据所述数据库对象的调用信息,进行离线对应的ETL任务,和/或,清理对应的 数据的操作。优选的,所述数据库对象的调用信息为,数据仓库中访问所述数据库对象的SQL 语句的息。优选的,所述获取数据仓库中各数据库对象的调用信息,包括提取数据仓库中运行的SQL语句;从数据仓库的SQL语句中解析出数据库对象的信息;提取所述各数据库对象所对应的SQL语句的信息。优选的,所述提取数据仓库中运行的SQL语句的步骤包括提取调度系统中的ETL任务记录日志中记录的SQL语句;和/或,提取数据查询系统中的query日志中记录的SQL语句;和/或,利用数据库系统中的捕获SQL运行功能获取数据仓库中运行的SQL语句。优选的,所述从数据仓库的SQL语句中解析出数据库对象的信息的步骤包括解析数据仓库的SQL语句,获得数据库对象和数据库系统对象;去除所述数据库系统对象,和/或,保留所述数据库对象。优选的,所述数据库对象的SQL语句的信息包括调用对象和调用程序,所述根据 数据库对象的调用信息,进行离线对应的ETL任务,和/或,清理对应的数据的操作的步骤 包括若所述数据库对象的调用对象为非目标对象,且对应的调用程序为目标程序,则 将所述数据库对象添加到预置的备选清单;对预置的备选清单中的数据库对象,进行离线对应的ETL任务,和/或清理对应的 数据的操作。优选的,所述数据库对象的SQL语句的信息包括调用次数,所述根据数据库对象 的调用信息,进行离线对应的ETL任务,和/或,清理对应的数据的操作的步骤包括若数据库对象在预设时间段内的使用次数为零,则针对该数据库对象,进行离线 对应的ETL任务,和/或清理对应的数据的操作。优选的,所述数据库对象的SQL语句的信息包括调用次数、调用对象和调用程序, 所述根据数据库对象的调用信息,进行离线对应的ETL任务,和/或,清理对应的数据的操 作的步骤包括 若所述数据库对象的调用对象包括目标对象和非目标对象,且目标对象在预设时 间段内对数据库库对象的调用次数小于预设阀值,且非目标对象对应的调用程序为目标程 序,则将所述数据库对象添加到预置的备选清单;对预置的备选清单数据库对象,进行离线对应的ETL任务,和/或清理对应的数据 的操作。优选的,所述目标对象为外部系统,所述非目标对象为数据仓库内部的调度系统, 所述目标程序为数据库对象的生成程序。优选的,所述对预置的备选清单数据库对象,进行离线对应的ETL任务,和/或清 理对应的数据的操作的步骤包括确定所述备选清单中需要清除的数据库对象;将所述需要清除的数据库对象进行离线对应的ETL任务,和/或清理对应的数据 的操作。本申请还提供了一种数据仓库中ETL任务离线和数据清理的装置,包括调用信息获取模块,用于获取数据仓库中各数据库对象的调用信息;处理模块,用于根据所述数据库对象的调用信息,进行离线对应的ETL任务,和/ 或,清理对应的数据的操作。与现有技术相比,本申请包括以下优点本申请通过解析访问数据仓库中数据库对象的SQL语句,获知数据库对象的调用 信息,调用信息包括了数据库对象的调用次数和调用对象,以此为依据为庞大的数据仓库 系统合理“瘦身”,去除掉没有使用价值的ETL任务和数据,从而节省了系统计算和存储资 源,提高了系统性能,节约了数据仓库成本。同时以数据库对象的调用情况为依据对相应的应用进行清理使得数据仓库ETL 任务离线和数据清理工作变得有据可依,降低了人为因素,用数据说话,极大提高了数据仓 库“瘦身”工作的准确性。此外,在对调用信息进行分析后,将备选的清理对象与业务方进 行沟通,降低了需要与业务方沟通、确认的应用数量,提高了工作效率。附图说明图1是本申请的一种数据仓库中ETL任务离线和数据清理的方法实施例的流程 图2是本申请的一种数据仓库中ETL任务离线和数据清理的装置实施例的结构框 图。具体实施方式为使本申请的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实 施方式对本申请作进一步详细的说明。ETL是数据仓库对数据库对象进行抽取、清洗、转换和装载的过程,数据仓库中数 据量快速增长使得数据查询和存储成本不断增长,许多已经衰亡不再使用的应用所对应的 ETL任务和数据由于没有合理的下线策略,极大的浪费了数据仓库中有限的计算和存储资 源。现有技术中采用人工进行ETL任务离线和数据清理工作,存在效率和准确率低下的问 题。本申请实施例的核心构思之一在于,获取数据仓库中各数据库对象的调用信息, 并依据所述数据库对象的调用信息,进行离线对应的ETL任务,和/或,清理对应的数据的 操作。参考图1,示出了本申请的本文档来自技高网
...
一种数据仓库中ETL任务离线和数据清理的方法及装置

【技术保护点】
一种数据仓库中ETL任务离线和数据清理的方法,其特征在于,包括:获取数据仓库中各数据库对象的调用信息;根据所述数据库对象的调用信息,进行离线对应的ETL任务,和/或,清理对应的数据的操作。

【技术特征摘要】

【专利技术属性】
技术研发人员:黄晓婧曾春秋孙伟光吴伟方建江
申请(专利权)人:阿里巴巴集团控股有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1