一种基于kettle的数据仓库实时构建方法技术

技术编号：26597332 阅读：25 留言：0更新日期：2020-12-04 21:19

一种基于kettle的数据仓库的实时构建方法，所述方法包括，构建多层数据处理架构将数据分层处理；从数据源中抽取所需的数据并将抽取的数据清洗得到符合预设要求的数据；将符合预设要求的数据进行联机分析处理、数据挖掘；对数据处理任务进行调度和监管。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于kettle的数据仓库实时构建方法
本专利技术涉及计算机软件
，具体为一种基于kettle的数据仓库的实时构建方法。
技术介绍
数据仓库的定位于数据库的定位不同，经过20年左右的发展，数据仓库技术已经逐渐趋于成熟，国外对数据仓库的研究起步比较早，研究的积累比较充分，数据仓库中的数据通常包含历史信息，系统记录了企业从过去某一时点(如开始应用数据仓库的时点)到当前的各个阶段的信息，通过这些信息，可以对企业的发展历程和未来趋势做出定量分析和预测。随着计算机存储能力的提升和复杂算法的发展，近年来网络数据量成指数级增长，科学数据处理、商业智能数据分析等具有海量数据需求的应用变得越来越普遍，传统的Oracle(mysql)+sql技术架构已不能满足大数据处理要求，对于数据仓库的搭建，业界比较常用的是分布式+ETL的方式，但是基于服务的分布式+ETL数据仓库技术却一直没有比较好的解决方案。
技术实现思路
本专利技术为解决以上所述现有技术的缺点，本专利技术提供了一种基于kettle的数据仓库的实时构建方法，用于解决现有技术中数据仓库的构建开发。为了实现上述目的，本专利技术是通过如下的技术方案来实现：本专利技术提出了基于kettle的数据仓库的实时构建方法，其特征在于，包括：构建多层数据处理架构，利用分层处理架构将数据进行分层处理；从数据源中抽取所需的数据并将抽取的数据清洗得到符合预设要求的数据；将符合预设要求的数据进行联机分析处理、数据挖掘；对...

【技术保护点】
1.一种基于kettle的数据仓库的实时构建方法，其特征在于，所述方法包括：/n构建多层数据处理架构，利用分层处理架构将数据进行分层处理；/n从数据源表中抽取所需的数据并将抽取的数据清洗得到符合预设要求的数据；/n将符合预设要求的数据进行联机分析处理、数据挖掘；/n对数据处理任务进行调度和监管。/n

【技术特征摘要】
1.一种基于kettle的数据仓库的实时构建方法，其特征在于，所述方法包括：
构建多层数据处理架构，利用分层处理架构将数据进行分层处理；
从数据源表中抽取所需的数据并将抽取的数据清洗得到符合预设要求的数据；
将符合预设要求的数据进行联机分析处理、数据挖掘；
对数据处理任务进行调度和监管。

2.根据权利要求1所述的基于kettle的数据仓库的实时构建方法，其特征在于，所述多层数据处理架构包括：临时存储从所述数据源表获取的数据的临时存储层、对清洗后的数据进行存储和处理的核心数据层、将数据进行组织形成对应数据主体的数据集市层已经面向用户处理用户输入的具体需求数据的应用层。

3.根据权利要求1所述的基于kettle的数据仓库的实时构建方法，其特征在于，所述抽取数据中常用的捕获变化数据方法包括：
在数据源表上建立插入、修改及删除三个触发器，数据源表中的数据发生插入、修改及删除相应的变化，触发器将变化的数据写入一个临时表，抽取线程从临时表中抽取数据，临时表中抽取过的数据被标记或删除；
在数据源表上增加一个时间戳字段，系统在更新修改数据源表中数据的时候，同时修改时间戳字段的值，当进行数据抽取时，比较系统时间与时间戳字段的值是否一致，一致抽取对应数据，不一致则不进行抽取；
数据源表上建立一个MD5临时表，所述MD5临时表记录数据源表的主键以及根据所有字段的数据计算出来的MD5校验码，每次进行数据抽取时，对数据源表和MD5临时表进行MD5校验码的比对，不一致，则进行修改操作，MD5临时表中没有存在MD5校验码，进行新增操作，数据源表中不存在而MD5仍保留的MD5校验码，执行删除操作；
通过分析数据库自身的日志来判断变化的数据。

4.根据权利要求3所述的基于kettle的数据仓库的实时构建方法，其特征在于，所述捕获变化数据采用的是ZDI-CDC捕获数据更改平台。

5.根据权利要求3所述的基于kettle的数据仓库的实时构建方法，其特征在于，所述通过分析数据库自身的日志来判断变化的数据具体步骤如下：
创建数据库日志，记录对数据表进行的数据库操作，所述数据操作包括插入、修改及删除；
统计预设时间段内数据库操作的总次数已经对数据表中每一列进行插入、修改及删除的次数；
根据数据库操作的总次数以及对数据表中每一列进行插入、修改删除的次数计算插入、修改及删除的次数占比；
根据插入、修改及删除的次数占比生成索引列名。

6.根据权利要求1所述的基于kettle的数据仓库的实时构建方法，其特征在于，所述将抽取的数据清洗得到符合预设要求的数据中包括：
通过FILTER算子的运算符属性设定，确定数据的筛选条件，对源数据中不符合要求的记录进行筛选处理，获得第一源数据；
通过采用插值法对第一源数据中的空值进行处理，获得第二源数...

【专利技术属性】
技术研发人员：罗颖，陈嘉龙，
申请(专利权)人：深圳市中盛瑞达科技有限公司，
类型：发明
国别省市：广东;44

全部详细技术资料下载我是这个专利的主人