一种基于模块可编程扩展的ETL工具构建方法技术

技术编号：36257572 阅读：24 留言：0更新日期：2023-01-07 09:53

本发明专利技术涉及数据处理领域，尤其是一种基于模块可编程扩展的ETL工具构建方法，针对数据工程中，数据处理遇到的大量频繁查询、复杂交叉转换、分布式实时处理等问题，根据解决问题的不同分为面向查询服务的、面向多维数据的和面向大数据的三种，面向查询服务的重点关注构件组装、源表解析、查询配置、结果输出等功能，面向多维数据的重点关注抽取、转换、质量、装载、配置等规则设计，面向大数据重点关注分布式部署、实时数据处理和存储。实时数据处理和存储。实时数据处理和存储。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于模块可编程扩展的ETL工具构建方法

[0001]本专利技术涉及数据处理领域，尤其涉及基于模块可编程扩展的高效数据处理下的ETL工具构建方法。

技术介绍

[0002]随着物联网、云计算、大数据技术的普及应用，生产中积累了大量数据，包括结构化的文本、数据库、实时流等，半结构化的邮件、报表、网页等，非结构化的图像、视音频等。实现精准的数据管理、快速的数据服务和智能化的决策，需要通过使用ETL(抽取、转换、加载)工具将来源不同、格式各异和特点相近的数据在逻辑上或物理上有机地集中在一起，达到数据格式标准化、访问一致化、存储集中化。
[0003]大数据市场的蓬勃发展推动了国内外软硬件技术的进步，出现了Oracle Data Integrator(ODI)、Informatica、Oracle Goldengate、DataPipline、RestCloud、Kettle和DataX等数据集成和管理工具。这些工具有数据容灾备份、导入导出、同步处理等功能，但在处理灵活需求、复杂变化的转换逻辑、实时数据等基本功能方面依旧有难度，而且存在实现过程复杂、数据转化率低、无法集群管理、不支持断点续传、需要大量人工分析等问题。因此，需要研发新的ETL工具。

技术实现思路

[0004]针对上述问题，本专利技术提供一种高效数据处理下模块可编程扩展的新ETL工具构建方法。针对数据工程中，数据处理遇到的大量频繁查询、复杂交叉转换、分布式实时处理等问题，根据解决问题的不同分为面向查询服务的、面向多维数据的和面向大数据的三种...

【技术保护点】

【技术特征摘要】
1.一种基于模块可编程扩展的ETL工具构建方法，其特征在于包括以下步骤：S1、对ETL工具模块化分割，每个构件包括类、函数和变量，是独立的和可组装、替换、配置、编程和执行的程序模块，对内构件参数覆盖功能，对外提供一组规范化接口；S2、在数据查询服务中，在pycharm中新建项目或模块，根据源数据库的类型从构件库中选择合适的输入数据引擎读取构件、写入构件、报表生成构件，接入源数据所在数据库，将查询结果存到txt、excel报表或者数据仓库中；S3、对于多维数据交叉转换，将多表头的Excel表格数据抽取到关系数据库，实现数据和多个维度组合唯一对应的关系；S4、对于大数据时，通过B/S架构web管理系统，对ETL分布式集群进行管理，共同配置部分由ZooKeeper统一管理，通过消息中间件Kafka集群实现消息的转发。2.根据权利要求1所述的基于模块可编程扩展的ETL工具构建方法，其特征在于，步骤S1中，根据多维度关系表格或者关系数据库表，对ETL工具解构，包括数据源的管理、数据引擎、读取写入、公共维度、数据维度、源表解析、目标表解析、更新删除、读取配置、ETL主执行模块、异常处理、日志管理、运行监控，各模块采用逻辑和参数配置分离设计模式，以配置文件形式实现定位和具体功能，并将变量封装在轻量级json格式的数据文件中。3.根据权利要求2所述的基于模块可编程扩展的ETL工具构建方法，其特征在于，数据源包括关系数据库、半结构化数据包括xlxs、csv格式文件、非结构化数据包括doc、txt格式文件和外部API，并使用完整的数据字典形式详细记录的各类数据源，如数据库的名称、类型、访问方式、主机名称；数据操作引擎模块包括JDBC、HTTP访问数据源的方法；读取写入模块负责数据的读写；源数据从维度和数据层面进行分析，其中维度又分为公共、私有维度，源表、目标表解析模块是依据具体的表结构设计的解析和存储代码实现方法，更新、删除模块从另一条线路负责数据工程中单独表的特殊操作，ETL管理包括异常处理、日志管理、运行监控模块。4.根据权利要求1所述的基于模块可编程扩展的ETL工具构建方法，其特征在于，步骤S2中，在数据查询服务中，针对集成工具在数据工程中应具有批量数据查询和导出合适格式的数据的功能，设计了一种面向查询服务的ETL工具构建方法，快速数据处理，构建步骤包括：S21，在pycharm中新建项目或模块，根据源数据库的类型从构件库中选择需要的输入数据引擎读取构件、写入构件、报表生成构件，接入源数据所在数据库；S22，配置源表...

【专利技术属性】
技术研发人员：杨国立，姜树明，魏志强，李凤娇，张莹莹，李建，
申请(专利权)人：齐鲁工业大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人