一种基于插件化异构数据源的数仓海量数据的传输方法技术

技术编号：36760087 阅读：32 留言：0更新日期：2023-03-04 10:54

本发明专利技术公开了一种基于插件化异构数据源的数仓海量数据的传输方法，生成统一的任务执行参数，任务提交，执行任务并将库表数据注册为内存映射表，将数据进行清洗转换生成全新的内存映射表，将数据写入hive表数据。本发明专利技术能够多节点运行并且支持内存式增量剥离，有效提升了数仓贴源层建设的效率。升了数仓贴源层建设的效率。升了数仓贴源层建设的效率。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于插件化异构数据源的数仓海量数据的传输方法

[0001]本专利技术涉及一种数据传输方法，特别是一种基于插件化异构数据源的数仓海量数据的传输方法，属于数仓

技术介绍

[0002]数据批量传输场景是数仓和数据中台建设过程中重点场景之一，承载着源表汇聚贴源层，以及数仓向下游推送数据的任务，是数仓数据出入的核心工具。
[0003]现有技术中，数仓贴原层数据汇聚方案主要包含以datastage、kettle等工具为代表的技术方案，以dataloader+ftp/scp为代表的技术方案以及以datax、sqoop、flume为代表的技术方案。其中，以datastage、kettle等工具为代表的技术方案，是通过直连数据库的单机运行方式，是一种C/S的形式，适用于传统数据库迁移集成工作。以dataloader+ftp/scp为代表的技术方案，是通过数据库自带的数据卸载装载工具（dataloader），外加数据文件远程传输协议（ftp/scp），进行数仓的数据汇聚工作，这种方式是数仓业务的较为常用的方案之一。以datax，sqoop，f本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于插件化异构数据源的数仓海量数据的传输方法，其特征在于包含以下步骤：S1、生成统一的任务执行参数；S2、任务提交；S3、执行任务并将库表数据注册为内存映射表；S4、将数据进行清洗转换生成全新的内存映射表；S5、将数据写入hive表数据。2.根据权利要求1所述的一种基于插件化异构数据源的数仓海量数据的传输方法，其特征在于：所述步骤S1具体为：规定统一的json报文格式并进行任务执行参数的创建。3.根据权利要求1所述的一种基于插件化异构数据源的数仓海量数据的传输方法，其特征在于：所述步骤S2具体为：通过flink
‑
framework.jar中的RunJob主函数接收任务传参，解析json数据，确定本次传输任务的详细信息，组装flink
‑
submit参数后，调用 flink提交命令进行任务提交。4.根据权利要求1所述的一种基于插件化异构数据源的数仓海量数据的传输方法，其特征在于：所述步骤S3具体为：flink集群接收到flink
‑
submit的执行任务后，按照core主工程的JobStart的主函数逻辑进行运行，在执行reader函数前，通过classloader动态加载机制和java的反射机制，加载mysql
‑
reader.jar插件，然后以mysql
‑
reader.jar实现reader函数的执行，读取mysql中的库表数据，并将其注册为flink集群中的内存映射表，方便使用flink
‑
sql函数。5.根据权利要求1所述的一种基于插件化异构数据源的数仓海量数据的传输方法，其特征在于：所述步骤S4具体为：core主工程建立reader管道后，然后执行清洗转换函数transform，将json中的transform参数进行解析，并拼接成数据清洗的sql，内存映射表通过该转换函数的sql进行数据转换清洗操作，并生成全新的内存映射表。6.根据权利要求1所述的一种基于插件化异构数据源的数仓海量数据的传输方法，其特征在于：所述步骤S5具体为：清洗转换后的内存映射表中的数据按照core主工程的JobStart的主函数逻辑继续进行运行，并执行writer函数，通过classloader动...

【专利技术属性】
技术研发人员：田富升，林凯，张枫，黄曦，
申请(专利权)人：苏银凯基消费金融有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人