一种基于datax的数据治理方法技术

技术编号:34285229 阅读:21 留言:0更新日期:2022-07-27 08:15
本发明专利技术公开了一种基于datax的数据治理方法,包括步骤一、datax完成单个数据同步的作业称之为Job,datax接受到一个Job之后,将启动一个进程来完成整个作业同步过程,dataxJob模块是单个作业的中枢管理节点,承担了数据清理、子任务切分、TaskGroup管理等功能;步骤二、dataxJob启动后,会根据不同的源端切分策略,将Job切分成多个小的Task,以便于并发执行,每一个Task都会负责一部分数据的同步工作。有益效果:完美解决数据传输个别类型失真问题,提供作业全链路的流量、数据量运行时监控,提供脏数据探测,丰富的数据转换功能,精准的速度控制,健壮的容错机制。健壮的容错机制。健壮的容错机制。

【技术实现步骤摘要】
一种基于datax的数据治理方法


[0001]本专利技术涉及数据治理
,具体来说,涉及一种基于datax的数据治理方法。

技术介绍

[0002]在大数据时代的今天,随着企业的发展,各业务线、产品线、部门都会承建各种信息化系统方便开展自己的业务。随着信息化建设的不断深入,由于业务系统之间各自为政、相互独立造成的数据孤岛”现象尤为普遍,业务不集成、流程不互通、数据不共享。这给企业进行数据的分析利用、报表开发、分析挖掘等带来了巨大困难。在此情况下,为了实现企业全局数据的系统化运作管理(信息孤岛、数据统计、数据分析、数据挖掘),为dSS(决策支持系统)、BI(商务智能)、经营分析系统等深度开发应用奠定基础,挖掘数据价值,企业会开始着手建立数据仓库,数据中台。将相互分离的业务系统的数据源整合在一起,建立一个统一的数据采集、处理、存储、分发、共享中心。基于上述的应用场景,datax是etl最好的数据治理工具和解决方案之一。
[0003]目前主要数据治理方法:
[0004]1、开源ETL工具Kettle
[0005]Kettle是一款国外开源的ETL工具,纯Java编写,绿色无需安装,数据抽取高效稳定(数据迁移工具)。Kettle中有两种脚本文件,transformation和job,transformation完成针对数据的基础转换,job则完成整个工作流的控制。Kettle这个ETL工具集,它允许你管理来自不同数据库的数据,通过提供一个图形化的用户环境来描述你想做什么,而不是你想怎么做。
[0006]2、dataPipeline
[0007]data Pipeline是一家为企业用户提供数据基础架构服务的科技公司,dataPipeline数据质量平台整合了数据质量分析、质量校验、质量监控等多方面特性,以保证数据质量的完整性、一致性、准确性及唯一性,彻底解决数据孤岛和数据定义进化的问题。
[0008]3、Informatica
[0009]Informatica是全球领先的数据管理软件提供商。在如下Gartner魔力象限位于领导者地位:数据集成工具魔力象限、数据质量工具魔力象限、元数据管理解决方案魔力象限、主数据管理解决方案魔力象限、企业级集成平台即服务(EiPaaS)魔力象限。
[0010]Informatica Enterprise data Integration包括Informatica PowerCenter和Informatica PowerExchange两大产品,凭借其高性能、可充分扩展的平台,可以解决几乎所有数据集成项目和企业集成方案。
[0011]·
Informatica PowerCenter用于访问和集成几乎任何业务系统、任何格式的数据,它可以按任意速度在企业内交付数据,具有高性能、高可扩展性、高可用性的特点。Informatica PowerCenter包括4个不同版本,即:标准版,实时版,高级版,云计算版。同时,它还提供了多个可选的组件,以扩展Informatica PowerCenter的核心数据集成功能,这些
组件包括:数据清洗和匹配、数据屏蔽、数据验证、Teradata双负载、企业网格、元数据交换、下推优化(Pushdown Optimization)、团队开发和非结构化数据等。
[0012]·
Informatica PowerExchange是一系列的数据访问产品,它确保IT机构能够根据需要随时随地访问并在整个企业内传递关键数据。凭该能力,IT机构可以优化有限的资源和数据的业务价值。Informatica PowerExchange支持多种不同的数据源和各类应用,包括企业应用程序、数据库和数据仓库、大型机、中型系统、消息传递系统和技术标准。
[0013]现有数据治理技术中存在以下缺点:
[0014]1、现有ETL工具学习配置成本较高,而且部分工具不支持实时数据的处理,这对现在的部分的对实时性高的行业,不能做即时的数据处理和管理决策报表呈现;
[0015]2、由于现在市场上商务数据库的版本较多,大部分ETL仅支持部分数据源的采集加载,这个也是数据治理中一个特别常见的问题,其问题根本原因就是大部分数据公司不断的推出自己的数据库产品,数据库市场上有百花齐放的趋势;导致版本适配较难;
[0016]3、现有的ETL数据治理工具,由于没有采用分布式可拓展的技术框架,不支持海量任务的并发处理,导致数据处理不及时。
[0017]针对相关技术中的问题,目前尚未提出有效的解决方案。

技术实现思路

[0018]本专利技术的目的在于提供一种基于datax的数据治理方法,以解决上述
技术介绍
中提出的问题。
[0019]为实现上述目的,本专利技术提供如下技术方案:一种基于datax的数据治理方法包括:
[0020]步骤一、datax完成单个数据同步的作业称之为Job,datax接受到一个Job之后,将启动一个进程来完成整个作业同步过程,dataxJob模块是单个作业的中枢管理节点,承担了数据清理、子任务切分、TaskGroup管理等功能;
[0021]步骤二、dataxJob启动后,会根据不同的源端切分策略,将Job切分成多个小的Task,以便于并发执行,每一个Task都会负责一部分数据的同步工作;
[0022]步骤三、切分多个Task之后,dataxJob会调用Scheduler模块,根据配置的并发数据量,将拆分成的Task重新组合,组装成TaskGroup;
[0023]步骤四、每一个Task都由TaskGroup负责启动,Task启动后,会固定启动Reader

>Channel

>Writer的线程来完成任务同步工作;
[0024]步骤五、datax作业运行起来之后,Job监控并等待多个TaskGroup模块任务完成,等待所有TaskGroup任务完成后Job成功退出;否则,异常退出,进程退出值非0。
[0025]进一步的,上述子任务切分是将单一作业计算转化为多个子Task。
[0026]进一步的,上述Task被称为子任务,且Task便是datax作业的最小单元。
[0027]进一步的,上述TaskGroup被称为任务组,每一个TaskGroup负责以一定的并发运行完毕分配好的所有Task,默认单个任务组的并发数量为5。
[0028]与现有技术相比,本专利技术具有以下有益效果:
[0029]1.完美解决数据传输个别类型失真问题:datax通过函数优化支持所有的强数据类型,每一种插件都有自己的数据类型转换策略,让数据可以完整无损的传输到目的端;
[0030]2.提供作业全链路的流量、数据量运行时监控:datax运行过程中通过监控模块将作业本身状态、数据流量、数据速度、执行进度等信息进行全面的展示,让用户可以实时了解作业状态,并可在作业执行过程中智能判断源端和目的端的本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于datax的数据治理方法,其特征在于,包括:步骤一、datax完成单个数据同步的作业称之为Job,datax接受到一个Job之后,将启动一个进程来完成整个作业同步过程,dataxJob模块是单个作业的中枢管理节点,承担了数据清理、子任务切分、TaskGroup管理等功能;步骤二、dataxJob启动后,会根据不同的源端切分策略,将Job切分成多个小的Task,以便于并发执行,每一个Task都会负责一部分数据的同步工作;步骤三、切分多个Task之后,dataxJob会调用Scheduler模块,根据配置的并发数据量,将拆分成的Task重新组合,组装成TaskGroup;步骤四、每一个Task都由TaskGroup负责启动,Task启动后,会固定启动Reader

>Channe...

【专利技术属性】
技术研发人员:苏小东孙冰孙奇于欢
申请(专利权)人:北京资采信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1