一种数据处理方法、系统、终端设备和存储介质技术方案

技术编号:23890527 阅读:22 留言:0更新日期:2020-04-22 06:16
本发明专利技术提供了一种数据处理方法、系统、终端设备和存储介质,其方法包括:通过JobClient节点提交数据治理任务至对应的JobTracker节点;通过JobTracker节点转发数据治理任务至空闲状态下的TaskTracker节点;通过TaskTracker节点从HDFS服务器下载与数据治理任务匹配的数据治理功能配置包至本地;通过TaskTracker节点根据数据治理功能配置包执行对应的数据处理流程。本发明专利技术提高数据治理系统的易用和稳定性,实现高可用、高性能、高可扩展和高可维护性的数据治理。

A data processing method, system, terminal equipment and storage medium

【技术实现步骤摘要】
一种数据处理方法、系统、终端设备和存储介质
本专利技术涉及数据处理
,尤指一种数据处理方法、系统、终端设备和存储介质。
技术介绍
对外部海量数据的系统分析前提,是要把外部海量数据进行抽取、清洗、转换、入库。但是外部待处理的数据量大、并发高、占用内存大,如果数据治理功能和其他功能是同一个Java线程,数据治理流程导致的内存溢出或者其他问题将会影响整个系统的使用;即使数据治理功能独立部署,如果不能横向多节点扩展,不仅处理能力受限,而且也不支持高可用。如何提高数据治理系统的易用和稳定性,实现高可用、高性能、高可扩展和高可维护性的数据治理是亟需解决的问题。
技术实现思路
本专利技术的目的是提供一种数据处理方法、系统、终端设备和存储介质,实现提高数据治理系统的易用和稳定性,实现高可用、高性能、高可扩展和高可维护性的数据治理。本专利技术提供的技术方案如下:本专利技术提供一种数据处理方法,包括步骤:通过JobClient节点提交数据治理任务至对应的JobTracker节点;通过所述JobTracker节点转发所述数据治理任务至空闲状态下的TaskTracker节点;通过所述TaskTracker节点从HDFS服务器下载与所述数据治理任务匹配的数据治理功能配置包至本地;通过所述TaskTracker节点根据所述数据治理功能配置包执行对应的数据处理流程。进一步的,所述通过JobClient节点提交数据治理任务至对应的JobTracker节点之前包括步骤:获取数据治理功能配置包并上传至HDFS服务器;对LTS分布式框架的JobTracker节点和TaskTracker节点进行模块化部署。进一步的,所述对LTS分布式框架的JobTracker节点和TaskTracker节点进行模块化部署包括步骤:根据环境配置包对设置所述JobTracker节点和TaskTracker节点的集群名称和注册地址一致。进一步的,所述通过所述TaskTracker节点根据所述数据治理功能配置包执行对应的数据处理流程包括步骤:启动Java子进程,由所述Java子进程执行所述数据治理功能配置包进行对应的数据处理流程;所述数据处理流程包括数据抽取、数据清洗、数据转换、数据入库、数据回滚;通过所述TaskTracker节点反馈所述数据治理任务对应任务执行结果至提交所述数据治理任务的JobClient节点,使得监测数据治理任务的JobClient节点接收到所述任务执行结果后重新提交新任务。本专利技术还提供一种数据处理系统,包括:数据处理服务器和HDFS服务器;所述数据处理服务器包括:任务提交模块,用于通过JobClient节点提交数据治理任务至对应的JobTracker节点;任务分配模块,用于通过所述JobTracker节点转发所述数据治理任务至空闲状态下的TaskTracker节点;功能配置模块,用于通过所述TaskTracker节点从HDFS服务器下载与所述数据治理任务匹配的数据治理功能配置包至本地;任务执行模块,用于通过所述TaskTracker节点根据所述数据治理功能配置包执行对应的数据处理流程。进一步的,所述数据处理服务器还包括:上传模块,用于获取数据治理功能配置包并上传至HDFS服务器;环境配置模块,用于对LTS分布式框架的JobTracker节点和TaskTracker节点进行模块化部署。进一步的,所述环境配置模块,还用于根据环境配置包对设置所述JobTracker节点和TaskTracker节点的集群名称和注册地址一致。进一步的,所述数据处理服务器还包括:反馈模块;所述任务执行模块,还用于启动Java子进程,由所述Java子进程执行所述数据治理功能配置包进行对应的数据处理流程;所述数据处理流程包括数据抽取、数据清洗、数据转换、数据入库、数据回滚;所述反馈模块,用于通过所述TaskTracker节点反馈所述数据治理任务对应任务执行结果至提交所述数据治理任务的JobClient节点,使得监测数据治理任务的JobClient节点接收到所述任务执行结果后重新提交新任务。本专利技术还提供一种处理终端,其特征在于,包括处理器、存储器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器,用于执行所述存储器上所存放的计算机程序,实现所述的数据处理方法所执行的操作。本专利技术还提供一种存储介质,其特征在于,所述存储介质中存储有至少一条指令,所述指令由处理器加载并执行以实现所述的数据处理方法所执行的操作。通过本专利技术提供的一种数据处理方法、系统、终端设备和存储介质,能够提高数据治理系统的易用和稳定性,实现高可用、高性能、高可扩展和高可维护性的数据治理。附图说明下面将以明确易懂的方式,结合附图说明优选实施方式,对一种数据处理方法、系统、终端设备和存储介质的上述特性、技术特征、优点及其实现方式予以进一步说明。图1是本专利技术一种数据处理方法的一个实施例的流程图;图2是本专利技术一种数据处理方法的另一个实施例的流程图;图3是本专利技术一种数据处理方法的另一个实施例的流程图;图4是本专利技术一种数据处理方法的另一个实施例的流程图;图5是本专利技术一种数据处理系统的一个实施例的结构示意图;图6是本专利技术一种数据处理系统的另一个实施例的结构示意图。具体实施方式为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对照附图说明本专利技术的具体实施方式。显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图,并获得其他的实施方式。为使图面简洁,各图中只示意性地表示出了与本专利技术相关的部分,它们并不代表其作为产品的实际结构。另外,以使图面简洁便于理解,在有些图中具有相同结构或功能的部件,仅示意性地绘示了其中的一个,或仅标出了其中的一个。在本文中,“一个”不仅表示“仅此一个”,也可以表示“多于一个”的情形。本专利技术的一个实施例,如图1所示,一种数据处理方法,包括:S100通过JobClient节点提交数据治理任务至对应的JobTracker节点;S200通过JobTracker节点转发数据治理任务至空闲状态下的TaskTracker节点;S300通过TaskTracker节点从HDFS服务器下载与数据治理任务匹配的数据治理功能配置包至本地;S400通过TaskTracker节点根据数据治理功能配置包执行对应的数据处理流程。具体的,LTS是一个轻量级分布式任务调度框架,LTS有三种角色节点,分别是JobClient节点、JobTracker节点、TaskTracker节点。各个角色节点都是无状态的,可以部署多个不同类型的角色节点,来实现负载均衡,实现更大的负载量,并且LT本文档来自技高网...

【技术保护点】
1.一种数据处理方法,其特征在于,包括步骤:/n通过JobClient节点提交数据治理任务至对应的JobTracker节点;/n通过所述JobTracker节点转发所述数据治理任务至空闲状态下的TaskTracker节点;/n通过所述TaskTracker节点从HDFS服务器下载与所述数据治理任务匹配的数据治理功能配置包至本地;/n通过所述TaskTracker节点根据所述数据治理功能配置包执行对应的数据处理流程。/n

【技术特征摘要】
1.一种数据处理方法,其特征在于,包括步骤:
通过JobClient节点提交数据治理任务至对应的JobTracker节点;
通过所述JobTracker节点转发所述数据治理任务至空闲状态下的TaskTracker节点;
通过所述TaskTracker节点从HDFS服务器下载与所述数据治理任务匹配的数据治理功能配置包至本地;
通过所述TaskTracker节点根据所述数据治理功能配置包执行对应的数据处理流程。


2.根据权利要求1所述的数据处理方法,其特征在于,所述通过JobClient节点提交数据治理任务至对应的JobTracker节点之前包括步骤:
获取数据治理功能配置包并上传至HDFS服务器;
对LTS分布式框架的JobTracker节点和TaskTracker节点进行模块化部署。


3.根据权利要求2所述的数据处理方法,其特征在于,所述对LTS分布式框架的JobTracker节点和TaskTracker节点进行模块化部署包括步骤:
根据环境配置包对设置所述JobTracker节点和TaskTracker节点的集群名称和注册地址一致。


4.根据权利要求1-3任一项所述的数据处理方法,其特征在于,所述通过所述TaskTracker节点根据所述数据治理功能配置包执行对应的数据处理流程包括步骤:
启动Java子进程,由所述Java子进程执行所述数据治理功能配置包进行对应的数据处理流程;所述数据处理流程包括数据抽取、数据清洗、数据转换、数据入库、数据回滚;
通过所述TaskTracker节点反馈所述数据治理任务对应任务执行结果至提交所述数据治理任务的JobClient节点,使得监测数据治理任务的JobClient节点接收到所述任务执行结果后重新提交新任务。


5.一种数据处理系统,其特征在于,包括:数据处理服务器和HDFS服务器;所述数据处理服务器包括:
任务提交模块,用于通过JobClient节点提交数据治理任务至对应的JobTracker节点;

【专利技术属性】
技术研发人员:王海波房中卫吕志军
申请(专利权)人:智器云南京信息科技有限公司
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1