一种支持流批一体的大数据引擎分布式任务调度方法技术

技术编号:35568409 阅读:25 留言:0更新日期:2022-11-12 15:52
本发明专利技术公开了一种支持流批一体的大数据引擎分布式任务调度方法,具体涉及计算机领域,包括S1、多集群接入管理;S2、构建工作流DAG流程;S3、工作流实例回溯与控制和S4、作业实例数据处理反馈结果审计。本发明专利技术使数据开发人员可以通过可视化操作接入多个集群,实现任务分布式调度,合理并充分使用大数据资源;通过拖拽连线多个作业组件构建DAG工作流,合并数据处理任务,执行统一的ETL周期调度;留存工作流执行的DAG流程实例,基于工作流实例实现DAG流程的重跑、暂停、停止、恢复失败、恢复暂停、恢复停止等重新部署的动态化控制;留存作业的实例,直观表现大数据任务的反馈结果,便于数据开发者排查异常程序或任务。开发者排查异常程序或任务。

【技术实现步骤摘要】
一种支持流批一体的大数据引擎分布式任务调度方法


[0001]本专利技术涉及计算机
,更具体地说,本专利技术涉及一种支持流批一体的大数据引擎分布式任务调度方法(流批一体是指采用一套逻辑来描述实时与离线作业,同一个作业运行时在不同阶段呈现出流批两种特性)。

技术介绍

[0002]数据湖是企业利用大数据技术,对内外部海量数据统一进行采集、计算、存储,并使用统一的数据规范进行管理,数据规范包括数据口径、数据模型、元数据规范、参考数据标准、主数据标准、业务规则等。更进一步,广义的数据中台,还包括企业长期积累下来与业务有较强关联性的一些技术组件,如业务标签,算法模型,数据产品等。数据中台的主要作用在于将企业内部所有数据统一处理形成标准化数据,挖掘出对企业最有价值的数据,构建企业数据资产库,对内对外提供一致的、高可用大数据服务。
[0003]大数据引擎任务调度系统在数据平台中属于核心组件。在日常的数据处理中,定时运行一些作业是很常见的业务需求,如定时从数据库将新增数据导入至数据湖中,将数据湖仓处理后的数据导出到数据库或者是文件系统以供业务系统使本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种支持流批一体的大数据引擎分布式任务调度方法,其特征在于:具体的调度步骤如下:S1、多集群接入管理:通过配置hdfs

site、yarn

site或flink

site的参数实现多集群的资源接入,作业调度时指定集群执行;用户可根据自身情况将多个集群分为开发环境、测试环境、试运行环境、生产环境,在部署程序时指定哪个环境运行;当集群资源不足时,可在部署程序时指定其他资源较为充分的集群运行;S2、构建工作流DAG流程:通过工作流以可视化拖拽组件、连线的方式,对多个数据处理的作业/任务进行合并,实现工作流DAG流程的构建;S3、工作流实例回溯与控制:基于工作流实例对ETL数据处理的DAG流程实例永久留存,工作流实例产生自工作流的调度执行,记录某时某刻工作流运行的DAG流程实例;S3.1、工作流实例编辑:工作流实例编辑应用于DAG流程执行失败、停止、暂停、结束时的优化与修正,编辑对象是已终止的工作流实例,保存时分为将修改的作业同步至原先的工作流中和不同步到原先的工作流两种情况;S3.2、工作流实例重跑:工作流实例重跑应用于DAG流程已终止的工作流实例,重跑对象是完整的DAG流程作业节点,即使成功执行的作业节点也要重新执行,重跑时工作流实例不变但重新生成新的作业实例,正在运行的工作流实例不能执行重跑操作;S3.3、工作流实例停止:工作流实例停止应用于DAG流程正在运行的工作流实例,对正在运行的工作流实例执行停止操作;S3.4、工作流实例暂停:工作流实例暂停应用于DAG流程正在运行的工作流实例,对正在运行的工作流实例执行暂停操作;S3.5、工作流实例恢复失败:工作流实例恢复失败应用于DAG流程执行失败的工作流实例,是对执行失败的工作流实例进行优化、修正后的重新部署;S3.6、工作流实例恢复停止:工作流实例恢复停止应用于DAG流程停止的工作流实例,对停止的工作流实例进行重新部署;S3.7、工作流实例恢复暂停:工作流实例恢复暂停应用于DAG流程暂停的工作流实例,对暂停的工作流实例进行重新部署;S4、作业实例数据处理反馈结果审计:作业实例由工作流中的作业调度执行产生,永久留存数据处理的实例,是大数据任务调度反馈结果的直观表现,数据开发者可通过该功能排查异常任务。2.根据权利要求1所述的一种支持流批一体的大数据引擎分布式任务调度方法,其特征在于:所述步骤S1中多集群接入管...

【专利技术属性】
技术研发人员:赵晶骉周杨陈锡幸王淳谢作樟
申请(专利权)人:浙江网安信创电子技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1