一种基于中间数据的任务断点重跑方法及系统技术方案

技术编号:41204123 阅读:22 留言:0更新日期:2024-05-07 22:29
本发明专利技术涉及一种基于中间数据的任务断点重跑方法及系统,属于批流一体数据处理领域。本发明专利技术方法包括:基于数据处理任务确定相应的DAG图,DAG图用于表示执行所述任务的各任务算子的执行顺序和执行方向;基于DAG图执行数据处理任务,执行时记录输入数据在相应数据源中的偏移位置、各任务算子的执行结果标志,当所述执行结果标志为成功时,记录该任务算子形成的中间数据;其中,所述输入数据为从相应数据源中持续读取的批数据或流数据;在所述任务执行失败时,基于所述执行结果标志以及所述偏移位置或中间数据执行任务断点重跑。本发明专利技术方法可以避免失败的批流一体数据处理任务在重跑过程中出现的数据丢失、数据重复等问题,并提升任务重跑效率。

【技术实现步骤摘要】

本专利技术属于批流一体数据处理领域,尤其涉及一种基于中间数据的任务断点重跑方法及系统


技术介绍

1、随着大数据技术的不断发展,数据结构越来越多元化(包括结构化、非结构化、半结构化),数据存储场景变得越来越复杂(离线存储、实时生产和消费等)。许多系统既需要处理海量的离线数据,也需要实时快速的计算流式数据。为了适应各种类型和不同场景的数据要求,异构多元的大数据批流一体处理引擎应运而生,它将批处理和流处理进行了融合,既能处理实时性要求不高的有界的海量批数据,也能处理时效性要求高的并发流量大的流数据。

2、在批流一体数据处理系统中,往往一个数据处理作业由许多个任务算子在不同分支串联而成,如图2为一个数据处理作业的示例:一个任务由数据输入任务算子,经过数据分发任务算子、数据过滤任务算子、数据转换任务算子、数据计算任务算子、数据清洗任务算子、数据合并任务算子,最后到数据输出任务算子。为了确保处理效率,任务算子和任务算子之间对数据流式执行,数据输入任务算子读取到一批数据,会马上发送到下游,以此类推,形成了一个以数据驱动的任务算子流。p>

3、这种基本文档来自技高网...

【技术保护点】

1.一种基于中间数据的任务断点重跑方法,其特征在于,包括如下步骤:

2.根据权利要求1所述的任务断点重跑方法,其特征在于,所述基于数据处理任务确定相应的DAG图包括:

3.根据权利要求2所述的任务断点重跑方法,其特征在于,所述记录执行成功的任务算子形成的中间数据包括:

4.根据权利要求3所述的任务断点重跑方法,其特征在于,所述存储索引为顺序递增的稀疏索引。

5.根据权利要求3或4所述的任务断点重跑方法,其特征在于,执行数据处理任务时,除第一个任务算子外,其他各任务算子基于其相邻上游任务算子提供的所述存储索引从所述中间数据存储引擎读取相应中间...

【技术特征摘要】

1.一种基于中间数据的任务断点重跑方法,其特征在于,包括如下步骤:

2.根据权利要求1所述的任务断点重跑方法,其特征在于,所述基于数据处理任务确定相应的dag图包括:

3.根据权利要求2所述的任务断点重跑方法,其特征在于,所述记录执行成功的任务算子形成的中间数据包括:

4.根据权利要求3所述的任务断点重跑方法,其特征在于,所述存储索引为顺序递增的稀疏索引。

5.根据权利要求3或4所述的任务断点重跑方法,其特征在于,执行数据处理任务时,除第一个任务算子外,其他各任务算子基于其相邻上游任务算子提供的所述存储索引从所述中间数据存储引擎读取相应中间数据作为输入。

6.根据权利要求5所述的任务断点重跑方法,其特征在于,所述基于所...

【专利技术属性】
技术研发人员:李胜昌杜宏博谢志豪李旭光葛晋鹏杨亮李泽宇邵鹏志李皓李晓政纪沈江鲁东民徐天敕张世超
申请(专利权)人:中国兵器工业计算机应用技术研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1