【技术实现步骤摘要】
本专利技术属于批流一体数据处理领域,尤其涉及一种基于中间数据的任务断点重跑方法及系统。
技术介绍
1、随着大数据技术的不断发展,数据结构越来越多元化(包括结构化、非结构化、半结构化),数据存储场景变得越来越复杂(离线存储、实时生产和消费等)。许多系统既需要处理海量的离线数据,也需要实时快速的计算流式数据。为了适应各种类型和不同场景的数据要求,异构多元的大数据批流一体处理引擎应运而生,它将批处理和流处理进行了融合,既能处理实时性要求不高的有界的海量批数据,也能处理时效性要求高的并发流量大的流数据。
2、在批流一体数据处理系统中,往往一个数据处理作业由许多个任务算子在不同分支串联而成,如图2为一个数据处理作业的示例:一个任务由数据输入任务算子,经过数据分发任务算子、数据过滤任务算子、数据转换任务算子、数据计算任务算子、数据清洗任务算子、数据合并任务算子,最后到数据输出任务算子。为了确保处理效率,任务算子和任务算子之间对数据流式执行,数据输入任务算子读取到一批数据,会马上发送到下游,以此类推,形成了一个以数据驱动的任务算子流。
...【技术保护点】
1.一种基于中间数据的任务断点重跑方法,其特征在于,包括如下步骤:
2.根据权利要求1所述的任务断点重跑方法,其特征在于,所述基于数据处理任务确定相应的DAG图包括:
3.根据权利要求2所述的任务断点重跑方法,其特征在于,所述记录执行成功的任务算子形成的中间数据包括:
4.根据权利要求3所述的任务断点重跑方法,其特征在于,所述存储索引为顺序递增的稀疏索引。
5.根据权利要求3或4所述的任务断点重跑方法,其特征在于,执行数据处理任务时,除第一个任务算子外,其他各任务算子基于其相邻上游任务算子提供的所述存储索引从所述中间数据
...【技术特征摘要】
1.一种基于中间数据的任务断点重跑方法,其特征在于,包括如下步骤:
2.根据权利要求1所述的任务断点重跑方法,其特征在于,所述基于数据处理任务确定相应的dag图包括:
3.根据权利要求2所述的任务断点重跑方法,其特征在于,所述记录执行成功的任务算子形成的中间数据包括:
4.根据权利要求3所述的任务断点重跑方法,其特征在于,所述存储索引为顺序递增的稀疏索引。
5.根据权利要求3或4所述的任务断点重跑方法,其特征在于,执行数据处理任务时,除第一个任务算子外,其他各任务算子基于其相邻上游任务算子提供的所述存储索引从所述中间数据存储引擎读取相应中间数据作为输入。
6.根据权利要求5所述的任务断点重跑方法,其特征在于,所述基于所...
【专利技术属性】
技术研发人员:李胜昌,杜宏博,谢志豪,李旭光,葛晋鹏,杨亮,李泽宇,邵鹏志,李皓,李晓政,纪沈江,鲁东民,徐天敕,张世超,
申请(专利权)人:中国兵器工业计算机应用技术研究所,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。