一种基于flink的分布式数据流异步快照的方法及系统技术方案

技术编号:43850607 阅读:21 留言:0更新日期:2024-12-31 18:42
本发明专利技术涉及分布式数据流处理技术领域,具体为一种基于flink的分布式数据流异步快照的方法及系统,包括以下步骤:设计并执行一种快照算法,该算法确保在所有进程均为活动状态的情况下,在有限时间内完成,从而满足终止性要求;在执行快照时,维护数据流的因果顺序,确保记录在快照中的交付顺序与实际任务执行中的顺序一致,以满足可行性要求;有益效果为:本发明专利技术提出的基于flink的分布式数据流异步快照的方法及系统,引入了异步障碍快照算法,这是一种实现良好吞吐量的新快照技术。异步障碍快照算法是第一个考虑无环执行拓扑所需最小状态的算法。此外,还通过仅存储需要恢复时重新处理的记录来扩展异步障碍快照算法以适应有环执行图。

【技术实现步骤摘要】

本专利技术涉及分布式数据流处理,具体为一种基于flink的分布式数据流异步快照的方法及系统


技术介绍

1、为了确保分布式处理系统在任务故障发生时能够进行弹性恢复,一种常见的方法是使用全局快照技术。全局快照是执行图在某一特定时间点的完整状态,它捕获了所有相关的数据和状态信息。

2、在分布式系统中,全局快照的主要目的是提供一个一致的恢复点,以便在发生故障时能够快速恢复计算。通过定期捕获全局快照,系统可以在故障发生后迅速恢复到一致的状态,确保计算的可靠性和一致性。全局快照的捕获通常涉及停止整个计算系统的操作,对所有任务和数据进行一次性全面地捕获。一旦完成快照,系统将继续其操作。这种方法的一个主要缺点是它需要停止整个系统的操作,这可能会导致长时间的停机时间,特别是在大规模系统中。

3、为了解决这个问题,一些系统采用了异步全局快照技术。这些系统通常采用分布式日志来记录任务的元数据和数据状态。当系统需要恢复到一致的全局状态时,它会遍历日志并应用相应的操作来重建快照。这种方法的好处是它不需要停止整个系统的操作,而是可以在不中断正常处理的情况下进本文档来自技高网...

【技术保护点】

1.一种基于flink的分布式数据流异步快照的方法,其特征在于:所述方法包括以下步骤:

2.根据权利要求1所述的一种基于flink的分布式数据流异步快照的方法,在无环数据流环境中,其特征在于:还包括以下步骤:

3.根据权利要求1所述的一种基于flink的分布式数据流异步快照的方法,在包含有向循环的数据流环境中,其特征在于:还包括以下步骤:

4.根据权利要求1所述的一种基于flink的分布式数据流异步快照的方法,其特征在于:还包括一种故障恢复机制,该机制包括:

5.根据权利要求4所述的一种基于flink的分布式数据流异步快照的方法,其特征在于...

【技术特征摘要】

1.一种基于flink的分布式数据流异步快照的方法,其特征在于:所述方法包括以下步骤:

2.根据权利要求1所述的一种基于flink的分布式数据流异步快照的方法,在无环数据流环境中,其特征在于:还包括以下步骤:

3.根据权利要求1所述的一种基于flink的分布式数据流异步快照的方法,在包含有向循环的数据流环境中,其特征在于:还包括以下步骤:

4.根据权利要求1所述的一种基于flink的分布式数据流异步快照的方法,其特征在于:还包括一种故障恢复机制,该机制包括:

5.根据权利要求4所述的一种基于flink的分布式数据流异步快照的方法,其特征在于:故障恢复机制还包括部分图恢复方案,具体步骤包括:

6.一种根据权利要求1-5任意一项所述的基于flink的分布式数据流异步快照的方法的基于flink的分布式数据流异步快照系统,包括多个处理节点,每个节点执行分布式数据流处理任务,其特征在于:系统在不中断数据流处理的情况下,异步生成全局一致的快照,以支持系统的故障恢复和容错。

7.根据权利要求6所述的一种基于flin...

【专利技术属性】
技术研发人员:高翔宇陈令龙郝文祥
申请(专利权)人:浪潮云信息技术股份公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1