一种基于关键任务部分主动备份的容错方法和流处理平台技术

技术编号:23512573 阅读:33 留言:0更新日期:2020-03-17 23:58
本申请提供了一种基于关键任务部分主动备份的容错方法和流处理平台,其中,该方法的步骤包括:对所述关键任务位置至少备份一次;备份后的每个关键任务位置对同一上游实例产生的元组进行处理;将备份后所有关键任务位置中非故障位置的处理结果发送给同一下游。本申请所述技术方案能够有效缩短发生故障情况下的平均故障恢复时间。当故障发生在主动备份顶点上时,可以在秒级别内实现快速故障恢复。此外,本方案能够充分利用状态备份节点上计算资源利用率,可以有效提升这些节点的资源利用率至50%以上。

A fault tolerance method and flow processing platform based on partial active backup of critical tasks

【技术实现步骤摘要】
一种基于关键任务部分主动备份的容错方法和流处理平台
本申请涉及流平台容错备份领域,特别涉及一种基于关键任务部分主动备份的容错方法和流处理平台。
技术介绍
流计算作为一种基于内存计算的范式,且大多运行于分布式的环境下,因此极易受到系统故障的影响。在一个流处理系统中,一旦系统检测到故障的发生,系统必须迅速作出响应,尽快恢复源源不断到达的流数据的正常处理过程,否则不仅可能引起数据的丢失甚至会产生错误的计算结果。在传统的分布式流处理系统中,广泛采用主动备份、被动备份这两种容错机制。主动备份能够在发生故障时完成从主实例到其备份实例的即时切换,确保了最短的故障响应时间,但是同时也带来了高昂的容错开销,即至少产生两倍的资源消耗。设置检查点进行卷回恢复是一种基于被动备份思想的的容错机制,在大多数情况下可以显著提高系统的效率,因此在生产环境中被广泛采用。例如,流处理平台(Flink)作为目前最为流行的流处理平台之一,其实现了一种基于栅栏模式的检查点容错机制,并且能够保证“至少一次”、“恰好一次”等多种语义级别。Flink系统在部署应用时要求用户给出检查点周期参数本文档来自技高网...

【技术保护点】
1.一种基于关键任务部分主动备份的容错方法,其特征在于,该方法的步骤包括:/n对所述关键任务位置至少备份一次;/n备份后的每个关键任务位置对同一上游实例产生的元组进行处理;/n将备份后所有关键任务位置中非故障位置的处理结果发送给同一下游。/n

【技术特征摘要】
1.一种基于关键任务部分主动备份的容错方法,其特征在于,该方法的步骤包括:
对所述关键任务位置至少备份一次;
备份后的每个关键任务位置对同一上游实例产生的元组进行处理;
将备份后所有关键任务位置中非故障位置的处理结果发送给同一下游。


2.根据权利要求1所述的容错方法,其特征在于,所述对所述关键任务位置进行备份步骤的前一步包括:
挖掘流处理平台网络拓扑中关键任务位置。


3.根据权利要求2所述的容错方法,其特征在于,所述挖掘流处理平台网络拓扑中关键任务位置的步骤包括:
将某一顶点对拓扑局部连通性的影响程度和传播影响能力作为参考指标;
将至少上述两项指标进行归一化后加权,确定该节点是否为关键任务位置。


4.根据权利要求1所述的容错方法,其特征在于,所述处理结果中的一个作为下游的实例。


5.根据权利要求1或4所述的容错方法,其特征在于,该方法的步骤还包括:
下游根据获取实例...

【专利技术属性】
技术研发人员:庆骁
申请(专利权)人:北京仿真中心
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1