一种网络异构环境下容错系统架构技术方案

技术编号:32359552 阅读:14 留言:0更新日期:2022-02-20 03:24
本发明专利技术涉及数据存储管理技术领域,具体为一种网络异构环境下容错系统架构,所述容错分为服务宕机容错和任务重试,服务宕机容错又分为Master容错和Worker容错两种情况,所述Master容错的一个进程是Master节点,就在一台机器上,负责统一管控分散在多台机器上的数据;另外一批进程叫做Slave节点,每台机器上都有一个Slave节点,负责管理那台机器上的数据,跟Master节点进行通信,通过提出异构环境数据副本动态管理模型在副本创建时,考虑资源节点性能及访问热度,选择最优副本放置节点;在系统运行过程中,数据分片存储、多副本冗余、宕机感知、自动副本迁移、多余副本删除,能够有效减少节点之间数据传输,提高负载均衡,降低作业执行时间。执行时间。执行时间。

【技术实现步骤摘要】
一种网络异构环境下容错系统架构


[0001]本专利技术涉及数据存储管理
,具体为一种网络异构环境下容错系统架构。

技术介绍

[0002]通过基础设施与上层应用程序的协同来有效地利用硬件资源随着云计算的发展及推广,众多涉及海量数据处理的应用蓬勃涌现,如网络搜索、电子地图、生物医学、流体力学等这些应用每天都会产生海量数据,要对其进行处理,就需要海量存储空间,由于资源节点的动态性和异构性,创建多个数据副本进行容错和负载均衡副本技术是一种数据管理机制,将数据项复制多份分别放在分布式文件系统的多个节点上,用以提高系统的可靠性和访问效率.副本管理主要包括副本创建副本放置和副本调整副本管理策略分为静态副本策略和动态副本策略静态副本策略基于已知的访问方式,在文件创建时确定副本的数目及放置位置,适用于资源环境稳定的情况动态副本策略根据资源环境的变化而动态调整副本数目和位置,以适应不稳定的资源环境,现有采用静态副本管理机制,在文件分块时自动创建固定数目的副本,副本放置时未考虑资源节点异构性,导致节点负载不均,节点间数据传输量大,因此需要一种网络异构环境下容错系统架构。

技术实现思路

[0003]本专利技术的目的在于提供一种网络异构环境下容错系统架构,以解决上述
技术介绍
中提出的问题。
[0004]为实现上述目的,本专利技术提供如下技术方案:
[0005]一种网络异构环境下容错系统架构,所述容错分为服务宕机容错和任务重试,服务宕机容错又分为Master容错和Worker容错两种情况,所述Master容错的一个进程是Master节点,就在一台机器上,负责统一管控分散在多台机器上的数据;另外一批进程叫做Slave节点,每台机器上都有一个Slave节点,负责管理那台机器上的数据,跟Master节点进行通信。
[0006]作为本专利技术优选的方案,所述容错设计依赖于ZooKeeper的Watcher机制。
[0007]作为本专利技术优选的方案,所述Master监控其他Master和Worker的目录,如果监听到remove事件,则会根据具体的业务逻辑进行流程实例容错或者任务实例容错。
[0008]作为本专利技术优选的方案,所述ZooKeeperMaster容错完成之后则重新由DolphinScheduler中Scheduler线程调度,遍历DAG找到”正在运行”和“提交成功”的任务,对”正在运行”的任务监控其任务实例的状态,对”提交成功”的任务需要判断Task Queue中是否已经存在,如果存在则同样监控任务实例的状态,如果不存在则重新提交任务实例。
[0009]作为本专利技术优选的方案,所述Master Scheduler线程一旦发现任务实例为“需要容错”状态,则接管任务并进行重新提交;由于“网络抖动”可能会使得节点短时间内失去和ZooKeeper的心跳,从而发生节点的remove事件;对于这种情况,我们使用最简单的方式,那就是节点一旦和ZooKeeper发生超时连接,则直接将Master或Worker服务停掉。
[0010]作为本专利技术优选的方案,所述Master节点发现一段时间没收到某个Slave节点发送过来的心跳,此时就会认为这个Slave节点所在机器宕机了,那台机器上的数据副本都丢失了,然后Master节点就不会告诉别人去读那个丢失的数据副本,Master节点就可以通知去读副本1或者副本2。
[0011]作为本专利技术优选的方案,所述Master节点一旦感知到某台机器宕机,就能感知到某个数据分片的副本数量不足了;此时,就会生成一个副本复制的任务,挑选另外一台机器来从有副本的机器去复制一个副本。
[0012]作为本专利技术优选的方案,所述Master节点感知到机器复活,会发现副本数量过多,此时会生成一个删除副本任务,会在机器发送心跳的时候,下发一个删除副本的指令,让机器删除自己本地多余的副本。
[0013]作为本专利技术优选的方案,所述Master容错和Worker容错任务失败重试是任务级别的,是调度系统自动进行的,比如一个Shell任务设置重试次数为3次,那么在Shell任务运行失败后会自己再最多尝试运行3次,流程失败恢复是流程级别的,是手动进行的,恢复是从只能从失败的节点开始执行或从当前节点开始执行,流程失败重跑也是流程级别的,是手动进行的,重跑是从开始节点进行。
[0014]作为本专利技术优选的方案,所述Master容错和Worker容错任务节点分为两种类型,一种是业务节点,这种节点都对应一个实际的脚本或者处理语句;还有一种是逻辑节点,这种节点不做实际的脚本或语句处理,只是整个流程流转的逻辑处理;每一个业务节点都可以配置失败重试的次数,当该任务节点失败,会自动重试,直到成功或者超过配置的重试次数,逻辑节点不支持失败重试,但是逻辑节点里的任务支持重试。
[0015]与现有技术相比,本专利技术的有益效果是:
[0016]本专利技术中,通过提出异构环境数据副本动态管理模型在副本创建时,考虑资源节点性能及访问热度,选择最优副本放置节点;在系统运行过程中,Worker的角色主要负责任务的执行工作并维护和Master的心跳,以便Master可以分配任务,数据分片存储、多副本冗余、宕机感知、自动副本迁移、多余副本删除,主要是避免了参与者在长时间无法与协调者节点通讯(协调者挂掉了)的情况下,无法释放资源的问题,因为参与者自身拥有超时机制会在超时后,自动进行本地从而进行释放资源,而这种机制也侧面降低了整个事务的阻塞时间和范围,能够有效减少节点之间数据传输,提高负载均衡,降低作业执行时间。
附图说明
[0017]图1为本专利技术的系统原理结构图;
[0018]图2为本专利技术的Master容错流程图;
[0019]图3为本专利技术的Worker容错流程图。
具体实施方式
[0020]下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例,基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0021]为了便于理解本专利技术,下面将参照相关附图对本专利技术进行更全面的描述,附图中给出了本专利技术的若干实施例,但是,本专利技术可以以许多不同的形式来实现,并不限于本文所描述的实施例,相反地,提供这些实施例的目的是使对本专利技术的公开内容更加透彻全面。
[0022]除非另有定义,本文所使用的所有的技术和科学术语与属于本专利技术的
的技术人员通常理解的含义相同。本文中在本专利技术的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本专利技术,本文所使用的术语“及/或”包括一个或多个相关的所列项目的任意的和所有的组合。
[0023]请参阅图1

3本专利技术提供一种技术方案:
[0024]一种网络异构环境下容错系统架构,所述容错分为服务宕机容错和任务重试,服务宕机容错又分为Master容错和Worker容本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种网络异构环境下容错系统架构,其特征在于:所述容错分为服务宕机容错和任务重试,服务宕机容错又分为Master容错和Worker容错两种情况,所述Master容错的一个进程是Master节点,就在一台机器上,负责统一管控分散在多台机器上的数据;另外一批进程叫做Slave节点,每台机器上都有一个Slave节点,负责管理那台机器上的数据,跟Master节点进行通信。2.根据权利要求1所述的一种网络异构环境下容错系统架构,其特征在于:所述容错设计依赖于ZooKeeper的Watcher机制。3.根据权利要求1所述的一种网络异构环境下容错系统架构,其特征在于:所述Master监控其他Master和Worker的目录,如果监听到remove事件,则会根据具体的业务逻辑进行流程实例容错或者任务实例容错。4.根据权利要求1所述的一种网络异构环境下容错系统架构,其特征在于:所述ZooKeeperMaster容错完成之后则重新由DolphinScheduler中Scheduler线程调度,遍历DAG找到”正在运行”和“提交成功”的任务,对”正在运行”的任务监控其任务实例的状态,对”提交成功”的任务需要判断Task Queue中是否已经存在,如果存在则同样监控任务实例的状态,如果不存在则重新提交任务实例。5.根据权利要求1所述的一种网络异构环境下容错系统架构,其特征在于:所述Master Scheduler线程一旦发现任务实例为“需要容错”状态,则接管任务并进行重新提交;由于“网络抖动”可能会使得节点短时间内失去和ZooKeeper的心跳,从而发生节点的remove事件;对于这种情况,我们使用最简单的方式,那就是节点一旦和ZooKeeper发生超时连接,则直接将Master或Worker服务停掉。6.根据权利要求1所述的一种网络异构环境下容错系统架构,其特征在于:所述...

【专利技术属性】
技术研发人员:胡磊
申请(专利权)人:弥达斯科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1