分布式处理系统的监控方法及装置制造方法及图纸

技术编号:34535371 阅读:21 留言:0更新日期:2022-08-13 21:29
本说明书提供一种分布式处理系统的监控方法及装置,所述分布式处理系统的节点上设置有算子,所述方法包括:针对分布式任务,获取所述算子对应的数据处理速率;根据所述算子对应的数据处理速率和/或其上游算子,确定所述算子的至少一个工作状态;响应于所述算子的任一维度的工作状态指示所述算子存在异常,进行相应的告警操作,实现异常算子的及时发现。实现异常算子的及时发现。实现异常算子的及时发现。

【技术实现步骤摘要】
分布式处理系统的监控方法及装置


[0001]本说明书涉及分布式
,尤其涉及分布式处理系统的监控方法及装置。

技术介绍

[0002]随着大数据技术在各行各业得到普及,数据产生的价值对客户越来越重要,在一些领域大批量离线计算的小时、天级延时对业务的时效性支持不够,客户越来越关注数据的实时性。实时计算分布式技术经过几代的演进,从storm、spark streaming到Flink,低延时、高吞吐量、强一致性等方面都得到了成熟的发展。
[0003]目前,实时计算分布式技术的普及给客户数据分析带来时效性的同时,由于Flink平台中的算子经常会出现异常,也给平台的数据运维造成了新的压力。Flink内部提供一些运维监控指标去辅助确定故障算子,但往往发现问题具有一定的延迟性,从而导致无法及时地发现异常算子。

技术实现思路

[0004]为克服相关技术中存在的问题,本说明书提供了分布式处理系统的监控方法及装置。
[0005]根据本说明书实施例的第一方面,提供一种分布式处理系统的监控方法,所述分布式处理系统包括存在上下游关系的算子;
[0006]所述方法包括:
[0007]针对分布式任务,获取所述算子对应的数据处理速率;
[0008]根据所述算子和/或其上游算子对应的数据处理速率,确定所述算子的至少一个工作状态;
[0009]响应于所述算子的任意工作状态指示所述算子存在异常,进行相应的告警操作。
[0010]可选的,所述算子对应于至少一个算子实例,每个算子实例存在对应的数据处理速率;
[0011]所述根据所述算子和/或和/或其上游算子对应的数据处理速率,确定所述算子的至少一个工作状态,包括:
[0012]根据第一算子和/或第二算子对应的各个算子实例所分别对应的数据处理速率之间的误差值确定所述第一算子的至少一个工作状态;其中,所述第一算子为所述算子中的任一算子;所述第二算子为所述第一算子的上游算子。
[0013]可选的,所述数据处理速率包括第一数据生产速率;其中,所述第一数据生产速率表示算子生产数据的速率;所述第一算子的工作状态包括第一工作状态;
[0014]其中,所述第一算子的第一工作状态指示所述第一算子对应的上游算子生产的数据分配是否均匀;
[0015]所述根据第一算子和/或第二算子对应的各个算子实例所分别对应的数据处理速率之间的误差值确定所述第一算子的至少一个工作状态,包括:
[0016]计算所述第二算子对应的各个算子实例所分别对应的第一数据生产速率中的任意两个第一数据生产速率之间的第一误差值;
[0017]根据所述第一误差值,确定所述第一算子的第一工作状态。
[0018]可选的,所述根据所述第一误差值,确定所述第一算子的第一工作状态,包括:
[0019]在存在第一误差值达到第一预设值的情况下,确定所述第一算子的第一工作状态指示所述第一算子对应的上游算子生产的数据分配不均匀;
[0020]在所有第一误差值均未达到第一预设值的情况下,确定所述第一算子的第一工作状态指示所述第一算子对应的上游算子生产的数据分配均匀。
[0021]可选的,所述在存在第一误差值达到第一预设值的情况下,确定所述第一算子的第一工作状态指示所述第一算子对应的上游算子生产的数据分配不均匀,包括:
[0022]获取所述第二算子对应的出端缓冲区所对应的扩容速率;其中,所述出端缓冲区用于存放所述第二算子生产的数据;
[0023]在存在第一误差值达到第一预设值,且所述扩容速率达到第一预设速率的情况下,确定所述第一算子的第一工作状态指示所述第一算子对应的上游算子生产的数据分配不均匀。
[0024]可选的,所述响应于所述算子的任意工作状态指示所述算子存在异常,进行相应的告警操作,包括:
[0025]在所述第一算子的第一工作状态指示所述第一算子对应的上游算子生产的数据分配不均匀的情况下,输出第一告警信息;其中所述第一告警信息用于提示增加下游算子并发度的数量。
[0026]可选的,所述响应于所述算子的任意工作状态指示所述算子存在异常,进行相应的告警操作,包括:
[0027]在所述第一算子的第一工作状态指示所述第一算子对应的上游算子生产的数据分配不均匀的情况下,基于所述分布式任务对应的执行流程,确定处于所述第一算子上方的各个第三算子;
[0028]获取各个第三算子分别对应的第一工作状态;
[0029]在所述各个第三算子分别对应的第一工作状态均指示上游算子生产的数据分配不均匀的情况下,确定所述分布式任务对应的源算子所对应的除第一下游算子以外的其它下游算子;其中,所述第一下游算子为所述源算子的下游算子,且为所述第三算子;
[0030]根据其它下游算子对应的数据消费速率,进行告警操作。
[0031]可选的,上游算子与下游算子之间通过通道连接;
[0032]所述根据其它下游算子对应的数据消费速率,进行告警操作,包括:
[0033]确定所述其它下游算子对应的数据消费速率与所述源算子对应的第一数据生产速率之间的第二误差值;
[0034]在所述第二误差值达到第二预设值的情况下,输出第二告警信息;其中,所述第二告警信息用于提示源端数据过多,增加下游算子并发度的数量。
[0035]可选的,上游算子与下游算子之间通过通道连接;在所述各个第三算子分别对应的第一工作状态均指示上游算子生产的数据分配不均匀的情况下,所述方法还包括:
[0036]确定所述其它下游算子对应的数据消费速率与所述源算子对应的第一数据生产
速率之间的第二误差值;
[0037]在所述第二误差值未达到第三预设值的情况下,进行第一通道重分配操作;其中,所述第一通道重分配操作指示控制所述其它下游算子消费所述第一下游算子对应的入端缓冲区中的数据;所述入端缓冲区中的数据为所述源算子生产的数据。
[0038]可选的,在所述各个第三算子分别对应的第一工作状态均指示上游算子生产的数据分配不均匀的情况下,所述方法还包括:
[0039]获取所述其它下游算子对应的数据消费速率和所述第一下游算子对应的数据消费速率中的最小值;
[0040]根据所述最小值,生成限速指令,并将所述限速指令发送至所述源算子,以使所述源算子基于所述最小值,调整所述源算子对应的第一数据生产速率。
[0041]可选的,在获取各个第三算子分别对应的第一工作状态之后,所述方法还包括:
[0042]在所有第三算子的第一工作状态均指示上游算子生产的数据分配均匀的情况下,进行第二通道重分配操作;其中,所述第二通道重分配操作指示正常算子实例消费异常算子实例对应的入端缓冲区中的数据;所述正常算子实例为所述第一算子对应的算子实例中的第一工作状态指示上游算子生产数据分配均匀的算子实例,异常算子实例为所述第一算子对应的算子实例中的第一工作状态指示上游算子生产数据分配不均匀的算子实例。
[0043]可本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种分布式处理系统的监控方法,其特征在于,所述分布式处理系统包括存在上下游关系的算子;所述方法包括:针对分布式任务,获取所述算子对应的数据处理速率;根据所述算子和/或其上游算子对应的数据处理速率,确定所述算子的至少一个工作状态;响应于所述算子的任意工作状态指示所述算子存在异常,进行相应的告警操作。2.根据权利要求1所述的方法,其特征在于,所述算子对应于至少一个算子实例,每个算子实例存在对应的数据处理速率;所述根据所述算子和/或和/或其上游算子对应的数据处理速率,确定所述算子的至少一个工作状态,包括:根据第一算子和/或第二算子对应的各个算子实例所分别对应的数据处理速率之间的误差值确定所述第一算子的至少一个工作状态;其中,所述第一算子为所述算子中的任一算子;所述第二算子为所述第一算子的上游算子。3.根据权利要求2所述的方法,其特征在于,所述数据处理速率包括第一数据生产速率;其中,所述第一数据生产速率表示算子生产数据的速率;所述第一算子的工作状态包括第一工作状态;其中,所述第一算子的第一工作状态指示所述第一算子对应的上游算子生产的数据分配是否均匀;所述根据第一算子和/或第二算子对应的各个算子实例所分别对应的数据处理速率之间的误差值确定所述第一算子的至少一个工作状态,包括:计算所述第二算子对应的各个算子实例所分别对应的第一数据生产速率中的任意两个第一数据生产速率之间的第一误差值;根据所述第一误差值,确定所述第一算子的第一工作状态。4.根据权利要求3所述的方法,其特征在于,所述根据所述第一误差值,确定所述第一算子的第一工作状态,包括:在存在第一误差值达到第一预设值的情况下,确定所述第一算子的第一工作状态指示所述第一算子对应的上游算子生产的数据分配不均匀;在所有第一误差值均未达到第一预设值的情况下,确定所述第一算子的第一工作状态指示所述第一算子对应的上游算子生产的数据分配均匀。5.根据权利要求4所述的方法,其特征在于,所述在存在第一误差值达到第一预设值的情况下,确定所述第一算子的第一工作状态指示所述第一算子对应的上游算子生产的数据分配不均匀,包括:获取所述第二算子对应的出端缓冲区所对应的扩容速率;其中,所述出端缓冲区用于存放所述第二算子生产的数据;在存在第一误差值达到第一预设值,且所述扩容速率达到第一预设速率的情况下,确定所述第一算子的第一工作状态指示所述第一算子对应的上游算子生产的数据分配不均匀。6.根据权利要求3所述的方法,其特征在于,所述响应于所述算子的任意工作状态指示
所述算子存在异常,进行相应的告警操作,包括:在所述第一算子的第一工作状态指示所述第一算子对应的上游算子生产的数据分配不均匀的情况下,输出第一告警信息;其中所述第一告警信息用于提示增加下游算子并发度的数量。7.根据权利要求3所述的方法,其特征在于,所述响应于所述算子的任意工作状态指示所述算子存在异常,进行相应的告警操作,包括:在所述第一算子的第一工作状态指示所述第一算子对应的上游算子生产的数据分配不均匀的情况下,基于所述分布式任务对应的执行流程,确定处于所述第一算子上方的各个第三算子;获取各个第三算子分别对应的第一工作状态;在所述各个第三算子分别对应的第一工作状态均指示上游算子生产的数据分配不均匀的情况下,确定所述分布式任务对应的源算子所对应的除第一下游算子以外的其它下游算子;其中,所述第一下游算子为所述源算子的下游算子,且为所述第三算子;根据其它下游算子对应的数据消费速率,进行告警操作。8.根据权利要求7所述的方法,其特征在于,上游算子与下游算子之间通过通道连接;所述根据其它下游算子对应的数据消费速率,进行告警操作,包括:确定所述其它下游算子对应的数据消费速率与所述源算子对应的第一数据生产速率之间的第二误差值;在所述第二误差值达到第二预设值的情况下,输出第二告警信息;其中,所述第二告警信息用于提示源端数据过多,增加下游算子并发度的数量。9.根据权利要求7所述的方法,其特征在于,上游算子与下游算子之间通过通道连接;在所述各个第三算子分别对应的第一工作状态均指示上游算子生产的数据分配不均匀的情况下,所述方法还包括:确定所述其它下游算子对应的数据消费速率与所述源算子对应的第一数据生产速率之间的第二误差值;在所述第二误差值未达到第三预设值的情况下,进行第一通道重分配操作;其中,所述第一通道重分配操作指示控制所述其它下游算子消费所述第一下游算子对应的入端缓冲区中的数据;所述入端缓冲区中的数据为所述源算子生产的数据。10.根据权利要求7所述的方法,其特征在于,在所述各个第三算子分别对应的第一工作状态...

【专利技术属性】
技术研发人员:张俊鹏
申请(专利权)人:杭州数梦工场科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1