【技术实现步骤摘要】
分布式消息服务节点CPU性能故障自恢复方法及装置
[0001]本公开涉及分布式
,具体涉及自动化运维
,更具体地涉及一种分布式消息服务节点CPU性能故障自恢复方法、装置、设备、存储介质和程序产品。
技术介绍
[0002]Kafka分布式消息服务在金融科技领域及大数据领域应用极为广泛,很多业务应用依托于Kafka进行削峰填谷、日志监控、异步解耦等场景。在实际运行中对于Kafka分布式消息服务节点的性能要求非常严苛,但由于海量数据的流动性现状及业务场景的复杂多样性,经常会出现节点CPU性能异常的情况,而一旦CPU性能出现异常,则存在会影响Kafka集群对外服务能力的风险,严重时会导致集群服务下宕,无法进行消息传输。
[0003]目前在出现CPU性能异常故障时,首先通过人工收集所需报表进行分析,再推测可能的故障原因,再去通过推测的故障原因尝试修复故障的方式来应对该问题。
[0004]对于当前人工处理Kafka分布式消息服务节点的CPU性能异常故障问题的方案,在实际生产运行中,存在几个缺点:一是效率低,人 ...
【技术保护点】
【技术特征摘要】
1.一种分布式消息服务节点CPU性能故障自恢复方法,其特征在于,所述方法包括:响应于服务节点CPU性能故障检测器的故障报警操作,获取故障报警信息,其中,所述故障报警信息包括故障节点IP;根据所述故障节点IP收集故障节点的系统性能数据报表;对所述系统性能数据报表进行分析,以确定所述故障节点的故障类型;以及根据所述故障类型执行对应的恢复策略以恢复所述故障节点。2.根据权利要求1所述的方法,其特征在于,所述系统性能数据报表包括操作系统性能指标文件、内存使用情况文件和活跃进程日志文件,所述对所述系统性能数据报表进行分析,以确定所述故障节点的故障类型包括:若确定所述操作系统性能指标文件中的连接数大于第一预设阈值,则确定所述故障类型为第一系统性能故障;若确定所述操作系统性能指标文件中的网络流量大于第二预设阈值,则确定所述故障类型为第二系统性能故障;若确定所述操作系统性能指标文件中的操作系统句柄数大于第三预设阈值,则确定所述故障类型为第三系统性能故障;若确定内存使用情况文件的内存使用率大于第四预设阈值,则确定所述故障类型为第四系统性能故障;以及若确定所述活跃进程日志文件中当前CPU使用率前三的进程存在报错信息,则确定所述故障类型为第五系统性能故障。3.根据权利要求2所述的方法,其特征在于,所述根据所述故障类型执行对应的恢复策略以恢复所述故障节点包括:若确定所述故障类型为第一系统性能故障,启动连接请求限流开关,将请求的连接数限流至第一指定阈值;若确定所述故障类型为第二系统性能故障,启动网络限流开关,将网络流量限流在第二指定阈值;若确定所述故障类型为第三系统性能故障,启动句柄优化限流开关,将目前允许的单个进行句柄数上限降至第三指定阈值;若确定所述故障类型为第四系统性能故障,对所述故障节点进行扩内存操作;以及若确定所述故障类型为第五系统性能故障,启动进程管理器对异常进程进行隔离。4.根据权利要求1至3中任一项所述的方法,其特征在于,所述故障报警信息还包括故障节点所属集群标识信息,所述方法还包括:若确定所述故障节点的故障类型为非系统性能故障,则启动服务端节点故障分析器以确定服务端节点故障类型;根据所述服务端节点故障类型执行对应的恢复策略以恢复所述故障节点。5.根据权利要求4所述的方法,其特征在于,所述启动服务端节点故障分析器以确定服务端节点故障类型包括:获取故障节点所属集群的节点数、所有节点的消息副本文件个数、故障节点所属集群主题分区数和消息流入流出监控文件;若确定所述故障节点的消息副本文件个数大于其他节点的消息副本文件个数,则确定
所述服务端节点故障类型为第一服务端节点故障;若确定故障节点上的消息流入流出量异常,则确定所述服务端节点故障类型为第二服务端节点故障;以及若确定分区设置异常,则确定所述服务端节点故障类型为第三服务端节点故障。6.根据权利要求5所述的方法,其特征在于,所述根据所述服务端节点故障类型执行对应的恢复策略以恢复所述故障节点包括:若确定所述服务端节点故障类型为第一服务端节点故障,启动集群内节点自动负载均衡开关,将故障节点上的指定个数副本迁移至集群内其他空闲节点;若确定所述服务端节点故障类型为第二服务端节点故障,启动消息流量限流开关,将消息流量降至预设时间内消息流量平均值;以及若确定所述服务端节点故障类型为第三服务端节点故障,对异常分区进行动态扩容操作直至满足分区设置要求。7.根据权利要求6所述的方法,其特征在于,所述报警信息还包括集群归属应用和应用信息,所述方法还包括:若确定所述故障节点的故障类型为非服务端节点故障,则启动生产者故障分析器以确定生产者运行故障类型;根据所述生产者运行故障类型执行对应的恢复策略以恢复所述故障节点。8.根据权利要求7所述的方法,其特征在于,所述启动生产者故障分析器以确定生产者运行故障类型包括;收集生产者客户端上送到服务端的第一客户端信息,所述第一客户端信息包括生产者对象新建次数、生产者配置参数值和生产者客户端日志;若确定所述...
【专利技术属性】
技术研发人员:孟江,巫春梅,钟小威,冯子杰,
申请(专利权)人:中国工商银行股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。