一种OSD故障处理方法及装置制造方法及图纸

技术编号:27934777 阅读:22 留言:0更新日期:2021-04-02 14:14
本申请涉及数据存储技术领域,特别涉及一种OSD故障处理方法及装置。该方法包括:在检测到目标OSD故障时,将所述目标OSD设置为下线状态;确定所述目标OSD故障类型,并基于所述目标OSD的故障类型,确定所述目标OSD的目标隔离模式;若所述目标隔离模式为第一隔离模式,则在将所述目标OSD设置为上线状态之前,对所述目标OSD故障进行故障是否解除的检测,在通过检测确定故障解除时,将所述目标OSD设置为上线状态。

【技术实现步骤摘要】
一种OSD故障处理方法及装置
本申请涉及数据存储
,特别涉及一种OSD故障处理方法及装置。
技术介绍
OSD是ceph集群的基本存储单元,每个OSD皆可提供完整和具有强一致性语义的本地对象存储服务。OSD震荡是指OSD在故障场景下,状态在up与down之间频繁切换。OSD只有在up状态下,才能承担客户端下发的IO。如果OSD状态长期在up与down之间反复切换将会导致PG状态不健康,从而导致业务归零。通过分析大量现网以及实验室问题,上述故障场景主要包括但不限于以下几种:软件断言、OSD间心跳报down等。其中OSD心跳报down往往是由于网络异常导致OSD间心跳不通。由此可见,如何避免ceph集群OSD震荡是保证用户业务连续性的关键。目前,当检测到OSD故障时,OSD进程将直接退出,即OSD会被设置为down状态,后续会基于预设规则将OSD拉起,即将OSD设置为up状态,如果此时故障未解除,就会出现OSD进程频繁退出和拉起的操作,从而导致OSD震荡,进而造成用户业务的中断专利技术内容本申请提本文档来自技高网...

【技术保护点】
1.一种OSD故障处理方法,其特征在于,所述方法包括:/n在检测到目标OSD故障时,将所述目标OSD设置为下线状态;/n确定所述目标OSD故障类型,并基于所述目标OSD的故障类型,确定所述目标OSD的目标隔离模式;/n若所述目标隔离模式为第一隔离模式,则在将所述目标OSD设置为上线状态之前,对所述目标OSD故障进行故障是否解除的检测,在通过检测确定故障解除时,将所述目标OSD设置为上线状态。/n

【技术特征摘要】
1.一种OSD故障处理方法,其特征在于,所述方法包括:
在检测到目标OSD故障时,将所述目标OSD设置为下线状态;
确定所述目标OSD故障类型,并基于所述目标OSD的故障类型,确定所述目标OSD的目标隔离模式;
若所述目标隔离模式为第一隔离模式,则在将所述目标OSD设置为上线状态之前,对所述目标OSD故障进行故障是否解除的检测,在通过检测确定故障解除时,将所述目标OSD设置为上线状态。


2.如权利要求1所述的方法,其特征在于,所述方法还包括:
若所述目标隔离模式为第二隔离模式,则在所述目标OSD被设置为下线状态后,基于预设规则将所述目标OSD设置为上线状态;
统计所述目标OSD在预设时长内被设置为下线状态的次数,若所述次数大于等于设定阈值,则采用第三隔离模式隔离所述目标OSD,其中,在所述第三隔离模式下,所述目标OSD被设置为下线状态,且不再基于所述预设规则将所述目标OSD设置为上线状态。


3.如权利要求2所述的方法,其特征在于,基于所述目标OSD的故障类型,确定所述目标OSD的目标隔离模式的步骤包括:
若由于检测到心跳连接断开而导致所述目标OSD故障,则确定所述目标OSD的目标隔离模式为第一隔离模式;
若由于检测到软件断言而导致所述目标OSD故障,则确定所述目标OSD的目标隔离模式为第二隔离模式。


4.如权利要求1-3任一项所述的方法,其特征在于,对所述目标OSD故障进行故障是否解除的检测,在通过检测确定故障解除时,将所述目标OSD设置为上线状态的步骤包括:
指示所述目标OSD基于预设频率向其他OSD发送若干心跳报文;
若确定所述目标OSD在发送一个心跳报文后的预设时长内均接收到该一个心跳报文对应的响应报文,则确定故障解除;
将所述目标OSD设置为上线状态。


5.如权利要求2或3所述的方法,其特征在于,所述方法还包括:
在所述第三隔离模式下,若接收到用户触发的将所述目标OSD设置为上线状态的指令,则将所述OSD设置为上线状态。


6.一种OSD故障处理装置,其特征在于,所述装置包括:
设置单元,用于在检测到目标OSD故障时...

【专利技术属性】
技术研发人员:闵顺新
申请(专利权)人:新华三大数据技术有限公司
类型:发明
国别省市:河南;41

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1