【技术实现步骤摘要】
一种故障磁盘检测与修复方法和装置
本专利技术涉及分布式存储领域,尤其涉及一种故障磁盘检测与修复方法和装置。
技术介绍
目前,大规模(超过2万块直连盘)分布式后端存储每天发生磁盘错误的磁盘基本超过10块。但故障磁盘无法及时和准确发现,严重影响线上服务。而且对于国内而言,中型的分布式存储磁盘故障基本处于人工处理的阶段,完全靠人工逐块修复,人力消耗大,修复周期长,导致线上一些数据长期处于缺少数据副本的状态;并且人工修复的方法判断磁盘故障状态及磁盘位置不准,增加了一些不必要的换盘成本;而且人工操作出错概率高,威胁线上服务。大型的分布式存储如百度云,基于定制的服务器,开发了一些基于自监察分析与报告技术SMART技术的底层磁盘工具,可以靠上层的分布式系统自动修复,但是对于不同机型、不同存储服务的全自动修复支持仍不太好。
技术实现思路
为了解决上述问题,本专利技术提出了一种故障磁盘检测与修复方法和装置,能够对磁盘故障实时监测,快速对故障磁盘进行定位和自动修复,提高了工作效率,并支持多种不同的服务器与存储业务,提高了兼容性。为了达到上述目的,本专利技术提出了一种故障磁盘检测与修复方法 ...
【技术保护点】
一种故障磁盘检测与修复方法,其特征在于,所述方法包括:根据系统日志解析出一个或多个故障磁盘设备名称;根据解析出的所述故障磁盘设备名称对每个故障磁盘进行定位与标识,并分别对每个故障磁盘进行故障检测;针对所述每个故障磁盘的故障检测结果对每个故障磁盘进行修复。
【技术特征摘要】
1.一种故障磁盘检测与修复方法,其特征在于,所述方法包括:根据系统日志解析出一个或多个故障磁盘设备名称;根据解析出的所述故障磁盘设备名称对每个故障磁盘进行定位与标识,并分别对每个故障磁盘进行故障检测;针对所述每个故障磁盘的故障检测结果对每个故障磁盘进行修复。2.如权利要求1所述的故障磁盘检测与修复方法,其特征在于,所述根据系统日志解析出一个或多个故障磁盘设备名称包括:通过每个磁盘设备上预先部署的代理AGENT对系统日志进行扫描;获取所述系统日志中记载的每个磁盘设备的信息;将所述每个磁盘设备的信息与预先配置的磁盘错误关键字列表中的磁盘错误关键字相比较;获取与所述磁盘错误关键字相匹配的一个或多个磁盘故障信息;对所述系统日志进行解析,获取与所述一个或多个磁盘故障信息分别对应的故障磁盘设备名称。3.如权利要求2所述的故障磁盘检测与修复方法,其特征在于,所述方法还包括:当磁盘发生故障时,故障磁盘所在的故障磁盘设备向预设的数据库服务器发送所述故障磁盘设备的状态与操作报告;所述预设的数据库服务器根据所述状态与操作报告生成所述磁盘故障信息;并将所述磁盘故障信息记录在所述系统日志中。4.如权利要求3所述的故障磁盘检测与修复方法,其特征在于,所述状态与操作报告中包括以下一种或多种:故障发生时间、所述故障磁盘设备名称、所述故障磁盘序列号SN和故障磁盘类型。5.如权利要求4所述的故障磁盘检测与修复方法,其特征在于,所述磁盘故障信息包括:与所述故障发生时间、所述故障磁盘设备名称、所述故障磁盘SN和所述故障磁盘类型中的一种或多种信息相关的磁盘故障描述。6.如权利要求3所述的故障磁盘检测与修复方法,其特征在于,所述对所述系统日志进行解析,获取与所述一个或多个磁盘故障信息分别对应的故障磁盘设备名称包括:对所述系统日志中包含的所述故障磁盘设备名称与所述磁盘故障信息的对应关系进行解析,根据解析出的所述对应关系获取与所述一个或多个磁盘故障信息分别对应的故障磁盘设备名称。7.如权利要求2所述的故障磁盘检测与修复方法,其特征在于,所述根据解析出的所述故障磁盘设备名称对每个故障磁盘进行定位与标识包括:通过第一预设工具获取所有磁盘设备信息,并通过第二预设工具查询所有磁盘设备中不同机框驱动下的磁盘信息列表;将获取的所述磁盘设备信息和所述磁盘信息列表与挂载点信息进行比对,获取与每个所述故障磁盘设备名称对应的每个磁盘所在的机框内槽位的信息;从每个磁盘所在的所述机框内槽位的信息中获取与所述故障磁盘SN对应的机框内槽位的信息;将获取的与所述故障磁盘SN对应的机框内槽位的信息作为所述故障磁盘的位置信息;在获取所述故障磁盘的位置信息后,通过点亮所述故障磁盘的磁盘灯对所述故障磁盘进行标识。8.如权利要求7所述的故障磁盘检测与修复方法,其特征在于,所述第一预设工具包括:小型计算机系统接口通用驱动SG驱动中的lsscsi工具。9.如权利要求8所述的故障磁盘检测与修复方法,其特征在于,所述第二预设工具包括:所述SG驱动中的sg_utils工具集。10.如权利要求7所述的故障磁盘检测与修复方法,其特征在于,所述方法还包括:将获取的每个磁盘所在的机框内槽位的信息转换为可展示的位置信息。11.如权利要求10所述的故障磁盘检测与修复方法,其特征在于,所述位置信息包括以下一种或多种:所述故障磁盘设备名称、面板号、排号和列号。12.如权利要求7所述的故障磁盘检测与修复方法,其特征在于,所述对所述每个故障磁盘进行故障检测包括:采用第三预设工具对所述每个故障磁盘进行状态检测,判断每个故障磁盘是否存在FALL状态;检测所述系统日志中记载的磁盘关键字中是否存在标识故障磁盘出现物理故障的关键字;以及,对每个故障磁盘进行读写速度测试。13.如权利要求12所述的故障磁盘检测与修复方法,其特征在于,所述第三预设工具包括:自监察分析与报告技术SMART工具。14.如权利要求12所述的故障磁盘检测与修复方法,其特征在于,所述针对所述每个故障磁盘的故障检测结果对每个故障磁盘进行修复包括:当检测出当前故障磁盘存在FALL状态,和/或检测出标识当前故障磁盘出现物理故障的关键字时,发出更换磁盘的提示信息;当检测出当前故障磁盘发生读写故障,并且未检测出当前故障磁盘存在FALL状态和标识当前故障磁盘出现物理故障的关键字时,判定当前故障磁盘处于GOOD状态,并对当前故障磁盘进行格式化。15.如权利要求1所述的故障磁盘检测与修复方法,其特征在于,所述方法还包括:在对每个故障磁盘进行定位与标识之后,在对所述每个故障磁盘进行故障检测之前,对所述每个故障磁盘所在的故障磁盘设备进行数据安全离线操作。16.如权利要求15所述的故障磁盘检测与修复方法,其特征在于,所述方法还包括:针对不同的分布式存储业务,通过所述磁盘设备的预留接口,对所述磁盘设备上的数据或数据副本进行所述数据安全离线操作以及重新上线操作;其中,所述预留接口提供所述不同的分布式存储业务的函数逻辑。17.一种故障磁盘检测与修复装置,其特征在于,所述装置包括:解析模块、定位模块、故障检测模块和修复模块;所述解析模块,用于根据系统日志解析出一个或多...
【专利技术属性】
技术研发人员:王世刚,
申请(专利权)人:北京金山云网络技术有限公司,北京金山云科技有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。