【技术实现步骤摘要】
慢盘检测方法、装置、电子设备及存储介质
[0001]本申请涉及计算机
,尤其涉及一种慢盘检测方法、装置、电子设备及存储介质。
技术介绍
[0002]服务器是互联网数据中心的基础资源设备,硬盘作为服务器的存储硬件,承担着数据中心大量数据的存储,服务器上的上层应用在数据处理过程中,通常需要访问硬盘上的数据。上层应用访问硬盘数据的访问链路通常是:下发I/O(Input/Output,输入/输出)请求至内核进行处理,处理后的I/O请求被下发至硬盘,由硬盘进行响应。
[0003]其中,I/O请求响应性能直接影响上层应用的数据处理性能,实际应用中,若出现I/O请求响应慢的情况,通常会将原因定位为硬盘的盘体出现故障,并将盘体故障的硬盘进行故障隔离(是指禁用硬盘),减少对上层应用的数据处理性能的影响。然而,导致I/O请求响应慢的因素可能存在多种,直接将导致I/O请求响应慢的原因定位为硬盘的盘体出现故障,很容易将性能良好的硬盘误判为盘体故障的硬盘进行故障隔离,同样会影响上层应用的数据处理性能。因此,如何准确快速找出慢盘的原因,成 ...
【技术保护点】
【技术特征摘要】
1.一种慢盘检测方法,其特征在于,包括:获取访问目标硬盘的第一输入/输出I/O请求对应的第一响应时长,所述第一I/O请求来自于所述目标硬盘所在电子设备上的上层应用;若所述第一响应时长超过第一时长阈值,则根据所述第一响应时长超过所述第一时长阈值的持续时间,识别所述目标硬盘所属的慢盘类别;根据所述目标硬盘所属的慢盘类别,分析所述目标硬盘对应的慢盘原因;根据所述目标硬盘对应的慢盘原因,控制所述目标硬盘的使用状态。2.根据权利要求1所述的方法,其特征在于,根据所述第一响应时长超过所述第一时长阈值的持续时间,识别所述目标硬盘所属的慢盘类别包括:若所述第一响应时长超过所述第一时长阈值的持续时间大于第二时长阈值,则将所述目标硬盘的慢盘类别识别为第一类慢盘;若所述第一响应时长超过所述第一时长阈值的持续时间小于或等于所述第二时长阈值,则将所述目标硬盘的慢盘类别识别为第二类慢盘。3.根据权利要求2所述的方法,其特征在于,根据所述目标硬盘所属的慢盘类别,分析所述目标硬盘对应的慢盘原因,包括:若所述目标硬盘的慢盘类别识别为第一类慢盘,则获取所述第一I/O请求的链路跟踪数据,所述链路跟踪数据中包括所述第一I/O请求在所述电子设备的内核层消耗的时间;若所述第一I/O请求在所述内核层消耗的时间大于第三时长阈值,则确定所述目标硬盘对应的慢盘原因来自于所述电子设备的内核层异常;若所述第一I/O请求在所述内核层消耗的时间小于或等于所述第三时长阈值,则对所述目标硬盘进行故障检测,以确定所述目标硬盘对应的慢盘原因来自于所述目标硬盘的盘体故障。4.根据权利要求3所述的方法,其特征在于,在对所述目标硬盘进行故障检测之前,还包括:根据多个第二I/O请求各自对应的第二响应时长,确定所述目标硬盘对应的慢盘原因是否来自于所述目标硬盘异常,所述第二I/O请求是所述第一I/O请求后续的I/O请求;若所述目标硬盘对应的慢盘原因来自于所述目标硬盘异常,则执行对所述目标硬盘进行故障检测的操作。5.根据权利要求4所述的方法,其特征在于,根据多个第二I/O请求各自对应的第二响应时长,确定所述目标硬盘对应的慢盘原因是否来自于所述目标硬盘异常之前,还包括:从所述链路跟踪数据中获取所述第一I/O请求在非内核层消耗的时间,所述非内核层包括所述电子设备的驱动层和硬件层;若所述第一I/O请求在所述非内核层消耗的时间大于第四时长阈值,则确定所述目标硬盘对应的慢盘原因来自于所述电子设备的硬件层异常,所述硬件层包括所述目标硬盘。6.根据权利要求4所述的方法,其特征在于,根据多个第二I/O请求各自对应的第二响应时长,确定所述目标硬盘对应的慢盘原因是否来自于所述目标硬盘异常,包括:生成所述多个第二I/O请求对应的多个第二响应时长的分布信息和所述多个第二I/O请求对应的多个第三响应时长的分布信息,所述第二响应时长是指所述第二I/O请求自被所述上层应用下发到被所述目标硬盘进行响应的时长,所述第三响应时长是指所述目标硬
盘自接收到所述第二I/O请求并对所述第二I/O请求进行响应的时长;若所述多个第二响应时长的分布信息与所述多个第三响应时长的分布信息一致,则确定所述目标硬盘对应的慢盘原因来自于所述目标硬盘异常。7.根据权利要求3所述的方法,其特征在于,...
【专利技术属性】
技术研发人员:朱宗鹏,黎安宇,文芳志,
申请(专利权)人:阿里巴巴中国有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。