数据存储故障诊断方法及系统技术方案

技术编号:24205704 阅读:20 留言:0更新日期:2020-05-20 14:34
本申请提供的数据存储故障诊断方法及系统,涉及分布式存储技术领域。该方法包括:获取存储节点的I/O请求响应情况;将存储节点的I/O请求响应情况输入到预先创建的分布式存储节点运行状态模型中,基于各个存储节点的I/O请求响应情况及该存储节点所在的链路,计算得到各个存储节点在不同链路中I/O请求响应的函数关系;根据各个存储节点在不同链路中I/O请求响应的函数关系,得到存储节点的健康度,基于存储节点的健康度对存储节点发生I/O类故障的原因进行诊断;将存储节点发生I/O类故障的原因发给客户端。上述方法对大型分布式存储集群多存储节点进行自动健康度监测,并基于健康度对各个存储节点的存储故障进行诊断,以减少采用人工运维所需的劳动力。

Data storage fault diagnosis method and system

【技术实现步骤摘要】
数据存储故障诊断方法及系统
本申请涉及分布式存储
,具体而言,涉及一种数据存储故障诊断方法及系统。
技术介绍
在互联网、5G时代,大规模分布式存储系统以其海量存储能力、高吞吐量、高可用性和低成本的突出优势取代了集中式存储系统成为主流系统。由于分布式存储系统中存储节点数量庞大,经常会产生各种类型故障,从而导致节点失效情况频发。高可用性和高可靠性的容错手段是分布式存储的重要技术,目前常采用的容错手段包括多副本机制和MDS码传统容错技术等。在分布式存储系统中单个存储节点故障或者资源征用问题会引起存储故障问题,不同故障原因会引起存储读写失败,这些故障通常会以I/O类故障现象表现出来,就像I/O请求过程中在预期的时间范围内没有得到服务的响应,则被认定为已“失败”,而在这个过程中没有能及时区分和分析故障原因,而导致后续冗长的故障排查和分析并可能延长故障恢复期。
技术实现思路
本申请的实施例提供一种数据存储故障诊断方法及系统,用于解决上述技术缺陷。本申请实施例提供一种数据存储故障诊断方法,应用于数据存储故障诊断系统,所述数据存储故障诊断系统包括通信连接的分布式存储节点、元数据服务器、数据服务器及客户端,所述方法包括:所述元数据服务器获取所述存储节点的I/O请求响应情况,并在对I/O请求响应情况进行处理后,将处理后所述存储节点的I/O请求响应情况发送给所述数据服务器;所述数据服务器将所述存储节点的I/O请求响应情况输入到预先创建的分布式存储节点运行状态模型中,基于分布式存储节点中各个存储节点的I/O请求响应情况及该存储节点所在的链路,计算得到各个存储节点在不同链路中I/O请求响应的函数关系;所述数据服务器根据各个存储节点在不同链路中I/O请求响应的函数关系,得到在所述分布式存储节点中各个链路上存储节点的健康度,基于存储节点的健康度对存储节点发生I/O类故障的原因进行诊断;将所述存储节点发生I/O类故障的原因发给所述客户端,由所述客户端进行显示,以便用户了解分布式存储节点的存储故障情况。上述方法对大型分布式存储集群多存储节点进行自动化健康度监测,并基于健康度对各个存储节点的存储故障进行诊断,以减少采用人工运维所需的劳动力,同时在检测到I/O类故障后,对I/O类故障原因进行快速诊断,可以防止后续冗长的故障排查,并缩短故障恢复时间。可选地,在本申请的一种可选实施方式中,所述元数据服务器获取所述存储节点的I/O请求响应情况的步骤,包括:所述元数据服务器通过测试探针遍历不同类型I/O请求所需的存储节点,得到所述分布式存储节点中各个存储节点的I/O请求响应情况。可选地,在本申请的一种可选实施方式中,测试探针包括:创建并写入文件的测试探针、写入现有文件的测试探针或删除现有文件的测试探针。可选地,在本申请的一种可选实施方式中,所述I/O请求响应情况包括I/O类故障,导致所述I/O类故障的原因包括:存储节点失效;运行的存储节点中服务进程或线程的中断或失效;应用程序可见性失效;因分布式存储机制的冗余性往往遮盖应用程序本身的故障;或,由于高负载或资源征用导致的响应缓慢。可选地,在本申请的一种可选实施方式中,所述数据服务器将所述存储节点的I/O请求响应情况输入到预先创建的分布式存储节点运行状态模型中,基于分布式存储节点中各个存储节点的I/O请求响应情况及该存储节点所在的链路,计算得到各个存储节点在不同链路中I/O请求响应的函数关系的步骤,包括:根据所述存储节点的I/O请求响应情况,分析所述存储节点的运行状况,以表示I/O请求是否成功;基于不同类型测试探针的监测,确定所述存储节点与客户端之间的可用链路,基于负载均衡,模拟不同存储节点在对应可用链路上的二项式分布概率的函数关系。本申请实施例还提供一种数据存储故障诊断系统,所述数据存储故障诊断系统包括通信连接的分布式存储节点、元数据服务器、数据服务器及客户端;所述元数据服务器,用于获取所述存储节点的I/O请求响应情况,并在对I/O请求响应情况进行处理后,将处理后所述存储节点的I/O请求响应情况发送给所述数据服务器;所述数据服务器,用于将所述存储节点的I/O请求响应情况输入到预先创建的分布式存储节点运行状态模型中,基于分布式存储节点中各个存储节点的I/O请求响应情况及该存储节点所在的链路,计算得到各个存储节点在不同链路中I/O请求响应的函数关系;所述数据服务器,用于根据各个存储节点在不同链路中I/O请求响应的函数关系,得到在所述分布式存储节点中各个链路上存储节点的健康度,基于存储节点的健康度对存储节点发生I/O类故障的原因进行诊断;将所述存储节点发生I/O类故障的原因发给所述客户端,由所述客户端进行显示,以便用户了解分布式存储节点的存储故障情况。可选地,在本申请的一种可选实施方式中,所述元数据服务器,用于通过测试探针遍历不同类型I/O请求所需的存储节点,得到所述分布式存储节点中各个存储节点的I/O请求响应情况。可选地,在本申请的一种可选实施方式中,测试探针包括:创建并写入文件的测试探针、写入现有文件的测试探针或删除现有文件的测试探针。可选地,在本申请的一种可选实施方式中,所述I/O请求响应情况包括I/O类故障,导致所述I/O类故障的原因包括:存储节点失效;运行的存储节点中服务进程或线程的中断或失效;应用程序可见性失效;因分布式存储机制的冗余性往往遮盖应用程序本身的故障;或,由于高负载或资源征用导致的响应缓慢。可选地,在本申请的一种可选实施方式中,所述数据服务器具体用于:根据所述存储节点的I/O请求响应情况,分析所述存储节点的运行状况,以表示I/O请求是否成功;基于不同类型测试探针的监测,确定所述存储节点与客户端之间的可用链路,基于负载均衡,模拟不同存储节点在对应可用链路上的二项式分布概率的函数关系。本申请实施例提供的数据存储故障诊断方法及系统,该方法包括:元数据服务器获取存储节点的I/O请求响应情况;数据服务器将存储节点的I/O请求响应情况输入到预先创建的分布式存储节点运行状态模型中,基于分布式存储节点中各个存储节点的I/O请求响应情况及该存储节点所在的链路,计算得到各个存储节点在不同链路中I/O请求响应的函数关系;数据服务器根据各个存储节点在不同链路中I/O请求响应的函数关系,得到存储节点的健康度,基于存储节点的健康度对存储节点发生I/O类故障的原因进行诊断;将存储节点发生I/O类故障的原因发给客户端。上述方法对大型分布式存储集群多存储节点进行自动化健康度监测,并基于健康度对各个存储节点的存储故障进行诊断,以减少采用人工运维所需的劳动力,同时在检测到I/O类故障后,对I/O类故障原因进行快速诊断,可以防止后续冗长的故障排查,并缩短故障恢复时间。附图说明为了更清楚地说明本申请实施例的技术方案,下面将本文档来自技高网...

【技术保护点】
1.一种数据存储故障诊断方法,其特征在于,应用于数据存储故障诊断系统,所述数据存储故障诊断系统包括通信连接的分布式存储节点、元数据服务器、数据服务器及客户端,所述方法包括:/n所述元数据服务器获取所述存储节点的I/O请求响应情况,并在对I/O请求响应情况进行处理后,将处理后所述存储节点的I/O请求响应情况发送给所述数据服务器;/n所述数据服务器将所述存储节点的I/O请求响应情况输入到预先创建的分布式存储节点运行状态模型中,基于分布式存储节点中各个存储节点的I/O请求响应情况及该存储节点所在的链路,计算得到各个存储节点在不同链路中I/O请求响应的函数关系;/n所述数据服务器根据各个存储节点在不同链路中I/O请求响应的函数关系,得到在所述分布式存储节点中各个链路上存储节点的健康度,基于存储节点的健康度对存储节点发生I/O类故障的原因进行诊断;/n将所述存储节点发生I/O类故障的原因发给所述客户端,由所述客户端进行显示,以便用户了解分布式存储节点的存储故障情况。/n

【技术特征摘要】
1.一种数据存储故障诊断方法,其特征在于,应用于数据存储故障诊断系统,所述数据存储故障诊断系统包括通信连接的分布式存储节点、元数据服务器、数据服务器及客户端,所述方法包括:
所述元数据服务器获取所述存储节点的I/O请求响应情况,并在对I/O请求响应情况进行处理后,将处理后所述存储节点的I/O请求响应情况发送给所述数据服务器;
所述数据服务器将所述存储节点的I/O请求响应情况输入到预先创建的分布式存储节点运行状态模型中,基于分布式存储节点中各个存储节点的I/O请求响应情况及该存储节点所在的链路,计算得到各个存储节点在不同链路中I/O请求响应的函数关系;
所述数据服务器根据各个存储节点在不同链路中I/O请求响应的函数关系,得到在所述分布式存储节点中各个链路上存储节点的健康度,基于存储节点的健康度对存储节点发生I/O类故障的原因进行诊断;
将所述存储节点发生I/O类故障的原因发给所述客户端,由所述客户端进行显示,以便用户了解分布式存储节点的存储故障情况。


2.如权利要求1所述的数据存储故障诊断方法,其特征在于,所述元数据服务器获取所述存储节点的I/O请求响应情况的步骤,包括:
所述元数据服务器通过测试探针遍历不同类型I/O请求所需的存储节点,得到所述分布式存储节点中各个存储节点的I/O请求响应情况。


3.如权利要求2所述的数据存储故障诊断方法,其特征在于,测试探针包括:
创建并写入文件的测试探针、写入现有文件的测试探针或删除现有文件的测试探针。


4.如权利要求3所述的数据存储故障诊断方法,其特征在于,所述I/O请求响应情况包括I/O类故障,导致所述I/O类故障的原因包括:
存储节点失效;
运行的存储节点中服务进程或线程的中断或失效;
应用程序可见性失效;
因分布式存储机制的冗余性往往遮盖应用程序本身的故障;或,
由于高负载或资源征用导致的响应缓慢。


5.如权利要求4所述的数据存储故障诊断方法,其特征在于,所述数据服务器将所述存储节点的I/O请求响应情况输入到预先创建的分布式存储节点运行状态模型中,基于分布式存储节点中各个存储节点的I/O请求响应情况及该存储节点所在的链路,计算得到各个存储节点在不同链路中I/O请求响应的函数关系的步骤,包括:
根据所述存储节点的I/O请求响应情况,分析所述存储节点的运行状况,以表示I/O请求是否成功;
基于...

【专利技术属性】
技术研发人员:胡振华孙永鹏
申请(专利权)人:国久大数据有限公司
类型:发明
国别省市:四川;51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1