模型训练方法、故障确定方法、电子设备和程序产品技术

技术编号:36609256 阅读:21 留言:0更新日期:2023-02-08 09:56
本公开的实施例涉及模型训练方法、故障确定方法、电子设备和计算机程序产品。该模型训练方法包括:获取在第一时间段内被采集的多个磁盘故障数据集;获取在第一时间段之后的预定时间点被采集的、指示至少一个故障扇区集合的故障信息的另一磁盘故障数据集;以及基于多个磁盘故障数据集和故障信息来训练故障确定模型,使得经训练的故障确定模型基于多个磁盘故障数据集所确定的、在预定时间点的预测故障信息与故障信息匹配的概率大于第一阈值概率。使用本公开的技术方案,可以基于与故障扇区相关联的磁盘故障数据集来预测磁盘所包括的扇区集合将出现的故障信息,从而可以使得磁盘的用户或者管理员可以预先得知磁盘的扇区集合将会出现的故障状况。会出现的故障状况。会出现的故障状况。

【技术实现步骤摘要】
模型训练方法、故障确定方法、电子设备和程序产品


[0001]本公开的实施例总体上涉及计算机技术,具体地涉及模型训练方法、故障确定方法、电子设备和计算机程序产品,可用于磁盘管理领域和数据保护领域。

技术介绍

[0002]已经提出了许多技术以用于防止由于磁盘故障导致的数据丢失。然而,这些技术通常以关注于整个磁盘故障上,而很少会关注细粒度级别的磁盘健康状况。同时,由于传统的磁盘故障确定技术关注于整个磁盘,因而导致在确定磁盘中存在故障时,也会针对整个磁盘进行统一处理。实际上,当磁盘出现故障时,这些故障经常只会存在于磁盘中的一部分扇区中。因此,传统的磁盘故障确定技术在精细度中存在不足,从而无法支持对磁盘进行细粒度的处理,并且难以满足磁盘的用户和管理员的使用需求。

技术实现思路

[0003]本公开的实施例提供了模型训练方法、故障确定方法、电子设备和计算机程序产品。
[0004]在本公开的第一方面中,提供了一种模型训练方法。该方法包括:获取与磁盘的至少一个故障扇区相关联的、在第一时间段内被采集的多个磁盘故障数据集;获取与至少一个故障扇区相关联的、在第一时间段之后的预定时间点被采集的另一磁盘故障数据集,另一磁盘故障数据集指示关于至少一个故障扇区所属于的至少一个故障扇区集合的故障信息;以及基于多个磁盘故障数据集和故障信息来训练故障确定模型,使得经训练的故障确定模型基于多个磁盘故障数据集所确定的、在预定时间点的预测故障信息与故障信息匹配的概率大于第一阈值概率。
[0005]在本公开的第二方面中,提供了一种故障确定方法。该方法包括:获取与磁盘的至少一个故障扇区相关联的、在第一时间段内被采集的多个磁盘故障数据集;以及基于根据本公开的第一方面而得到的经训练的故障确定模型和多个磁盘故障数据集,确定在第一时间段之后的预定时间点、关于至少一个故障扇区所属于的至少一个故障扇区集合的故障信息。
[0006]在本公开的第三方面中,提供了一种电子设备。该电子设备包括:至少一个处理单元;以及至少一个存储器,至少一个存储器被耦合到至少一个处理单元并且存储用于由至少一个处理单元执行的指令,指令当由至少一个处理单元执行时,使得设备执行动作,动作包括:获取与磁盘的至少一个故障扇区相关联的、在第一时间段内被采集的多个磁盘故障数据集;获取与至少一个故障扇区相关联的、在第一时间段之后的预定时间点被采集的另一磁盘故障数据集,另一磁盘故障数据集指示关于至少一个故障扇区所属于的至少一个故障扇区集合的故障信息;以及基于多个磁盘故障数据集和故障信息来训练故障确定模型,使得经训练的故障确定模型基于多个磁盘故障数据集所确定的、在预定时间点的预测故障信息与故障信息匹配的概率大于第一阈值概率。
[0007]在本公开的第四方面中,提供了一种电子设备。该电子设备包括:至少一个处理单元;以及至少一个存储器,至少一个存储器被耦合到至少一个处理单元并且存储用于由至少一个处理单元执行的指令,指令当由至少一个处理单元执行时,使得设备执行动作,动作包括:获取与磁盘的至少一个故障扇区相关联的、在第一时间段内被采集的多个磁盘故障数据集;以及基于根据本公开的第三方面而得到的经训练的故障确定模型和多个磁盘故障数据集,确定在第一时间段之后的预定时间点、关于至少一个故障扇区所属于的至少一个故障扇区集合的故障信息。
[0008]在本公开的第五方面中,提供了一种计算机程序产品。该计算机程序产品被有形地存储在非瞬态计算机可读介质上并且包括机器可执行指令,机器可执行指令在被执行使得机器执行根据本公开的第一方面所描述的方法的任意步骤。
[0009]在本公开的第六方面中,提供了一种计算机程序产品。该计算机程序产品被有形地存储在非瞬态计算机可读介质上并且包括机器可执行指令,机器可执行指令在被执行使得机器执行根据本公开的第二方面所描述的方法的任意步骤。
[0010]提供
技术实现思路
部分是为了以简化的形式来介绍对概念的选择,它们在下文的具体实施方式中将被进一步描述。
技术实现思路
部分无意标识本公开的实施例的关键特征或必要特征,也无意限制本公开的实施例的范围。
附图说明
[0011]通过结合附图对本公开的示例性实施例进行更详细的描述,本公开的上述以及其它目的、特征和优势将变得更加明显,其中,在本公开的示例性实施例中,相同的参考标号通常代表相同部件。
[0012]图1示出了根据本公开的实施例的设备和/或方法可以在其中被实施的模型训练环境100的示意图;
[0013]图2示出了根据本公开的实施例的模型训练方法200的流程图;
[0014]图3示出了根据本公开的实施例的模型训练方法300的流程图;
[0015]图4示出了根据本公开的实施例的故障确定方法400的流程图;以及
[0016]图5示出了可以用来实施本公开的实施例的示例设备500的示意性框图。
[0017]在各个附图中,相同或对应的标号表示相同或对应的部分。
具体实施方式
[0018]下面将参照附图更详细地描述本公开的优选实施例。虽然附图中显示了本公开的优选实施例,然而应该理解,可以按照各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了使本公开更加透彻和完整,并且能够将本公开的范围完整地传达给本领域的技术人员。
[0019]在本文中使用的术语“包括”及其变形表示开放性包括,例如,“包括但不限于”。除非特别申明,术语“或”表示“和/或”。术语“基于”表示“至少部分地基于”。术语“一个示例实施例”和“一个实施例”表示“至少一个实施例”。术语“另一实施例”表示“至少一个另外的实施例”。术语“第一”、“第二”等等可以指代不同的或相同的对象。下文还可能包括其他明确的和隐含的定义。
[0020]如以上在
技术介绍
中所描述的,传统的磁盘故障确定技术在精细度中存在不足,从而无法支持对磁盘进行细粒度的处理,并且难以满足磁盘的用户和管理员的使用需求。
[0021]为了至少部分地解决上述问题以及其他潜在问题中的一个或者多个问题,本公开的实施例提出了一种以细粒度来监测磁盘健康状况、进而针对磁盘进行故障确定的方法。总体而言,在本公开的实施例中,可以将包括大量扇区的一块磁盘划分成例如相同大小的扇区集合,这些扇区集合可以被称为存储块,并且可以被用做虚拟磁盘。此外,在本公开的实施例中,可以关注于磁盘中的扇区或者扇区集合的健康状况,而不是整个磁盘的健康状况。
[0022]磁盘中的扇区的扇区故障可以包括静默故障和输入输出访问故障。
[0023]磁盘的扇区的静默故障是指扇区在没有任何访问的空闲期间出现故障,这在磁盘的备份/归档场景中较为常见。然而,在不对扇区进行访问的情况下通常难以确定静默故障。当出现这种故障的扇区数目增加时,将严重影响整个系统存储的可靠性。例如,当某天对磁盘进行读取时,发现独立磁盘冗余阵列无法恢复的故障太多,就会导致数据链路故障。现有的解决方案是定期清理整个磁盘,但这可能会带来意想不到的额外中央处理单元或者输入输出成本。
[0本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种模型训练方法,包括:获取与磁盘的至少一个故障扇区相关联的、在第一时间段内被采集的多个磁盘故障数据集;获取与所述至少一个故障扇区相关联的、在所述第一时间段之后的预定时间点被采集的另一磁盘故障数据集,所述另一磁盘故障数据集指示关于所述至少一个故障扇区所属于的至少一个故障扇区集合的故障信息;以及基于所述多个磁盘故障数据集和所述故障信息来训练故障确定模型,使得经训练的所述故障确定模型基于所述多个磁盘故障数据集所确定的、在所述预定时间点的预测故障信息与所述故障信息匹配的概率大于第一阈值概率。2.根据权利要求1所述的方法,其中获取所述多个磁盘故障数据集包括:获取在所述第一时间段内的第一时间点采集的、关于所述至少一个故障扇区中的每个故障扇区的以下至少一项参数:后台介质扫描日志,日志计数,所述日志计数指示在所述后台介质扫描日志中、与所述故障扇区相关联的后台介质扫描日志的数目,所述故障扇区所属于的扇区集合的故障计数,以及与所述故障扇区所属于的扇区集合相邻的扇区集合的故障计数。3.根据权利要求2所述的方法,其中所述后台介质扫描日志包括以下至少一项:上电时间,指示在所述故障扇区出现故障时所述磁盘的总上电时间;所述故障扇区的标识;以及所述故障扇区的故障类型。4.根据权利要求3所述的方法,其中所述扇区故障类型包括:扇区介质故障;或者扇区恢复故障。5.根据权利要求1所述的方法,还包括:获取与所述至少一个故障扇区集合相关联的扇区集合故障类型;并且其中训练所述故障确定模型包括:训练所述故障确定模型,使得经训练的所述故障确定模型基于所述多个磁盘故障数据集所确定的预测扇区集合故障类型与所获取的所述扇区集合故障类型匹配的概率大于第二阈值概率。6.根据权利要求5所述的方法,还包括:如果基于所述多个磁盘故障数据集确定所述至少一个故障扇区集合中的故障扇区集合的数目大于第一阈值数目,则将所述预测扇区集合故障类型确定为第一扇区集合故障类型。7.根据权利要求5所述的方法,还包括:如果基于所述多个磁盘故障数据集确定所述至少一个故障扇区集合中的故障扇区集合的数目小于等于第一阈值数目,则将针对所述至少一个故障扇区集合中的、故障扇区的数目大于第二阈值数目的故障扇区集合的所述扇区集合故障类型确定为第二扇区集合故障类型。
8.一种故障确定方法,包括:获取与磁盘的至少一个故障扇区相关联的、在第一时间段内被采集的多个磁盘故障数据集;以及基于根据权利要求1至7中的任一权利要求而得到的经训练的故障确定模型和所述多个磁盘故障数据集,确定在所述第一时间段之后的预定时间点、关于所述至少一个故障扇区所属于的至少一个故障扇区集合的故障信息。9.根据权利要求8所述的方法,其中确定所述故障信息包括:确定所述故障信息和与所述至少一个故障扇区集合相关联的扇区集合故障类型。10.根据权利要求9所述的方法,其中确定所述扇区集合故障类型包括:如果确定所述至少一个故障扇区集合中的故障扇区集合的数目大于第一阈值数目,则将所述扇区集合故障类型确定为第一扇区集合故障类型。11.根据权利要求9所述的方法,其中确定所述扇区集合故障类型包括:如果确定所述至少一个故障扇区集合中的故障扇区集合的数目小于等于第一阈值数目,则将针对所述至少一个故障扇区集合中的、故障扇区的数目大于第二阈值数目的故障扇区集合的所述扇区集合故障类型确定为第二扇区集合故障类型。12.一种电子设备,包括:至少一个处理单元;以及至少一个存储器,所述至少一个存储器被耦合到所述至少一个处理单元并且存储用于由所述至少一个处理单元执行的指令,所述指令当由所述至少一个处理单元执行时,使得所述设备执行动作,所述动作包括:获取与磁盘的至少一个故障扇区相关联的、在第一时间段内被采集的多个磁盘故障数据集;获取与所述至少一个故障扇区相关联的、在所述第一时间段之后的预定时间点被采集的另一磁盘故障数据集,所述另一磁盘故障数据集指示关于所述至少一个故障扇区所...

【专利技术属性】
技术研发人员:翁凌冬刘冰陈涛
申请(专利权)人:伊姆西IP控股有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1