一种故障检测、数据处理方法、装置及设备制造方法及图纸

技术编号:24799198 阅读:14 留言:0更新日期:2020-07-07 20:59
本申请提供一种故障检测、数据处理方法、装置及设备,该方法包括:根据第一物理硬件的工单数据确定第一物理硬件的故障时刻;根据所述故障时刻确定第一物理硬件的回溯时间窗口;根据回溯时间窗口为第一物理硬件的数据样本设置标签值;根据所述数据样本和所述标签值确定待检测物理硬件是否发生故障。通过本申请的技术方案,缓解数据样本不均衡的问题,去除负样本中的噪音数据,可以预测未来一段时间窗口内,物理硬件是否发生故障。

【技术实现步骤摘要】
一种故障检测、数据处理方法、装置及设备
本申请涉及互联网
,尤其涉及一种故障检测、数据处理方法、装置及设备。
技术介绍
随着大规模数据中心和云计算的飞速发展,互联网厂商和云计算厂商通常可以维护百万级的服务器,并采用百万级甚至千万级的磁盘,对内或者对外提供PB(petabyte,存储单位)级以上的存储能力。在这种规模下,作为服务器的核心部件之一,磁盘的故障经常出现。据统计,磁盘故障一般占服务器的故障总量的50%左右,是引发服务器宕机、数据丢失等严重问题的主要原因之一。现有的运维方案,在磁盘发生故障后,可以根据工程师和技术专家的领域知识,对磁盘进行故障检测,以分析磁盘故障的原因,并解决磁盘故障等问题。但是,这种方式会对业务带来一定影响,甚至会导致服务器宕机和数据丢失。
技术实现思路
本申请提供一种故障检测方法,所述方法包括:根据第一物理硬件的工单数据确定所述第一物理硬件的故障时刻;根据所述故障时刻确定所述第一物理硬件的回溯时间窗口;根据所述回溯时间窗口为所述第一物理硬件的数据样本设置标签值;根据所述数据样本和所述标签值,确定待检测物理硬件是否发生故障。本申请提供一种故障检测方法,所述方法包括:若未存在物理硬件的工单数据,则确定所述物理硬件的观察时间窗口;根据所述观察时间窗口为所述物理硬件的数据样本设置标签值;根据所述数据样本和所述标签值,确定待检测物理硬件是否发生故障。本申请提供一种故障检测方法,所述方法包括:>若存在物理硬件的工单数据,则确定所述物理硬件的回溯时间窗口;根据所述回溯时间窗口为所述物理硬件的数据样本设置标签值;根据所述数据样本和所述标签值确定待检测物理硬件是否发生故障。本申请提供一种故障检测方法,所述方法包括:确定物理硬件的处理时间窗口;根据所述处理时间窗口为所述物理硬件的数据样本设置标签值;根据所述数据样本和所述标签值确定待检测物理硬件是否发生故障。本申请提供一种数据处理方法,所述方法包括:若存在物理硬件的工单数据,则确定所述物理硬件的回溯时间窗口;根据所述回溯时间窗口为所述物理硬件的数据样本设置标签值;其中,所述数据样本和所述标签值用于检测物理硬件是否发生故障。本申请提供一种数据处理方法,所述方法包括:若未存在物理硬件的工单数据,则确定所述物理硬件的观察时间窗口;根据所述观察时间窗口为所述物理硬件的数据样本设置标签值;其中,所述数据样本和所述标签值用于检测物理硬件是否发生故障。本申请提供一种故障检测装置,所述装置包括:确定模块,用于根据第一物理硬件的工单数据确定所述第一物理硬件的故障时刻;根据所述故障时刻确定所述第一物理硬件的回溯时间窗口;设置模块,用于根据所述回溯时间窗口为所述第一物理硬件的数据样本设置标签值;所述确定模块,还用于根据所述数据样本和所述标签值,确定待检测物理硬件是否发生故障。本申请提供一种故障检测装置,所述装置包括:确定模块,用于若未存在物理硬件的工单数据,则确定所述物理硬件的观察时间窗口;设置模块,用于根据观察时间窗口为所述物理硬件的数据样本设置标签值;所述确定模块,还用于根据所述数据样本和所述标签值,确定待检测物理硬件是否发生故障。本申请提供一种故障检测设备,包括:处理器和机器可读存储介质,所述机器可读存储介质上存储有若干计算机指令,所述处理器执行所述计算机指令时进行如下处理:根据第一物理硬件的工单数据确定所述第一物理硬件的故障时刻;根据所述故障时刻确定所述第一物理硬件的回溯时间窗口;根据所述回溯时间窗口为所述第一物理硬件的数据样本设置标签值;根据所述数据样本和所述标签值,确定待检测物理硬件是否发生故障。本申请提供一种故障检测设备,包括:处理器和机器可读存储介质,所述机器可读存储介质上存储有若干计算机指令,所述处理器执行所述计算机指令时进行如下处理:若未存在物理硬件的工单数据,则确定所述物理硬件的观察时间窗口;根据所述观察时间窗口为所述物理硬件的数据样本设置标签值;根据所述数据样本和所述标签值,确定待检测物理硬件是否发生故障。基于上述技术方案,本申请实施例中,可以预测未来一段时间窗口内,物理硬件是否发生故障,构建预测性维护体系,提前准确进行相应的扫描检测、数据备份、业务迁移等相关操作,减轻对业务的影响,减少服务器宕机和数据丢失等问题,提前进行防范和保护,提升数据中心集群的可靠性。可以增加正样本的数量,尽量均衡正样本的数量和负样本的数量,一定程度缓解了数据样本不均衡的问题。而且,可以去除负样本中的噪音数据,解决数据噪音问题。附图说明为了更加清楚地说明本申请实施例或者现有技术中的技术方案,下面将对本申请实施例或者现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请中记载的一些实施例,对于本领域普通技术人员来讲,还可以根据本申请实施例的这些附图获得其它的附图。图1是本申请一种实施方式中的故障检测方法的流程图;图2是本申请另一种实施方式中的故障检测方法的流程图;图3A是-图3E是本申请一种实施方式中的应用场景示意图;图4是本申请一种实施方式中的故障检测装置的结构图;图5是本申请另一种实施方式中的故障检测装置的结构图;图6是本申请另一种实施方式中的故障检测设备的硬件结构图。具体实施方式在本申请实施例使用的术语仅仅是出于描述特定实施例的目的,而非限制本申请。本申请和权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其它含义。还应当理解,本文中使用的术语“和/或”是指包含一个或多个相关联的列出项目的任何或所有可能组合。应当理解,尽管在本申请实施例可能采用术语第一、第二、第三等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本申请范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。取决于语境,此外,所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。本申请实施例提出一种故障检测方法,参见图1所示,为故障检测方法的流程示意图,该方法可以应用于故障检测设备(如服务器),该方法可以包括:步骤101,根据第一物理硬件的工单数据确定第一物理硬件的故障时刻。具体的,在第一物理硬件的工单数据中,可以包括第一物理硬件的故障时刻,因此,可以从该工单数据中获取第一物理硬件的故障时刻。步骤102,根据该故障时刻确定第一物理硬件的回溯时间窗口。具体的,可以根据第一物理硬件的故障时刻确定回溯时间窗口的截止时刻,例如,截止时刻可以为该故障时刻。然后,获取回溯时间窗口的时间长度,并根据回溯时间窗口的截止本文档来自技高网...

【技术保护点】
1.一种故障检测方法,其特征在于,所述方法包括:/n根据第一物理硬件的工单数据确定所述第一物理硬件的故障时刻;/n根据所述故障时刻确定所述第一物理硬件的回溯时间窗口;/n根据所述回溯时间窗口为所述第一物理硬件的数据样本设置标签值;/n根据所述数据样本和所述标签值,确定待检测物理硬件是否发生故障。/n

【技术特征摘要】
1.一种故障检测方法,其特征在于,所述方法包括:
根据第一物理硬件的工单数据确定所述第一物理硬件的故障时刻;
根据所述故障时刻确定所述第一物理硬件的回溯时间窗口;
根据所述回溯时间窗口为所述第一物理硬件的数据样本设置标签值;
根据所述数据样本和所述标签值,确定待检测物理硬件是否发生故障。


2.根据权利要求1所述的方法,其特征在于,
根据所述故障时刻确定所述第一物理硬件的回溯时间窗口,包括:
根据所述第一物理硬件的故障时刻确定所述回溯时间窗口的截止时刻;
获取所述回溯时间窗口的时间长度,根据所述回溯时间窗口的截止时刻与所述回溯时间窗口的时间长度,确定所述回溯时间窗口的起始时刻;
将所述起始时刻与所述截止时刻之间的时间区间确定为回溯时间窗口。


3.根据权利要求2所述的方法,其特征在于,
所述获取所述回溯时间窗口的时间长度,具体包括:
根据变化点检测算法获取回溯时间窗口的时间长度;或者,
从本地获取预先配置的回溯时间窗口的时间长度。


4.根据权利要求1所述的方法,其特征在于,
根据所述回溯时间窗口为所述第一物理硬件的数据样本设置标签值,包括:
若所述第一物理硬件的监控数据的产生时刻位于所述回溯时间窗口内,则为所述监控数据对应的数据样本设置第一标签值,所述第一标签值表示所述第一物理硬件发生故障;
若所述第一物理硬件的监控数据的产生时刻位于所述回溯时间窗口之前,则为所述监控数据对应的数据样本设置第二标签值,所述第二标签值表示所述第一物理硬件未发生故障。


5.根据权利要求1所述的方法,其特征在于,所述方法还包括:
若所述第一物理硬件的监控数据的产生时刻位于所述故障时刻之后,为所述监控数据对应的数据样本设置第一标签值,所述第一标签值表示所述第一物理硬件发生故障。


6.根据权利要求1所述的方法,其特征在于,所述根据所述数据样本和所述标签值,确定待检测物理硬件是否发生故障,包括:
根据所述数据样本和所述标签值,确定特征向量与标签值的映射关系;
根据所述映射关系确定待检测物理硬件是否发生故障。


7.根据权利要求1所述的方法,其特征在于,所述方法还包括:
若未存在第二物理硬件的工单数据,确定第二物理硬件的观察时间窗口;
根据所述观察时间窗口为所述第二物理硬件的数据样本设置标签值;
根据所述数据样本和所述标签值,确定待检测物理硬件是否发生故障。


8.根据权利要求7所述的方法,其特征在于,
所述确定第二物理硬件的观察时间窗口,包括:
根据当前时刻确定所述观察时间窗口的截止时刻;
获取所述观察时间窗口的时间长度,并根据所述观察时间窗口的截止时刻与所述观察时间窗口的时间长度,确定所述观察时间窗口的起始时刻;
将所述起始时刻与所述截止时刻之间的时间区间确定为观察时间窗口。


9.根据权利要求7所述的方法,其特征在于,
根据所述观察时间窗口为所述第二物理硬件的数据样本设置标签值,包括:
若所述第二物理硬件的监控数据的产生时刻位于所述观察时间窗口内,则禁止为所述监控数据对应的数据样本设置标签值,以使所述数据样本不参与到特征向量的训练过程;
若所述第二物理硬件的监控数据的产生时刻位于所述观察时间窗口之前,则为所述监控数据对应的数据样本设置第二标签值,所述第二标签值表示所述第二物理硬件未发生故障。


10.一种故障检测方法,其特征在于,所述方法包括:
若未存在物理硬件的工单数据,则确定所述物理硬件的观察时间窗口;
根据所述观察时间窗口为所述物理硬件的数据样本设置标签值;
根据所述数据样本和所述标签值,确定待检测物理硬件是否发生故障。


11.根据权利要求10所述的方法,其特征在于,
所述确定所述物理硬件的观察时间窗口,包括:
根据当前时刻确定所述观察时间窗口的截止时刻;
获取所述观察时间窗口的时间长度,并根据所述观察时间窗口的截止时刻与所述观察时间窗口的时间长度,确定所述观察时间窗口的起始时刻;
将所述起始时刻与所述截止时刻之间的时间区间确定为观察时间窗口。


12.根据权利要求10所述的方法,其特征在于,
根据所述观察时间窗口为所述物理硬件的数据样本设置标签值,包括:
若所述第二物理硬件的监控数据的产生时刻位于所述观察时间窗口内,则禁止为所述监控数据对应的数据样本设置标签值,以使所述数据样本不参与到特征向量的训...

【专利技术属性】
技术研发人员:黄涛吴珺黄子熹何诚韩淑捷羌毅
申请(专利权)人:阿里巴巴集团控股有限公司
类型:发明
国别省市:开曼群岛;KY

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1