一种故障检测方法、装置及设备制造方法及图纸

技术编号:27877007 阅读:23 留言:0更新日期:2021-03-31 00:56
本申请提供一种故障检测方法、装置及设备,该方法包括:获取服务器的样本日志;根据所述样本日志获取样本日志特征;根据所述样本日志特征训练目标特征模型;其中,所述目标特征模型包括样本日志特征与故障信息的映射关系;所述目标特征模型用于根据所述映射关系检测服务器在未来一段时间内发生故障的概率。通过本申请的技术方案,能够提前一段时间(如几小时等)预测出服务器故障的概率,在服务器发生故障之前就进行故障恢复。

【技术实现步骤摘要】
一种故障检测方法、装置及设备
本申请涉及通信
,尤其是一种故障检测方法、装置及设备。
技术介绍
数据中心通常会部署大量服务器,这些服务器对外提供服务。一旦服务器发生故障(如宕机故障等),则该服务器无法对外提供服务,导致用户无法正常访问服务器,对数据中心的稳定性和服务的可靠性造成极大影响。为了检测服务器是否发生故障,可以周期性的向服务器发送检测报文,若在预设时间内未接收到服务器针对该检测报文返回的响应报文,则认为服务器发生故障,并进行服务器的故障恢复。例如,在服务器1发生故障时,启动另一个服务器代替服务器1对外提供服务,尽量保证用户业务不中断。但是,基于上述方式,在服务器发生故障之后才能够获知服务器发生故障,即服务器发生故障之后才进行故障恢复,服务器故障造成的损失已经产生。
技术实现思路
本申请提供一种故障检测方法,所述方法包括:获取服务器的样本日志;根据所述样本日志获取样本日志特征;根据所述样本日志特征训练目标特征模型;其中,所述目标特征模型包括样本日志特征与故障信息的映射关系;所述目标特征模型用于根据所述映射关系检测服务器在未来一段时间内发生故障的概率。本申请提供一种故障检测方法,所述方法包括:针对待检测的服务器,获取所述服务器的待检测日志;根据所述待检测日志获取所述服务器的待检测日志特征;根据目标特征模型确定与所述待检测日志特征对应的故障信息;根据所述故障信息检测所述服务器在未来一段时间内发生故障的概率;r>其中,所述目标特征模型包括样本日志特征与故障信息的映射关系。本申请提供一种故障检测方法,所述方法包括:获取服务器的样本性能数据;根据所述样本性能数据获取样本数据特征;根据所述样本数据特征训练目标特征模型;其中,所述目标特征模型包括样本数据特征与故障信息的映射关系;针对待检测的服务器,获取所述服务器的待检测性能数据;根据所述待检测性能数据获取待检测数据特征;根据所述目标特征模型确定与所述待检测数据特征对应的故障信息;根据所述故障信息检测所述服务器在未来一段时间内发生故障的概率。本申请提供一种故障检测装置,所述装置包括:获取模块,用于获取服务器的样本日志;根据所述样本日志获取样本日志特征;训练模块,用于根据所述样本日志特征训练目标特征模型;其中,所述目标特征模型包括样本日志特征与故障信息的映射关系;所述目标特征模型用于根据所述映射关系检测服务器在未来一段时间内发生故障的概率。本申请提供一种故障检测装置,所述装置包括:获取模块,用于针对待检测的服务器,获取所述服务器的待检测日志;根据所述待检测日志获取所述服务器的待检测日志特征;确定模块,用于根据目标特征模型确定与所述待检测日志特征对应的故障信息;其中,所述目标特征模型包括样本日志特征与故障信息的映射关系;检测模块,用于根据所述故障信息检测所述服务器在未来一段时间内发生故障的概率。本申请提供一种故障检测设备,包括:处理器和机器可读存储介质,所述机器可读存储介质上存储有若干计算机指令,所述处理器执行所述计算机指令时进行如下处理:获取服务器的样本日志;根据所述样本日志获取样本日志特征;根据所述样本日志特征训练目标特征模型;其中,所述目标特征模型包括样本日志特征与故障信息的映射关系;所述目标特征模型用于根据所述映射关系检测服务器在未来一段时间内发生故障的概率。本申请提供一种故障检测设备,包括:处理器和机器可读存储介质,所述机器可读存储介质上存储有若干计算机指令,所述处理器执行所述计算机指令时进行如下处理:针对待检测的服务器,获取所述服务器的待检测日志;根据所述待检测日志获取所述服务器的待检测日志特征;根据目标特征模型确定与所述待检测日志特征对应的故障信息;根据所述故障信息检测所述服务器在未来一段时间内发生故障的概率;其中,所述目标特征模型包括样本日志特征与故障信息的映射关系。基于上述技术方案,本申请实施例中,能够利用日志提前发现服务器在未来某个时间发生故障的概率,即能够提前一段时间(如几小时等)预测出服务器故障的概率,这样,在服务器发生故障之前就可以获知服务器故障,在服务器发生故障之前就进行故障恢复,如进行业务迁移等,从而避免服务器故障造成的损失,能够给服务器的稳定性带来极大的提升,提高数据中心的稳定性。附图说明为了更加清楚地说明本申请实施例或者现有技术中的技术方案,下面将对本申请实施例或者现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请中记载的一些实施例,对于本领域普通技术人员来讲,还可以根据本申请实施例的这些附图获得其它的附图。图1是本申请一种实施方式中的故障检测方法的流程示意图;图2是本申请另一种实施方式中的故障检测方法的流程示意图;图3是本申请一种实施方式中的故障检测的应用场景示意图;图4是本申请另一种实施方式中的故障检测方法的流程示意图;图5是本申请一种实施方式中的故障检测装置的结构示意图;图6是本申请另一种实施方式中的故障检测装置的结构示意图;图7是本申请一种实施方式中的故障检测设备的结构示意图。具体实施方式在本申请实施例使用的术语仅仅是出于描述特定实施例的目的,而非限制本申请。本申请和权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其它含义。还应当理解,本文中使用的术语“和/或”是指包含一个或多个相关联的列出项目的任何或所有可能组合。应当理解,尽管在本申请实施例可能采用术语第一、第二、第三等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本申请范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。取决于语境,此外,所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。本申请实施例提出一种故障检测方法,参见图1所示,该方法可以包括:步骤101,获取服务器的样本日志。其中,样本日志可以包括但不限于以下之一或者任意组合:基于内存产生的日志、基于操作系统内核产生的日志、基于硬盘产生的日志、基于CPU产生的日志,对此日志类型不做限制,可以是任意类型的日志。步骤102,根据样本日志获取样本日志特征。其中,样本日志特征可以包括但不限于:统计特征;或者,区别序列模式特征;或者,统计特征和区别序列模式特征,对此样本日志特征不做限制。针对根据样本日志获取统计特征的过程,可以包括:从样本日志中选取统计时间窗口内的样本日志;将选取的样本日志划分为多个统计维度的样本日志;根据多个统计维度的样本日志确定多个统计维度的日志数量;根据多本文档来自技高网...

【技术保护点】
1.一种故障检测方法,其特征在于,所述方法包括:/n获取服务器的样本日志;/n根据所述样本日志获取样本日志特征;/n根据所述样本日志特征训练目标特征模型;其中,所述目标特征模型包括样本日志特征与故障信息的映射关系;所述目标特征模型用于根据所述映射关系检测服务器在未来一段时间内发生故障的概率。/n

【技术特征摘要】
1.一种故障检测方法,其特征在于,所述方法包括:
获取服务器的样本日志;
根据所述样本日志获取样本日志特征;
根据所述样本日志特征训练目标特征模型;其中,所述目标特征模型包括样本日志特征与故障信息的映射关系;所述目标特征模型用于根据所述映射关系检测服务器在未来一段时间内发生故障的概率。


2.根据权利要求1所述的方法,其特征在于,所述样本日志特征包括:统计特征;或者,区别序列模式特征;或者,统计特征和区别序列模式特征。


3.根据权利要求2所述的方法,其特征在于,
所述根据所述样本日志获取统计特征,包括:
从所述样本日志中选取统计时间窗口内的样本日志;
将选取的样本日志划分为多个统计维度的样本日志;
根据多个统计维度的样本日志确定多个统计维度的日志数量;
根据所述多个统计维度的日志数量确定统计特征。


4.根据权利要求3所述的方法,其特征在于,
所述根据所述多个统计维度的日志数量确定统计特征,包括:
针对所述多个统计维度中的各统计维度,将所述统计维度的日志数量确定为统计特征;和/或,将所述统计维度的日志数量与相邻统计时间窗口内的所述统计维度的日志数量的比例关系,确定为统计特征。


5.根据权利要求2所述的方法,其特征在于,
所述根据所述样本日志获取区别序列模式特征,包括:
从所述样本日志中选取统计时间窗口内的样本日志;
确定所述统计时间窗口内的各样本日志的统计维度;
根据所述各样本日志的统计维度的顺序,确定区别序列模式特征。


6.根据权利要求5所述的方法,其特征在于,所述根据所述各样本日志的统计维度的顺序,确定区别序列模式特征,包括:
根据所述各样本日志的统计维度的顺序,获取统计维度序列;
根据所述统计维度序列确定所述区别序列模式特征;
其中,所述区别序列模式特征是用于识别正常服务器的区别序列模式特征;或者,所述区别序列模式特征是用于识别异常服务器的区别序列模式特征。


7.根据权利要求3或5所述的方法,其特征在于,
针对所述样本日志的统计维度的确定方式,具体包括:
根据所述样本日志的属性,确定所述样本日志的统计维度;
其中,所述样本日志的属性包括以下之一或任意组合:所述样本日志的日志源、所述样本日志的严重程度、所述样本日志的日志类型。


8.根据权利要求1所述的方法,其特征在于,
所述根据所述样本日志特征训练目标特征模型,包括;
将所述样本日志特征和所述样本日志特征的标签值输出给训练模型,以使所述训练模型根据所述样本日志特征和所述样本日志特征的标签值训练目标特征模型;其中,若所述样本日志特征是正常服务器的样本日志的样本日志特征,则所述标签值用于表示服务器未故障;若所述样本日志特征是异常服务器的样本日志的样本日志特征,则所述标签值用于表示服务器已故障。


9.根据权利要求1所述的方法,其特征在于,
所述根据所述样本日志特征训练目标特征模型之后,所述方法还包括:
针对待检测的服务器,获取所述服务器的待检测日志;
根据所述待检测日志获取所述服务器的待检测日志特征;
根据所述目标特征模型确定与所述待检测日志特征对应的故障信息;
根据所述故障信息检测所述服务器在未来一段时间内发生故障的概率。


10.根据权利要求1-9任一项所述的方法,其特征在于,
所述样本日志包括以下之一或者任意组合:基于内存产生的日志、基于操作系统内核产生的日志、基于硬盘产生的日志、基于CPU产生的日志。


11.一种故障检测方法,其特征在于,所述方法包括:
针对待检测的服务器,获取所述服务器的待检测日志;
根据所述待检测日志获取所述服务器的待检测日志特征;
根据目标特征模型确定与所述待检测日志特征对应的故障信息...

【专利技术属性】
技术研发人员:李洋光曾正达王冕陈品安何诚黄瑞瑞菅骁翔
申请(专利权)人:阿里巴巴集团控股有限公司
类型:发明
国别省市:开曼群岛;KY

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1