用于检测机房故障的方法、装置及设备制造方法及图纸

技术编号:15690728 阅读:112 留言:0更新日期:2017-06-24 03:21
本申请公开了用于检测机房故障的方法、装置及设备。待检测机房包括多个服务器集合,每个服务器集合处理一种类型的数据请求并且该服务器集合响应于所处理的数据请求满足预设条件而生成报警信息,该报警信息包括该服务器集合的服务器集合标识,该方法的一具体实施方式包括:获取预定时间段内待检测机房的报警记录,其中,该报警记录包括该预定时间段内该待检测机房内的服务器集合生成的报警信息;确定第一数量,其中,第一数量为该报警记录中出现的不同服务器集合标识的数量;基于所确定的第一数量,确定该待检测机房是否出现故障。该实施方式提高了确定机房是否出现故障的效率。

Method, device and equipment for detecting fault of machine room

The invention discloses a method, a device and a device for detecting a breakdown in a computer room. The detected room includes a plurality of server set, each server sets a data request and the server response set satisfying the preset conditions on the processing of data requests and generate alarm information and the alarm server information including the server sets of identification, including a specific embodiment of the method: get the alarm records, scheduled time for testing the room in which the alarm records including the predetermined period of time the test room of the server set to generate alarm information; determining the first number, among them, the number for the alarm records appear in different server set identification number; the first number is determined based on the determined. Whether there is fault detection room. The embodiment of the invention improves the efficiency of determining whether or not the engine room is faulty.

【技术实现步骤摘要】
用于检测机房故障的方法、装置及设备
本申请涉及计算机
,具体涉及数据中心
,尤其涉及用于检测机房故障的方法、装置及设备。
技术介绍
互联网数据中心(IDC,InternetDataCenter)是为集中收集、存储、处理和发送数据的设备提供运行维护的设施基地并提供相关的服务的场所。互联网数据中心通常包括机房,机房中可以包括服务器集合、支持机房内/外部通信的电子设备以及其它电子设备。机房中的电子设备产生故障或出现通信障碍等情况,可以称为机房出现故障。然而,现有的检测机房故障的方式通常是测试机房中设备之间的物理连接,从而,存在着确定机房是否出现故障的效率低下的问题。
技术实现思路
本申请的目的在于提出一种改进的用于检测机房故障的方法、装置及设备,来解决以上
技术介绍
部分提到的技术问题。第一方面,本申请提供了一种用于检测机房故障的方法,待检测机房包括多个服务器集合,每个服务器集合处理一种类型的数据请求并且该服务器集合响应于所处理的数据请求满足预设条件而生成报警信息,上述报警信息包括该服务器集合的服务器集合标识,上述方法包括:获取预定时间段内待检测机房的报警记录,其中,上述报警记录包括上述预定时间段内上述待检测机房内的服务器集合生成的报警信息;确定第一数量,其中,第一数量为上述报警记录中出现的不同服务器集合标识的数量;基于所确定的第一数量,确定上述待检测机房是否出现故障。第二方面,本申请提供了一种用于检测机房故障的装置,待检测机房包括多个服务器集合,每个服务器集合处理一种类型的数据请求并且该服务器集合响应于所处理的数据请求满足预设条件而生成报警信息,上述报警信息包括该服务器集合的服务器集合标识,上述装置包括:获取单元,用于获取预定时间段内待检测机房的报警记录,其中,上述报警记录包括上述预定时间段内上述待检测机房内的服务器集合生成的报警信息;第一数量确定单元,用于确定第一数量,其中,第一数量为上述报警记录中出现的不同服务器集合标识的数量;故障确定单元,用于基于所确定的第一数量,确定上述待检测机房是否出现故障。第三方面,本申请提供了一种设备,上述设备包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当上述一个或多个程序被上述一个或多个处理器执行,使得上述一个或多个处理器实现如第一方面上述的方法。第四方面,本申请提供了一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如第一方面上述的方法。本申请的上述实施例提供的方法,通过获取预定时间段内待检测机房的报警记录,然后确定上述报警记录中出现的不同服务器集合标识的数量,最后基于所确定的第一数量,确定上述待检测机房是否出现故障,提高了确定机房是否出现故障的效率。附图说明通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:图1是本申请可以应用于其中的示例性系统架构图;图2是根据本申请的用于检测机房故障的方法的一个实施例的流程图;图3是根据本申请的用于检测机房故障的方法的一个应用场景的示意图;图4是根据本申请的用于检测机房故障的方法的又一个实施例的流程图;图5是根据本申请的用于检测机房故障的方法的又一个实施例的流程图;图6是根据本申请的用于检测机房故障的装置的一个实施例的结构示意图;图7是适于用来实现本申请实施例的监控服务器的计算机系统的结构示意图。具体实施方式下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释相关专利技术,而非对该专利技术的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与有关专利技术相关的部分。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。图1示出了可以应用本申请的用于检测机房故障的方法或用于检测机房故障的装置的实施例的示例性系统架构100。如图1所示,系统架构100可以包括服务器集合101、102、103,网络104和监控服务器105。网络104用以在服务器集合101、102、103和监控服务器105之间提供通信链路的介质。网络104可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。服务器集合101、102、103可以通过网络104与监控服务器105交互,以接收或发送报警信息等。服务器集合101、102、103可以为终端设备(未示出)上安装的各种通讯客户端应用提供支持,例如网页浏览器应用、购物类应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等。服务器集合101、102、103可以是提供各种业务类型的服务器的集合,也可以称为服务器集群,例如是对终端设备上显示的网页提供支持的后台服务器的集合。后台服务器可以对接收到的网页页面请求等数据进行分析等处理,并将处理结果(例如网页页面数据)反馈给终端设备。监控服务器105可以是对机房中的各种电子设备进行监控的服务器。监控服务器可以获取机房环境的各项参数或者机房中电子设备的各项参数,然后对获取的参数进行分析,确定机房是否出现故障。需要说明的是,本申请实施例所提供的用于检测机房故障的方法一般由监控服务器105执行,相应地,用于检测机房故障的装置一般设置于监控服务器105中。应该理解,图1中的服务器集合、网络和监控服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的服务器集合、网络和监控服务器。继续参考图2,其示出了根据本申请的用于检测机房故障的方法的一个实施例的流程200。待检测机房包括多个服务器集合,每个服务器集合处理一种类型的数据请求并且该服务器集合响应于所处理的数据请求满足预设条件而生成报警信息,上述报警信息包括该服务器集合的服务器集合标识,上述的用于检测机房故障的方法,包括以下步骤:步骤201,获取预定时间段内待检测机房的报警记录。在本实施例中,用于检测机房故障的方法运行于其上的电子设备(例如图1所示的监控服务器)可以获取待检测机房在预定时间段内的报警记录。在这里,上述报警记录包括上述预定时间段内上述待检测机房内的服务器集合生成的报警信息。在本实施例中,待检测机房可以包括多个服务器集合,每个服务器集合处理一种类型的数据请求并且该服务器集合响应于所处理的数据请求满足预设条件而生成报警信息,上述报警信息包括该服务器集合的服务器集合标识。在本实施例中,每个服务器集合处理一种类型的数据请求可以是每个服务器集合为一种应用提供服务。作为示例,甲服务器集合可以为终端设备上安装的某一地图类应用提供支持,接收终端设备发送的地图类应用相关的数据请求。可以理解,服务器集合通常包括多台服务器,但是也可以只包括一台服务器。在本实施例中,服务器集合可以响应于所处理的数据请求满足预设条件而生成报警信息。作为示例,数据请求可以是支付请求,支付请求中可以包括支付金额,预设条件可以是支付金额大于预设阈值。当服务器集合接收到的支付请求中的支付金额大于预设阈值时,服务器集合生成报警信息。在本实施例中,生成的报警信息包括生成该报警信息的服务器集合的服务器集合标识。可以理解的是,一个服务器集合为处理一种类型的数据请求,那么,服务器集合标识也可以作为这一种数据请求的类型的标识。在本实施例的一些可选的实现方式中,本文档来自技高网...
用于检测机房故障的方法、装置及设备

【技术保护点】
一种用于检测机房故障的方法,其特征在于,待检测机房包括多个服务器集合,每个服务器集合处理一种类型的数据请求并且该服务器集合响应于所处理的数据请求满足预设条件而生成报警信息,所述报警信息包括该服务器集合的服务器集合标识,所述方法包括:获取预定时间段内待检测机房的报警记录,其中,所述报警记录包括所述预定时间段内所述待检测机房内的服务器集合生成的报警信息;确定第一数量,其中,第一数量为所述报警记录中出现的不同服务器集合标识的数量;基于所确定的第一数量,确定所述待检测机房是否出现故障。

【技术特征摘要】
1.一种用于检测机房故障的方法,其特征在于,待检测机房包括多个服务器集合,每个服务器集合处理一种类型的数据请求并且该服务器集合响应于所处理的数据请求满足预设条件而生成报警信息,所述报警信息包括该服务器集合的服务器集合标识,所述方法包括:获取预定时间段内待检测机房的报警记录,其中,所述报警记录包括所述预定时间段内所述待检测机房内的服务器集合生成的报警信息;确定第一数量,其中,第一数量为所述报警记录中出现的不同服务器集合标识的数量;基于所确定的第一数量,确定所述待检测机房是否出现故障。2.根据权利要求1所述的方法,其特征在于,所述基于所确定的第一数量,确定所述待检测机房是否出现故障,包括:确定所述待检测机房的第一比值,其中,所述第一比值为所述第一数量与所述待检测机房中的服务器集合总数量的比值;基于所述第一比值,确定所述待检测机房是否出现故障。3.根据权利要求1所述的方法,其特征在于,报警信息还包括生成该报警信息时数据请求所满足的预设条件的条件标识;以及所述方法还包括:确定第二数量,其中,第二数量为所述报警记录中出现的不同条件标识的数量;以及所述基于所确定的第一数量,确定所述待检测机房是否出现故障,包括:基于所述第一数量和所述第二数量,确定所述待检测机房是否出现故障。4.根据权利要求3所述的方法,其特征在于,所述基于所确定的第一数量和第二数量,确定所述待检测机房是否出现故障,包括:确定所述待检测机房的第二比值,其中,所述第二比值为所述第二数量与为所述待检测机房中所有服务器集合的预设条件数量之和的比值;基于所述第一比值和所述第二比值,确定所述待检测机房是否出现故障。5.根据权利要求4所述的方法,其特征在于,所述基于所述第一比值和所述第二比值,确定所述待检测机房是否出现故障,包括:根据所述第一比值和所述第二比值,确定用于表征所述待检测机房是否出现故障的异常检测特征值;利用异常点检测算法确定所述异常检测特征值是否出现异常;响应于所述异常检测特征值出现异常,确定所述待检测机房出现故障。6.根据权利要求5所述的方法,其特征在于,所述根据所述第一比值和所述第二比值,确定用于表征所述待检测机房是否出现故障的异常检测特征值,包括:计算所述第一比值和所述第二比值的乘积;将所述乘积的平方根作为异常检测特征值。7.根据权利要求5所述的方法,其特征在于,所述利用异常点检测算法确定所述异常检测特征值是否出现异常,...

【专利技术属性】
技术研发人员:陈云王博郭宣佑
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1