运维报警系统及方法技术方案

技术编号:15639076 阅读:301 留言:0更新日期:2017-06-15 21:14
本发明专利技术提供了一种运维报警系统及方法,所述系统包括:离线模型训练模块,用于基于机器学习对在线检测模块所使用的检测算法所需的参数进行更新,以及,基于历史数据的分析结果对指标数据的分布进行预测;在线检测模块,用于接收待检测的指标数据,并基于指标数据的分布的预测结果,利用预置的检测算法对指标数据进行检测;报警模块,针对在线检测模块的检测结果,基于预置的报警规则确定是否报警。本发明专利技术可实现自动运维报警。

【技术实现步骤摘要】
运维报警系统及方法
本专利技术涉及计算机
,特别是涉及一种运维报警系统及方法。
技术介绍
随着网络的快速发展,出现了需要为大量用户服务的网络系统。这些网络系统具有分布在各个地址的大量计算机(服务器)或计算资源,而这些计算机或计算资源通常构建为集群的方式来为用户服务。随着提供服务的计算机或计算资源越来越多,对这些计算机或计算资源的各项指标进行监控并在出现故障时及时、准确地进行报警是非常重要的问题。以数据中心系统为例,需要对数据中心的计算机与计算资源的各项指标进行监控,以此发现数据中心系统发生的异常状况,使运维人员能够及早排除故障,保证系统的稳定运行。目前的监控方法主要为运维人员人工查看运维指标或采取设定固定阈值的方式对指标进行监控。人工查看运维指标除了需要大量人力之外,也极易在大量数据中可能遗漏的异常情况,并且当数据量增涨到一定程度之后,依靠人工查看的方式也变得不可行。而设定固定阈值进行监控的方法,要求对每一种指标都设置合理的阈值,当指标数量巨大时,该方法显得不太可行。除此之外,设定固定阈值的方式也只能对符合简单规则的异常情况进行报警,在复杂的实际生产环境中,极易产生大量误报。
技术实现思路
为了避免人工进行运维报警的弊端,本专利技术实施例提供一种可实现自动运维报警的系统及方法。根据本专利技术实施例的一个方面,提供一种运维报警系统,用于对网络系统中设备或计算资源的指标数据进行检测和异常报警,所述系统包括:离线模型训练模块、在线检测模块和报警模块,其中:所述离线模型训练模块,用于基于机器学习对所述在线检测模块所使用的检测算法所需的参数进行更新,以及,基于历史数据的分析结果对指标数据的分布进行预测;所述在线检测模块,用于接收待检测的指标数据,并基于指标数据的分布的预测结果,利用预置的检测算法对指标数据进行检测;所述报警模块,针对所述在线检测模块的检测结果,基于预置的报警规则确定是否报警,。优选的,所述离线模型训练模块基于历史数据的分析结果,对各指标数据在不同时刻的取值分布情况进行预测,以及,对具有周期性的指标数据在未来数个周期内的期望数值进行预测。优选的,所述离线模型训练模块,从离线数据库中获取机器学习所需的指标数据,根据所获取的指标数据确定所述在线检测模块所使用的检测算法所需的参数,并将确定的所述在线检测模块所使用的检测算法所需的参数存储于模型参数数据库,以及,将针对指标数据的分布预测结果存储在长期预测数据库。优选的,所述在线检测模块还用于,根据所述报警模块返回的用户针对指标数据反馈的异常被忽略的反馈信息,针对所述指标数据更改检测算法,采取新的检测算法对指标数据进行重新检测。优选的,所述在线检测模块,从在线缓存数据库中获取所使用的检测算法所需的指标数据,以及,将检测结果中的异常记录以及异常记录的特征描述信息存储在异常数据库中。优选的,所述报警模块,针对所述在线检测模块检测的异常,根据预置的报警规则判断是否进行报警,以及,根据用户反馈,并结合所述异常记录以及异常记录的特征描述信息,更新报警规则。优选的,所述报警模块,从报警模型数据库获取半监督学习算法的参数,将报警的指标数据的相关信息存储在报警数据库,以及,将用户反馈存储于用户反馈数据库。根据本专利技术实施例的另一个方面,提供一种运维报警方法,用于对网络系统中设备或计算资源的指标数据进行检测和异常报警,所述方法包括:接收待检测的指标数据,并基于预先根据历史数据的分析结果对指标数据的分布的预测结果,利用预置的检测算法对指标数据进行检测;针对检测结果,基于预置的报警规则确定是否报警。优选的,所述方法还包括:在报警后接收用户反馈,并根据所述用户反馈更新所述报警规则。优选的,所述方法还包括:基于机器学习对所述线检测模块所使用的检测算法所需的参数进行更新。优选的,所述方法还包括:基于历史数据的分析结果,对各指标数据在不同时刻的取值分布情况进行预测,以及,对具有周期性的指标数据在未来数个周期内的期望数值进行预测,得到所述预测结果。优选的,所述方法还包括:根据返回的用户针对指标数据反馈的异常被忽略的反馈信息,针对所述指标数据更改检测算法,采取新的检测算法对指标数据进行重新检测。本专利技术实施例提出的运维报警系统,通过机器学习的方式,从采集的指标数据中学习各指标的特征与规律,通过对新采集的指标数据进行分析,检测其中的异常数据。此过程基本为自动化过程,基本不需要人工配置。在检测出异常数据之后,并不是简单地直接发出报警,而是根据不同指标的运维人员过去对不同报警的反馈,学习个性化的报警规则,从而可过滤运维人员不感兴趣的异常,以此减轻运维人员负担,降低误报率。附图说明图1是本专利技术一个实施例提供的一种运维报警系统在数据中心应用场景下的架构示意图;图2是本专利技术一个实施例提供的一种运维报警系统结构示意图;图3a、图3b是本专利技术一个实施例提供的一种运维报警系统工作流程示意图;图4是本专利技术一个实施例提供的一种运维报警方法流程图。具体实施方式为使本专利技术的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本专利技术作进一步详细的说明。运维,指运行维护,与研发、测试、系统管理同为互联网产品技术四大支撑,其核心目标是将交付的业务软件和硬件基础设施高效合理的整合,转换为可持续提供高质量服务的产品,同时最大限度降低服务运行的成本,保障服务运行的安全。运维的一个技术任务是提供服务故障管理。本专利技术所提供的运维报警系统,针对设备或服务提供指标检测及报警,是运维服务故障管理中的一部分。本专利技术实施例中,以数据中心为应用场景作为例子对运维报警系统进行介绍。数据中心是多方协作的特定设备网络,用来在internet网络基础设施上传递、加速、展示、计算、存储数据信息。针对数据中心,需要对各种指标进行监控,比如网络流量、存储空间、各个机器的cpu、内存、网卡等指标数据进行监控。应该理解的是,本专利技术实施例所提出的运维报警系统不仅仅可以应用于数据中心,对于其他类型的监控数据或应用场景,也可以使用本专利技术实施例提出的系统进行运维报警。在上述举例的数据中心的运维指标通常只涉及比较底层的关于机器的指标,然而,对于不同的业务来说,很多业务相关的指标也需要进行监控。比如搜索返回结果的延时、远程调用接口的延时、消息队列的吞吐的监控等等。再比如网站的访问流量、登录请求的流量等等,这些都是需要监控报警的。总之,本专利技术实施例提出的运维报警系统,可以理解为是面向时间序列的指标的运维报警系统,其应用场景包括上述的数据中心、网络业务系统、网站系统等(以“网络系统”统一表示),所监控的指标数据也因各场景的不同而不同。参见图1,为本专利技术一个实施例提供的一种运维报警系统在数据中心应用场景下的架构示意图。数据中心是由很多计算资源、网络资源、存储资源构成的系统,其结构较为复杂,本专利技术实施例不作过多描述。在云计算中,计算资源(computingresource),主要是指由设备或虚拟机提供计算能力的资源。在数据中心中,运维报警系统部署在数据监控设备的下游,如图1的例子,运维报警系统接收来自消息队列监控、流量监控、业务监控的监控数据,获取到待检测及报警的指标数据流。参见图2,是本专利技术一个实施例提供的一种运维报警系统结构示意图。该运维报警系统用于对网络系统中设本文档来自技高网...
运维报警系统及方法

【技术保护点】
一种运维报警系统,其特征在于,用于对网络系统中设备或计算资源的指标数据进行检测和异常报警,所述系统包括:离线模型训练模块、在线检测模块和报警模块,其中:所述离线模型训练模块,用于基于机器学习对所述在线检测模块所使用的检测算法所需的参数进行更新,以及,基于历史数据的分析结果对指标数据的分布进行预测;所述在线检测模块,用于接收待检测的指标数据,并基于指标数据的分布的预测结果,利用预置的检测算法对指标数据进行检测;所述报警模块,针对所述在线检测模块的检测结果,基于预置的报警规则确定是否报警。

【技术特征摘要】
1.一种运维报警系统,其特征在于,用于对网络系统中设备或计算资源的指标数据进行检测和异常报警,所述系统包括:离线模型训练模块、在线检测模块和报警模块,其中:所述离线模型训练模块,用于基于机器学习对所述在线检测模块所使用的检测算法所需的参数进行更新,以及,基于历史数据的分析结果对指标数据的分布进行预测;所述在线检测模块,用于接收待检测的指标数据,并基于指标数据的分布的预测结果,利用预置的检测算法对指标数据进行检测;所述报警模块,针对所述在线检测模块的检测结果,基于预置的报警规则确定是否报警。2.根据权利要求1所述的系统,其特征在于,所述离线模型训练模块基于历史数据的分析结果,对各指标数据在不同时刻的取值分布情况进行预测,以及,对具有周期性的指标数据在未来数个周期内的期望数值进行预测。3.根据权利要求1所述的系统,其特征在于,所述离线模型训练模块,从离线数据库中获取机器学习所需的指标数据,根据所获取的指标数据确定所述在线检测模块所使用的检测算法所需的参数,并将确定的所述在线检测模块所使用的检测算法所需的参数存储于模型参数数据库,以及,将针对指标数据的分布预测结果存储在长期预测数据库。4.根据权利要求1、2或3所述的系统,其特征在于,所述在线检测模块还用于,根据所述报警模块返回的用户针对指标数据反馈的异常被忽略的反馈信息,针对所述指标数据更改检测算法,采取新的检测算法对指标数据进行重新检测。5.根据权利要求4所述的系统,其特征在于,所述在线检测模块,从在线缓存数据库中获取所使用的检测算法所需的指标数据,以及,将检...

【专利技术属性】
技术研发人员:胡嘉伟许晓炜
申请(专利权)人:北京奇艺世纪科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1