告警分析的方法和装置制造方法及图纸

技术编号:13862958 阅读:43 留言:0更新日期:2016-10-19 12:41
本发明专利技术涉及一种告警分析的方法和装置。所述方法包括以下步骤:获取业务数据中的告警;将告警相关信息格式化为对应业务模块的时间窗的数据;将得到的业务模块关系绘制得到访问链路;将所述告警、时间窗的数据、访问链路和业务模块进行对应存储;对所述业务模块所对应的告警进行分类,得到告警类型;对所述业务模块所对应的访问链路进行降维处理,得到降维后的访问链路;生成包含时间窗、告警类型、降维后的访问链路的告警结果。上述告警分析的方法和装置,可有效降低告警量,省掉了告警分析和定位,直达处理告警,节省了告警处理时间,提高了告警处理效率。

【技术实现步骤摘要】

本专利技术涉及业务告警领域,特别是涉及一种基于业务的告警分析的方法和装置
技术介绍
随着互联网技术的发展,网络已成为人们生活的一部分,给人们的生活带来了很多便利。为了满足用户的需求,服务提供者提供了各种各样的业务服务。业务服务在网络运行过程中常常出现故障,为了便于对业务服务进行管理,往往通过故障告警的方式来定位故障点。随着业务服务种类的增多,业务告警越来越复杂,告警监控系统会收到海量的告警信息,其中包含大量的无用告警信息,很难找到告警根源信息,以及难以准确快速的根据告警根源信息定位告警对应的故障处,对故障进行修复,告警处理效率低。
技术实现思路
基于此,有必要针对难以快速准确定位告警根源信息所对应的故障位置而导致告警处理效率低的问题,提供一种告警分析的方法和装置,能提高告警处理效率。一种告警分析的方法,包括以下步骤:获取业务数据中的告警;将告警相关信息格式化为对应业务模块的时间窗的数据;将得到的业务模块关系绘制得到访问链路;将所述告警、时间窗的数据、访问链路和业务模块进行对应存储;对所述业务模块所对应的告警进行分类,得到告警类型;对所述业务模块所对应的访问链路进行降维处理,得到降维后的访问链路;生成包含时间窗、告警类型、降维后的访问链路的告警结果。一种告警分析的装置,包括:获取模块,用于获取业务数据中的告警;格式化模块,用于将告警相关信息格式化为对应业务模块的时间窗的数据;绘制模块,用于将得到的业务模块关系绘制得到访问链路;存储模块,用于将所述告警、时间窗的数据、访问链路和业务模块进行对应存储;类型确定模块,用于对所述业务模块所对应的告警进行分类,得到告警类型;降维处理模块,用于对所述业务模块所对应的访问链路进行降维处理,得到降维后的访问链路;生成模块,用于生成包含时间窗的数据、告警类型、降维后的访问链路的告警结果。上述告警分析的方法和装置,通过获取业务数据中的告警,将告警相关信息格式化为对应的时间窗的数据,获取业务模块所对应的访问链路,并确定告警类型,生成包括时间窗的数据、告警类型、降维后的访问链路的告警结果,告警结果中包含了告警的描述、告警类型、发生时间等,可有效降低告警量,省掉了告警分析和定位,直达处理告警,节省了告警处理时间,提高了告警处理效率。附图说明图1为一个实施例中告警分析的方法的流程图;图2为业务模块的层级结构示意图;图3为降一维后的层级结构示意图;图4为降维处理后的访问链路示意图;图5为另一个实施例中告警分析的方法的流程图;图6为一个实施例中对业务模块所对应的告警进行分类,得到告警类型的具体流程图;图7为具体应用的告警分析的方法流程图示意图;图8为一个实施例中告警分析的装置的结构框图;图9为另一个实施例中告警分析的装置的结构框图;图10为一个实施例中类型确定模块的内部结构框图;图11为终端的内部结构示意图;图12为服务器的内部结构示意图。具体实施方式为了使本专利技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本专利技术进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本专利技术,并不用于限定本专利技术。图1为一个实施例中告警分析的方法的流程图。如图1所示,一种告警分析的方法,包括以下步骤:步骤102,获取业务数据中的告警。具体的,业务数据是指各种业务服务产生的数据,海量的业务数据分布在网络中。以分钟级或秒级为单元获取业务数据中的告警,也就是获取预设分钟或秒时间内业务数据中的告警。该预设分钟可为1分钟、3分钟、5分钟等。预设秒可为30秒、60秒、120秒等。告警是指业务模块的某些运营指标不符合规定的标准,例如磁盘使用100%等。业务模块是指一个IP(Internet Protocol,网际协议)或一组IP的集合。步骤104,将告警相关信息格式化为对应业务模块的时间窗的数据。具体的,告警相关信息是指表示告警的相关参数,例如变更、网络故障等。变更可是指业务服务功能变更、或者IP地址变更等。将告警相关信息以分钟级或秒级为单元格式化为对应业务模块的时间窗的数据,即将告警相关信息记录为某个时间窗内的告警事件。时间窗是指根据需要定义的时间段,例如定义5分钟为一个时间窗,将一天分为288个时间窗。也可定义10分钟为一个时间窗,将一天分为144个时间窗等。步骤106,将得到的业务模块关系绘制得到访问链路。具体的,通过IP抓包方式将业务模块之间关系进行汇聚,然后绘制得到访问链路。访问链路是指同一业务模块不重复出现的一条访问关系链,如业务模
块A->业务模块B->业务模块C等。业务模块关系是指业务模块之间的访问关系,即IP访问关系,如IP1->IP2,业务模块A->业务模块B。步骤108,将该告警、时间窗的数据、访问链路和业务模块进行对应存储。本实施例中,步骤108包括:将该告警和时间窗的数据与业务模块标识对应存储;将该访问链路与业务模块标识对应存储。业务模块标识是用于唯一表示业务模块的,如IP地址等。将告警和时间窗的数据与业务模块标识对应存储,然后将访问链路与业务模块标识对应存储,因一个业务模块可能出现在多个访问链路中,将访问链路与业务模块标识对应存储可避免重复存储告警和时间窗数据,节省存储空间。告警、业务模块、时间窗和访问链路的存储结构可采用第一表存放访问链路和访问链路标识,第二表存放业务模块标识和访问链路标识,第三表存放业务模块标识和告警内容。告警内容是一个字符型数组,告警内容分为288个点,每个点代表一个时间窗,每个时间窗存多种告警类型,每种告警类型支持存int 255的一个最大数值。在其他实施例中,也可将告警、时间窗的数据、访问链路和业务模块一起对应存储。一起存储数据集中,查找方便。步骤110,对该业务模块所对应的告警进行分类,得到告警类型。具体的,告警类型可包括长期告警、波动告警和关联告警。长期告警是指一段时间内持续发生的告警。波动告警是指突发的告警,但与其他业务模块没有关系。关联告警是指突发的告警,且与其他业务模块有关系。告警类型中关联告警级别最高,波动告警级别次之,长期告警级别再次之。步骤112,对该业务模块所对应的访问链路进行降维处理,得到降维后的访问链路。本实施例中,对业务模块所对应的访问链路进行降维处理,得到降维后的访问链路的步骤包括:判断该业务模块所对应的访问链路中在当前告警的时间窗内是否有告警,若有,则保留有告警的链路,若无,则过滤无告警的链路,得到降维后的访问链路。如图2所示,业务常见的是四层访问结构,以业务模块A为例,整个网络的拓扑复杂度为O(N^3),业务模块A为接入层,D、E、F为逻辑层,H、I、
J、K为缓存层,L、M为数据库层。形成的访问链路有A->D->H->L,A->D->I->L等,如图2中箭头走向。将告警策略从业务模块A的告警m,调整为从业务模块A->业务模块D的告警m,当告警m发生时筛选A->D相关的访问链路,原有的四层业务链路拓扑复杂度降为O(N^2),如图3所示,然后进行判断当前告警的时间窗内,业务模块D后面的访问关系中其他业务模块是否有告警,有告警则保留链路,无告警则过滤链路,遇到非告警的业务模块都可以降一维。每降一次,可能出现误差的几率本文档来自技高网
...

【技术保护点】
一种告警分析的方法,包括以下步骤:获取业务数据中的告警;将告警相关信息格式化为对应业务模块的时间窗的数据;将得到的业务模块关系绘制得到访问链路;将所述告警、时间窗的数据、访问链路和业务模块进行对应存储;对所述业务模块所对应的告警进行分类,得到告警类型;对所述业务模块所对应的访问链路进行降维处理,得到降维后的访问链路;生成包含时间窗、告警类型、降维后的访问链路的告警结果。

【技术特征摘要】
1.一种告警分析的方法,包括以下步骤:获取业务数据中的告警;将告警相关信息格式化为对应业务模块的时间窗的数据;将得到的业务模块关系绘制得到访问链路;将所述告警、时间窗的数据、访问链路和业务模块进行对应存储;对所述业务模块所对应的告警进行分类,得到告警类型;对所述业务模块所对应的访问链路进行降维处理,得到降维后的访问链路;生成包含时间窗、告警类型、降维后的访问链路的告警结果。2.根据权利要求1所述的方法,其特征在于,所述方法还包括:从所述绘制得到的访问链路中筛选出核心访问链路;将所述告警、时间窗的数据、核心访问链路和业务模块进行对应存储;对所述业务模块所对应的告警进行分类,得到告警类型;对所述业务模块所对应的核心访问链路进行降维处理,得到降维后的核心访问链路;生成包含时间窗的数据、告警类型、降维后的核心访问链路以及受告警所影响的业务模块的告警结果。3.根据权利要求1所述的方法,其特征在于,所述将所述告警、时间窗的数据、访问链路和业务模块进行对应存储的步骤包括:将所述告警和时间窗的数据与业务模块标识对应存储;将所述访问链路与业务模块标识对应存储。4.根据权利要求1所述的方法,其特征在于,所述对所述业务模块所对应的告警进行分类,得到告警类型的步骤包括:获取预定时间内所述业务模块所对应的告警失败率;根据所述告警失败率计算平均值及标准差;判断所述告警失败率是否小于阈值,所述阈值是根据平均值和标准差得到的;若告警失败率小于阈值,则判定所述业务模块所对应的告警为长期告警;若告警失败率大于或等于阈值,则进一步判断设定的历史相同时间窗内是否也发生过告警;若在设定的历史相同时间窗内发生过告警,则判定所述业务模块所对应的告警为长期告警;若在设定的历史相同时间窗内未发生过告警,则以所述业务模块为根,根据所述业务模块进行深度搜索;判断搜索到的其他业务模块在当前相同时间窗内是否有非长期告警发生,若是,则判定所述业务模块所对应的告警为关联告警,若否,则判定所述业务模块所对应的告警为波动告警。5.根据权利要求1所述的方法,其特征在于,对所述业务模块所对应的访问链路进行降维处理,得到降维后的访问链路的步骤包括:判断所述业务模块所对应的访问链路中在当前告警的时间窗内是否有告警,若有,则保留有告警的链路,若无,则过滤无告警的链路,得到降维后的访问链路。6.根据权利要求1所述的方法,其特征在于,在所述生成包含时间窗的数据、告警类型、降维后的访问链路的告警结果的步骤之后,所述方法还包括:根据所述告警类型对所述告警结果进行原因汇总处理;和/或对生成的告警结果进行提示。7.根据权利要求6所述的方法,其特征在于,所述对生成的告警结果进行提示的步骤包括:展示所述告警结果;或者,将所述告警结果以即时通信信息和/或电子邮件和/或短信形式进行发送。8.一种告警分析的装置,其特征在于,包括:获取模块,用于获取业务数据中的告警;格式化模块,用于将告警相关信息格式化为对应业务模块的时间窗的数据;绘制模块,用于将得到的业务模块关系绘制得到访问链...

【专利技术属性】
技术研发人员:曹凤龙聂鑫梁定安黄兆鹏霍特杨波陶凛然赵子青黄伟俊黄浩宇
申请(专利权)人:深圳市腾讯计算机系统有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1