一种事件分析方法及系统技术方案

技术编号:5198994 阅读:293 留言:0更新日期:2012-04-11 18:40
本发明专利技术公开了一种事件分析方法包括:A、采集IT系统中的所有故障事件,形成第一事件集合;B、根据预设的IT系统中各个IT实体的关系,对于所述第一事件集合中的每个故障事件,找出其引发的故障事件,形成第二事件集合;C、判断所述第一事件集合中的故障事件按是否出现在所述第二事件集合中,提取未出现在第二事件集合中的故障事件,形成根源故障事件集合。本发明专利技术的事件分析方法及系统,通过在IT系统的CAD模型中查找根源故障事件,对IT系统的故障问题进行根源分析,使得网络管理人员能过快速的找到故障根源并解决网络故障,节约了解决故障的时间,提高了工作效率。

【技术实现步骤摘要】

本专利技术涉及一种网络管理技术,尤其涉及一种事件分析方法及系统
技术介绍
目前,对实体及实体间关系的建模中,最有代表性的成就就是台式系统管理 任务组(The Desktop Management Task Farce,简称 DMTF)的公共信息模型(Common Information Model,简称 CIM)和电信管理论坛(Tele-Management Forum,简称 TMF)的安 全标识符(Security Identifiers,简称SID)。CIM利用面向对象的一系列理念,统一和扩 展了现有的监测和管理标准(SNMP,DMI, CMIP等),提供了一个用于定义、分类和整合网络 环境中部件的通用概念性框架,可用于在IT环境中以一致、统一的方式在逻辑上组织管理 对象(包括系统、网络、应用、软件等信息),定义了服务器、桌面、外围设备、操作系统、应 用、网络部件、用户和其他实体。SID提出的分域建模思想,更关注从高层对管理对象建模。 SID所分域内实体紧密关联,域间实体关联相对松散,做到了高内聚、低耦合,从而可以对完 整的业务问题进行有效的分割。但是,这些模型主要关注于单个实体的属性描述,而描述不同实体如何关联的能 力较弱,并且这些弱的描述怎样用来进行系统管理也没有说明清楚。例如,当前被广泛应用 的CIM模型,虽然基本将信息技术(Information Technology,简称IT)业务环境所有可能 涉及的IT实体和它们间的关联关系都作出了定义性描述,但是在如何组织和使用这些实 体和它们的关联关系方面还是相对较弱,而且对实体分层方面也考虑不够,造成实体复用 的不便,同时由于CIM模型过于考虑通用性和灵活性,没有统一的实体分层及实体间关联 关系抽象标准和规范,使得不同管理员对同一系统抽象难以一致。因此,这些模型只能适用于在抽象描述由少量设备组成的单个业务系统或者实体 间引用关系较为固定网络系统(如电信交换网络和不涉及IT系统的纯IP网络)构成的IT 业务环境,而不太适用于有着复杂关联关系的IT业务环境。同时也难以直接定义一个标准 规范配置管理模型对IT业务环境进行抽象建模。由上述的分析我们可以看出当前的网管系统中的配置管理模型存在如下不足1、对IT业务环境涉及的IT实体进行分层抽象不理想,不能保证模型实体被高度复用。2、对IT业务环境涉及的IT实体及实体间关系的定义不够明确,导致不同管理员 对相同IT实体及实体间关系的抽象不一致。3、进行事件关联关系分析时,不能从业务系统的整体角度去考虑,造成管理人员 缺乏对IT系统的整体监控能力。基于现有的配置管理模型在IT系统的日常操作中,一个故障的可能会产生大量 的事件信息。例如,一个网络由于电力故障等原因停止工作,会伴生出所有连接到该网络的 主机的宕机信息以及运行在这些主机上的受监控的进程的宕机告警信息,而要让管理员逐 个分析解决这些告警是一个繁重的任务。另外,在系统维护员使用网管系统监视多个业务系统的过程中,当事件发生后并 且根源事件也已被识别出来,他们需要尽可能快的判断哪些业务系统将会受到影响以及程 度如何,以便合理地安排事件处理的优先级。
技术实现思路
本专利技术的目的在于,提供一种事件分析方法及系统,使得网络管理人员能过快速 的找到故障根源并解决网络故障,节约了解决故障的时间,提高了工作效率。为实现上述目的,根据本专利技术的一个方面,提供一种事件分析方法,包括:A、采集 IT系统中的所有故障事件,形成第一事件集合;B、根据预设的IT系统中各个IT实体的关 系,对于所述第一事件集合中的每个故障事件,找出其引发的故障事件,形成第二事件集 合;C、判断所述第一事件集合中的故障事件按是否出现在所述第二事件集合中,提取未出 现在第二事件集合中的故障事件,形成根源故障事件集合。优选地,该事件分析方法还包括所述步骤C之后还包括分析所述根源故障事件 对所述IT实体的健康状态的影响,包括以下步骤D、对于所述根源事件集合中的各个根源 故障事件,查找受其影响的IT实体;E、计算所述各个根源故障事件对所述IT实体的健康状 态的影响值;F、将对于同一个IT实体的多个健康影响值进行加权,得到每个IT实体的健康 状态。为实现上述目的,根据本专利技术的另一个方面,提供一种事件分析系统,包括事件 采集装置,用于采集IT系统中的所有故障事件,形成第一事件集合;关联装置,用于根据预 设的IT系统中各个IT实体的关系,对于所述第一事件集合中的每个故障事件,找出其引发 的故障事件,形成第二事件集合;比较装置,用于比较所述第一事件集合和第二事件集合, 得到出现在所述第一事件集合但未出现在所述第二事件集合中的故障事件,形成根源事件集合。 优选地,该事件分析系统还包括健康状态分析装置,用于分析所述根源故障事件 对所述IT实体的健康状态的影响,包括查找模块,用于,查找受各个根源故障事件影响的 IT实体;计算模块,用于计算所述各个根源故障事件对所述IT实体的健康状态的影响值; 加权模块,用于将对于同一个IT实体的多个健康影响值进行加权,得到每个IT实体的健康 状态。本专利技术的事件分析方法及系统,通过在IT系统的CAD模型中查找根源故障事件, 对IT系统的故障问题进行根源分析,使得网络管理人员能过快速的找到故障根源并解决 网络故障,节约了解决故障的时间,提高了工作效率。另外,通过故障事件对IT实体的影响分析,使得网络管理人员可以快速的判断IT 系统中各个IT实体受故障事件影响的程度,并可以根据故障事件影响分析,预先合理安排 对故障事件处理的优先级,简化了故障分析工作,提高工作效率,合理地处理和解决故障。附图说明图1是本专利技术CAD模型实施例的结构示意图;图2是本专利技术事件分析方法实施例流程图;图3是本专利技术IT系统中故障事件扩散示意图一;图4是本专利技术IT事件分析方法另一实施例的流程图;图5是CAD模型各IT实体间关系图;图6是本专利技术IT系统中故障事件扩散示意图二 ;图7是本专利技术事件分析方法实施例结构图;图8是本专利技术事件分析方法另一实施例结构图。具体实施例方式以下结合附图对本专利技术进行详细说明。本专利技术提出了一种新的配置管理模型,对IT业务环境管理中涉及的IT业务实体 及实体间的各类关系进行了规范化定义和描述,形成了一个具有六层实体和三种关系的配 置管理模型,称为CAD模型。该模型提高了实体的复用率,增强了事件关联分析处理能力, 减少了网管人员的工作量。将IT业务环境的实体抽象为六种层次的IT实体(IT Entity),从低到高以次是 网络设备、主机、进程、计算服务、应用服务和业务系统。以下对各个实体进行具体说明1、网络设备(Networks Device,简称为 N)是指串接在IT网络环境的物理设备,这些物理设备的集合构成了承载IT业务实 体间信息交互通信环境。它包括传统意义上的网络物理设备,如二、三层交换机、路由器、硬 件防火墙等;同时也包括了其他串接在IT网络中的非传统意义上的物理设备,如串接在网 络中4层交换机、WEB应用硬件防火墙、用户上网行为控制硬件设备等。串接在IT网络中 的物理设备是指连接到IT网络环境中的设备,同时它本身在IT环境中还起到了物理上互 连其他物理设备的作用,即它的通断将影响到IT网本文档来自技高网
...

【技术保护点】
一种事件分析方法,其特征在于,包括:A、采集IT系统中的所有故障事件,形成第一事件集合;B、根据预设的IT系统中各个IT实体的关系,对于所述第一事件集合中的每个故障事件,找出其引发的故障事件,形成第二事件集合;C、判断所述第一事件集合中的故障事件按是否出现在所述第二事件集合中,提取未出现在第二事件集合中的故障事件,形成根源故障事件集合。

【技术特征摘要】
1.一种事件分析方法,其特征在于,包括A、采集IT系统中的所有故障事件,形成第一事件集合;B、根据预设的IT系统中各个IT实体的关系,对于所述第一事件集合中的每个故障事 件,找出其引发的故障事件,形成第二事件集合;C、判断所述第一事件集合中的故障事件按是否出现在所述第二事件集合中,提取未出 现在第二事件集合中的故障事件,形成根源故障事件集合。2.根据权利要求1所述的事件分析方法,其特征在于,所述IT系统中的IT实体包括 网络设备、主机、进程、计算服务、应用服务和业务服务;所述各个IT实体之间的关系包括 各个实体间的连接关系、承载关系和依赖关系。3.根据权利要求2所述的事件分析方法,其特征在于,所述连接关系包括网络设备中子节点和父节点之间的连接关系,以及主机和网络设 备之间的连接关系;所述承载关系为主机对进程的承载关系;所述依赖关系包括计算服务对进程的依赖关系、应用服务对计算服务、业务系统对应 用服务的依赖关系以及业务系统对业务系统的依赖关系。4.根据权利要求1所述的事件分析方法,其特征在于,所述步骤A中还包括将所述所 有故障事件按照事件发生的IT实体与根节点的距离由近及远进行排序。5.根据权利要求1所述的事件分析方法,其特征在于,所述步骤C之后还包括分析所述 根源故障事件对所述IT实体的健康状态的影响,包括以下步骤D、对于所述根源事件集合中的各个根源故障事件,查找受其影响的IT实体;E、计算所述各个根源故障事件对所述IT实体的健康状态的影响值;F、将对于同一个IT实体的多个健康影响值进行加权,得到每个IT实体的健康状态。6.根据权利要求4所述的事件分析方法,其特征在于,所述步骤D中还包括将所述 根源故障事件中的根源故障事件按照事件发生的IT实体与根节点的距离由近及远进行排 序。7.根据权利要求4所述的事件分析方法,其特征在于,所述步骤E中,所述健康影响值 为&(111) = λ XIm+δ,其中m为根源故障事件,Im为所述故障事件的影响因子,λ为影响 因子的校正系数、δ为校正参数。8.根据权利要求7所述的事件分析方法,其特征在于,所述步骤F中将对于同一个IT 实体的多个健康影响值进行加权的操作具体包括对于包含多个部件,多个部件共同完成一个任务的IT实体,说9.根据权利要求2所述的事件分析方...

【专利技术属性】
技术研发人员:高翔侯春森叶剑飞张春段森石正贵丁子哲
申请(专利权)人:中国移动通信集团公司
类型:发明
国别省市:11[中国|北京]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1