【技术实现步骤摘要】
基础设施故障定位方法、装置及相关设备
[0001]本专利技术涉及计算机
,尤其涉及一种基础设施故障定位方法、装置及相关设备。
技术介绍
[0002]随着银行业务的高速发展,各种业务场景快速迭代,新兴技术在促进业务发展的同时又极大地增加了IT系统的复杂度,支撑应用系统正常运行的软硬件基础设施也随之扩大规模,在复杂系统中,运维对象涉及应用服务、中间件、主机、网络、存储、计算、虚拟化等多个层级,包含调用、依赖关系的多个运维对象。当系统存在异常或故障时,相关基础设施的复杂性导致每天产生大量的告警,一个节点出现故障,极易引发告警风暴,波及更广的范围,导致定位问题费时费力。
[0003]在相关技术中,依据已有的多维度监控和告警数据,现有的故障定位方式有以下几种:
[0004](1)由人工借助工具确定故障。以人工分析为主,工具收集数据为辅,一般先从各种不同的数据维度进行汇聚分析,记录业务系统运行时的各种中间信息的日志数据,再进行人工分析,逐步排查定位,最终给出结论。但是,由于引起故障的原因复杂,导致人工排查业务系统故 ...
【技术保护点】
【技术特征摘要】
1.一种基础设施故障定位方法,其特征在于,所述方法包括:获取配置项和点式关系数据、历史告警数据以及实时告警数据;基于运维知识图谱技术与所述配置项和点式关系数据,构建系统全景关系,所述系统全景关系包括多个基础设施运维对象,每一所述基础设施运维对象为一个节点;基于所述系统全景关系和所述历史告警数据,对所述实时告警数据进行告警收敛,得到所述实时告警数据的收敛结果;基于所述实时告警数据的收敛结果和历史数据统计方法,检测所述实时告警数据中的业务黄金指标;将各个所述业务黄金指标对应的告警对象输入至所述系统全景关系进行基础设施运维对象的异常检测,输出各个所述基础设施运维对象的实时告警情况;基于所述系统全景关系和各个所述基础设施运维对象的实时告警情况,对各个所述基础设施运维对象进行故障定位。2.根据权利要求1所述的方法,其特征在于,所述基于运维知识图谱技术与所述配置项和点式关系数据,构建系统全景关系,包括:根据数据中心系统技术架构、物理和逻辑部署以及运维业务经验总结,建立以金融行业信息系统为中心的全景关系模型;基于所述全景关系模型,构建并展示所述金融行业信息系统涉及的重要领域的运维对象及所述运维对象之间的关联关系,得到初始系统全景关系;处理所述配置项和点式关系数据,得到处理后的配置项和点式关系数据;基于所述处理后的配置项和点式关系数据,初始化所述初始系统全景关系,得到系统全景关系。3.根据权利要求2所述的方法,其特征在于,所述处理所述配置项和点式关系数据,得到处理后的配置项和点式关系数据,包括:从所述配置项和点式关系数据中抽取图谱要素,所述图谱要素至少包括实体、属性和关系;清洗所述图谱要素,得到已清洗图谱要素,并将所述已清洗图谱要素存储于预先建立的图数据库中;对所述已清洗图谱要素进行关系计算,得到各个实体对象模型之间的关联关系;相应的,所述基于所述处理后的配置项和点式关系数据,初始化所述初始系统全景关系,得到系统全景关系,包括:按照各个所述实体对象模型之间的关联关系,将各个所述运维对象进行关联,得到各个所述运维对象的关联结果;基于各个所述运维对象的关联结果,初始化所述初始系统全景关系,得到系统全景关系。4.根据权利要求1所述的方法,其特征在于,所述基于所述系统全景关系和所述历史告警数据,对所述实时告警数据进行告警收敛,得到所述实时告警数据的收敛结果,包括:确定所述历史告警数据中的各个告警信息和各个监控项信息;基于所述系统全景关系的各个节点,对各个所述告警信息和各个所述监控项信息进行分类,得到各个所述历史告警数据对应的告警分类;
基于所述告警分类,实时获取预先设置的时间窗口内的实时告警数据,并确定所述实时告警数据的告警字段及所述告警字段对应的告警类型;查询所述系统全景关系的各个节点,将各个所述告警类型收敛至所述系统全景关系的各个所述节点。5.根据权利要求4所述的方法,其特征在于,所述基于所述系统全景关系的各个节点,对各个所述告警信息和各个所述监控项信息进行分类,得到各个所述历史告警数据对应的告警分类,包括:确定各个所述告警信息和各个所述监控项信息中属于业界或产商提供的监控指标;针对所述监控指标,结合运维监控经验总结,将所述系统全景关系的各个节点反映自身性能或状态的可告警指标与预先...
【专利技术属性】
技术研发人员:韩久学,李世宁,张明,金星,韩广乐,林鸿挺,
申请(专利权)人:中国建设银行股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。