分布式系统监控系统及方法技术方案

技术编号:20925892 阅读:38 留言:0更新日期:2019-04-20 11:46
本公开提供了一种分布式系统监控系统及方法,所述分布式系统监控系统设计及理论完整,系统结构简单,可操作性强,针对所需要采集的信息的标准化方面进行明确定义,落地实施有较大借鉴意义,且更有利于后期问题定位及信息的多维度查询;运用实时计算对所述分布式系统中的监控数据的监控指标进行计算,并预先根据所述监控指标对监控指标的计算结果对处于异常和正常的临界时或所述结果异常时的模型进行建模,得到判断所述监控指标的计算结果为正常或异常的规则,提高了告警质量、准确度及发现问题的效率,建模引入人工智能技术,进一步提高模型的泛化能力及告警准确度。最终提高了系统的稳定性,增强系统的运维能力,大幅降低运维成本。

Distributed System Monitoring System and Method

This disclosure provides a distributed system monitoring system and method. The design and theory of the distributed system monitoring system are complete, the system structure is simple, and the operability is strong. The standardization of the information to be collected is clearly defined, and the landing implementation is of great reference significance, and is more conducive to the later problem location and multi-dimensional information query. The monitoring indicators of the monitoring data in the distributed system are calculated, and the models at abnormal and normal critical or abnormal results are modeled according to the calculation results of the monitoring indicators in advance. The rules for judging the calculation results of the monitoring indicators are normal or abnormal are obtained, which improves the alarm quality, accuracy and efficiency of finding problems. Artificial intelligence technology is introduced into the modeling to further improve the generalization ability and alarm accuracy of the model. Finally, it improves the stability of the system, enhances the operation and maintenance ability of the system, and greatly reduces the operation and maintenance costs.

【技术实现步骤摘要】
分布式系统监控系统及方法
本公开涉及计算机应用
,尤其是涉及一种分布式系统监控系统及方法。
技术介绍
随着计算机技术的快速发展,各种业务不断扩展,业务架构逐渐由集中式向分布式演进,分布式系统的应用越来越广泛。但在分布式系统中,由于业务量比较大,需要搭建很多台业务终端才能支持业务,在业务终端的数量比较多的情况下,监控该分布式系统的运行情况就会变得很复杂。使得高效定位错误异常根因和找出性能瓶颈变得越来越困难。现今,分布式架构的业务系统在企业、行业的日常管理及业务运作中扮演着越来越重要的角色。行业企业拥有大规模的、组织结构复杂的、数量繁多的分布式业务系统已成为现实,分布式架构的业务系统可以较好的较灵活的支撑庞大的业务模式,并将大量工作人员从原先重复的体力劳动中解脱出来,提高劳动生产效率。但分布式的业务系统由于信息的粒度细化,信息的复杂度极大,信息的数量惊人,使得对分布式的业务系统的整体监控以及异常定位十分困难,不利于维护工作的展开。现有技术中虽然有一些关于分布式系统监控系统相关的开源方案,但存在系统复杂,不容易落地;系统设计及理论不完整,可操作性不强的问题。专利技术内容本公开的目的在本文档来自技高网...

【技术保护点】
1.一种分布式系统监控系统,其特征在于,包括:数据采集模块,用于获取所述分布式系统中各业务终端的业务数据,并将获取到的所述业务数据按照预定义的数据格式进行标准变化;指标计算及存储模块,用于将所述标准变化后的所述业务数据进行存储,对所述存储的所述业务数据进行监控指标的实时计算,并将所述实时计算得到的结果进行存储;定性模块,用于对所述结果处于异常和正常的临界时或所述结果异常时的模型进行建模,根据所述建模得到的规则判断所述实时计算得到的结果正常或异常;处理模块,用于在所述结果异常的情况下,发出告警信息通知用户处理所述异常以及查询与所述异常相关的信息和定位所述异常产生的原因。

【技术特征摘要】
1.一种分布式系统监控系统,其特征在于,包括:数据采集模块,用于获取所述分布式系统中各业务终端的业务数据,并将获取到的所述业务数据按照预定义的数据格式进行标准变化;指标计算及存储模块,用于将所述标准变化后的所述业务数据进行存储,对所述存储的所述业务数据进行监控指标的实时计算,并将所述实时计算得到的结果进行存储;定性模块,用于对所述结果处于异常和正常的临界时或所述结果异常时的模型进行建模,根据所述建模得到的规则判断所述实时计算得到的结果正常或异常;处理模块,用于在所述结果异常的情况下,发出告警信息通知用户处理所述异常以及查询与所述异常相关的信息和定位所述异常产生的原因。2.如权利要求1所述的分布式系统监控系统,其特征在于,所述对所述业务数据进行监控指标的实时计算,并将所述实时计算得到的结果进行存储,包括:对所述业务数据的监控指标中监控项进行监控项数值的实时计算,并将所述实时计算得到的监控项数值进行存储。3.如权利要求2所述的分布式系统监控系统,其特征在于,所述根据所述建模得到的规则包括根据所述监控指标设置的用于判断所述监控项数值正常或异常的一系列规则或通过人工智能技术构建的监控指标异常的模型规则库中的规则。4.如权利要求2所述的分布式系统监控系统,其特征在于,判断所述实时计算得到的结果正常或异常包括:判断所述监控指标中的监控项的监控项数值正常或异常。5.如权利要求4所述的分布式系统监控系统,其特征在于,所述处理模块包括告警单元和信息查询分析单元;响应于所述定性模块判断所述监控项数值为异常执行发送告警事件至所述告警单元以及发送告警事件关联信息至所述信息查询分析单元。6.如权利要求5所述的分布式系统监控系统,其特征在于,所述发送告警事件关联信息至所述信息查询分析单元包括:响应于所述监控项数值为异常所述指标计算及存储模块执行将与所述告警事件相关联的信息同步更新到所述信息查询分析单元。7.如权利要求6所述的分布式系统监控系统,其特征在于,所述与所述异常相关的信息包括所述告警事件关联信息,所述告警事件关联信息包括所述监控项数值异常的信息和所述异常发生时的原始监控信息。8.如权利要求5或7所述的分布式系统监...

【专利技术属性】
技术研发人员:段帅良
申请(专利权)人:鑫涌算力信息科技上海有限公司
类型:发明
国别省市:上海,31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1