一种基于分布式结构的应用运行状态分析方法及系统技术方案

技术编号:39746764 阅读:9 留言:0更新日期:2023-12-17 23:45
本申请公开了一种基于分布式结构的应用运行状态分析方法及系统,以解决现有技术无法对应用系统的异常进行全面

【技术实现步骤摘要】
一种基于分布式结构的应用运行状态分析方法及系统


[0001]本申请涉及应用系统运行状态显示及异常处置领域,特别是涉及一种应用及其所在主机
(
网络节点
)
的运行状态分析及异常处置方法


技术介绍

[0002]随着信息化和智能化技术的发展和广泛应用,各类业务应用

服务的数量和种类越来越庞大,业务流程
/
逻辑和业务关系也越来越复杂,信息交互也越来越频繁,对各种应用

服务的状态如何进行有效的监控和管理,是保证应用系统稳定可靠运行的关键之所在

运维人员需要掌握应用系统内各类计算节点

各类软件的运行状态,并在出现异常情况时,及时进行处置,才能避免应用系统运行出现问题

在大型应用系统体系中,由于计算节点

应用软件繁多,必须采用自动化的分析和处置工具来辅助运维人员对系统运行状态进行管理

[0003]在现有技术中,通常通过网管系统代理的心跳机制以及采集系统资源利用率来探测计算节点的运行状态,异常时进而触发告警,这种方式的缺陷是只能探测到由于主机或网络故障引发的异常,而对于应用自身的故障甚至应用崩溃导致的异常,通常不能进行有效地告警,不能实现对应用系统的各个应用

主机的状态进行全方位的分析

展现;而且,目前需要由人工预先设定告警阈值,通过判断采集或测量的数值是否超出人工预先设定的告警阈值,来确定是否触发告警

[0004]另外,现有的技术方法中,只能够对异常情况进行告警,不能进行自动化处置,处置完全依赖于运维人员在接收到告警之后的手动操作,缺乏可以进行自行处置情形下的自动化恢复机制


技术实现思路

[0005]本申请提供一种基于分布式结构的应用运行状态分析方法及系统,以解决现有技术无法实现对应用系统异常进行全面

有效地告警,以及依赖人工操作等问题

[0006]第一方面,一种基于分布式结构的应用运行状态分析方法,包括:
[0007]1)
通过部署在各个网络节点上的应用运行代理,实时采集多种监测信息;所述多种监测信息包括:系统资源利用率信息

应用崩溃信息

应用心跳信息和应用日志信息;
[0008]2)
对所述应用运行代理上传的监测信息添加数据来源信息后,进行解析

汇聚入库;
[0009]3)
对入库的监测信息进行分析处理,包括:
[0010]对于系统资源利用率信息

应用心跳信息

应用日志信息,分别采用阈值判断的方式确定是否触发告警;其中,系统资源利用率信息

应用日志信息对应的告警阈值,是基于故障历史及处置数据库,相应分别按照系统资源使用类型

应用日志类型进行告警策略训练,通过孤立森林模型排除异常点

通过决策树模型生成的动态输入的阈值;
[0011]对于应用崩溃信息,则直接触发告警;
[0012]当前周期内,所述多种监测信息均无异常的网络节点,显示为运行正常;对于有触发告警的网络节点,生成相应的异常告警列表;
[0013]4)
针对异常告警列表指示的故障,在动态更新的故障自动化处置策略库中进行策略匹配,生成并下发处置指令,通过相应的应用运行代理执行所述处置指令;若应用运行代理先接收到来自运维人员的处置指令,则直接执行该来自运维人员的处置指令;
[0014]5)
响应于运维人员对已执行的处置指令的确认操作,将确认后的处置指令存入所述故障历史及处置数据库,触发所述告警策略训练自学习以及所述故障自动化处置策略库自学习

[0015]可选地,所述系统资源利用率信息包括:
cpu
使用率

内存使用率和硬盘使用率

[0016]可选地,所述应用崩溃信息包括:崩溃的应用名称

应用重要等级

进程信息

应用日志尾段

[0017]可选地,所述应用心跳信息包括:应用名称

应用重要等级和心跳时间戳

[0018]可选地,所述应用日志信息包括:应用名称

应用重要等级

应用日志级别和日志信息

[0019]可选地,以上步骤
2)
中,对所述应用运行代理上传的监测信息添加数据来源信息后,还根据监测信息类型进行入库优先级判定,按照优先级依次解析

汇聚入库;其中,应用心跳信息

应用崩溃信息的优先级相对更高,系统资源利用率次之,最后是应用日志信息

[0020]可选地,在以上步骤
3)
之前,还根据网络节点的设备类型

应用的重要等级

监测信息的类型这三个属性进行数据分析通道的优先级判定,以确保重要设备

重要类型的信息能够被优先分析

处理;具体优先级判定策略如下:
[0021]a、
服务器设备上

应用重要等级高的数据以及应用重要等级低

但信息类型是应用心跳或崩溃类型的信息,进入服务器高优先级分析通道,其余的进入服务器低优先级分析通道

[0022]b、
终端机设备上

应用重要等级高的数据以及应用重要等级低

但信息类型是应用心跳或崩溃类型的信息,进入终端机高优先级分析通道,其余的进入终端机低优先级分析通道

[0023]可选地,以上步骤
3)
具体包括:
[0024]3.1)
当入库的监测信息类型为应用心跳信息,计算出当前心跳与上一次心跳的间隔时间,判断其是否超出预先设定的心跳告警阈值,如果超出心跳告警阈值,则触发致命异常告警;否则,判定为心跳正常,继续检验其他信息;
[0025]3.2)
当入库的监测信息类型为系统资源利用率信息,通过与动态输入的第一阈值进行比较判断确定是否异常,对于异常情况,通过查询历史资源利用率信息,统计异常持续时间,如果超过设定时间,则触发普通异常告警;否则,判定为系统资源利用率正常,继续检验其他信息;
[0026]3.3)
当入库的监测信息类型为应用日志信息,根据日志级别进行判定,如果没有
ERROR
级别的日志,或者虽然有
ERROR
级别的日志,但追溯历史日志信息,统计得到设定周期内
ERROR
日志数量未超过动态输入的第二阈值,则判定为应用日志本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种基于分布式结构的应用运行状态分析方法,其特征在于,包括:
1)
通过部署在各个网络节点上的应用运行代理,实时采集多种监测信息;所述多种监测信息包括:系统资源利用率信息

应用崩溃信息

应用心跳信息和应用日志信息;
2)
对所述应用运行代理上传的监测信息添加数据来源信息后,进行解析

汇聚入库;
3)
对入库的监测信息进行分析处理,包括:对于系统资源利用率信息

应用心跳信息

应用日志信息,分别采用阈值判断的方式确定是否触发告警;其中,系统资源利用率信息

应用日志信息对应的告警阈值,是基于故障历史及处置数据库,相应分别按照系统资源使用类型

应用日志类型进行告警策略训练,通过孤立森林模型排除异常点

通过决策树模型生成的动态输入的阈值;对于应用崩溃信息,则直接触发告警;当前周期内,所述多种监测信息均无异常的网络节点,显示为运行正常;对于有触发告警的网络节点,生成相应的异常告警列表;
4)
针对异常告警列表指示的故障,在动态更新的故障自动化处置策略库中进行策略匹配,生成并下发处置指令,通过相应的应用运行代理执行所述处置指令;若应用运行代理先接收到来自运维人员的处置指令,则直接执行该来自运维人员的处置指令;
5)
响应于运维人员对已执行的处置指令的确认操作,将确认后的处置指令存入所述故障历史及处置数据库,触发所述告警策略训练自学习以及所述故障自动化处置策略库自学习
。2.
根据权利要求1所述的基于分布式结构的应用运行状态分析方法,其特征在于,所述系统资源利用率信息包括:
cpu
使用率

内存使用率和硬盘使用率
。3.
根据权利要求1所述的基于分布式结构的应用运行状态分析方法,其特征在于,所述应用崩溃信息包括:崩溃的应用名称

应用重要等级

进程信息

应用日志尾段
。4.
根据权利要求1所述的基于分布式结构的应用运行状态分析方法,其特征在于,所述应用心跳信息包括:应用名称

应用重要等级和心跳时间戳
。5.
根据权利要求1所述的基于分布式结构的应用运行状态分析方法,其特征在于,所述应用日志信息包括:应用名称

应用重要等级

应用日志级别和日志信息
。6.
根据权利要求1所述的基于分布式结构的应用运行状态分析方法,其特征在于,步骤
2)
中,对所述应用运行代理上传的监测信息添加数据来源信息后,还根据监测信息类型进行入库优先级判定,按照优先级依次解析

汇聚入库;其中,应用心跳信息

应用崩溃信息的优先级相对更高,系统资源利用率次之,最后是应用日志信息
。7.
根据权利要求1所述的基于分布式结构的应用运行状态分析方法,其特征在于,在步骤
3)
之前,还根据网络节点的设备类型
...

【专利技术属性】
技术研发人员:刘巍陈霄张宇黄婧夏淋淋
申请(专利权)人:中国人民解放军军事科学院战争研究院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1