【技术实现步骤摘要】
一种基于分布式结构的应用运行状态分析方法及系统
[0001]本申请涉及应用系统运行状态显示及异常处置领域,特别是涉及一种应用及其所在主机
(
网络节点
)
的运行状态分析及异常处置方法
。
技术介绍
[0002]随着信息化和智能化技术的发展和广泛应用,各类业务应用
、
服务的数量和种类越来越庞大,业务流程
/
逻辑和业务关系也越来越复杂,信息交互也越来越频繁,对各种应用
、
服务的状态如何进行有效的监控和管理,是保证应用系统稳定可靠运行的关键之所在
。
运维人员需要掌握应用系统内各类计算节点
、
各类软件的运行状态,并在出现异常情况时,及时进行处置,才能避免应用系统运行出现问题
。
在大型应用系统体系中,由于计算节点
、
应用软件繁多,必须采用自动化的分析和处置工具来辅助运维人员对系统运行状态进行管理
。
[0003]在现有技术中,通常通过网管系统代理的心跳机制以及采集系统资源利用率来探测计算节点的运行状态,异常时进而触发告警,这种方式的缺陷是只能探测到由于主机或网络故障引发的异常,而对于应用自身的故障甚至应用崩溃导致的异常,通常不能进行有效地告警,不能实现对应用系统的各个应用
、
主机的状态进行全方位的分析
、
展现;而且,目前需要由人工预先设定告警阈值,通过判断采集或测量的数值是否超出人工预先设定的告警阈值,来确定是 ...
【技术保护点】
【技术特征摘要】
1.
一种基于分布式结构的应用运行状态分析方法,其特征在于,包括:
1)
通过部署在各个网络节点上的应用运行代理,实时采集多种监测信息;所述多种监测信息包括:系统资源利用率信息
、
应用崩溃信息
、
应用心跳信息和应用日志信息;
2)
对所述应用运行代理上传的监测信息添加数据来源信息后,进行解析
、
汇聚入库;
3)
对入库的监测信息进行分析处理,包括:对于系统资源利用率信息
、
应用心跳信息
、
应用日志信息,分别采用阈值判断的方式确定是否触发告警;其中,系统资源利用率信息
、
应用日志信息对应的告警阈值,是基于故障历史及处置数据库,相应分别按照系统资源使用类型
、
应用日志类型进行告警策略训练,通过孤立森林模型排除异常点
、
通过决策树模型生成的动态输入的阈值;对于应用崩溃信息,则直接触发告警;当前周期内,所述多种监测信息均无异常的网络节点,显示为运行正常;对于有触发告警的网络节点,生成相应的异常告警列表;
4)
针对异常告警列表指示的故障,在动态更新的故障自动化处置策略库中进行策略匹配,生成并下发处置指令,通过相应的应用运行代理执行所述处置指令;若应用运行代理先接收到来自运维人员的处置指令,则直接执行该来自运维人员的处置指令;
5)
响应于运维人员对已执行的处置指令的确认操作,将确认后的处置指令存入所述故障历史及处置数据库,触发所述告警策略训练自学习以及所述故障自动化处置策略库自学习
。2.
根据权利要求1所述的基于分布式结构的应用运行状态分析方法,其特征在于,所述系统资源利用率信息包括:
cpu
使用率
、
内存使用率和硬盘使用率
。3.
根据权利要求1所述的基于分布式结构的应用运行状态分析方法,其特征在于,所述应用崩溃信息包括:崩溃的应用名称
、
应用重要等级
、
进程信息
、
应用日志尾段
。4.
根据权利要求1所述的基于分布式结构的应用运行状态分析方法,其特征在于,所述应用心跳信息包括:应用名称
、
应用重要等级和心跳时间戳
。5.
根据权利要求1所述的基于分布式结构的应用运行状态分析方法,其特征在于,所述应用日志信息包括:应用名称
、
应用重要等级
、
应用日志级别和日志信息
。6.
根据权利要求1所述的基于分布式结构的应用运行状态分析方法,其特征在于,步骤
2)
中,对所述应用运行代理上传的监测信息添加数据来源信息后,还根据监测信息类型进行入库优先级判定,按照优先级依次解析
、
汇聚入库;其中,应用心跳信息
、
应用崩溃信息的优先级相对更高,系统资源利用率次之,最后是应用日志信息
。7.
根据权利要求1所述的基于分布式结构的应用运行状态分析方法,其特征在于,在步骤
3)
之前,还根据网络节点的设备类型
...
【专利技术属性】
技术研发人员:刘巍,陈霄,张宇,黄婧,夏淋淋,
申请(专利权)人:中国人民解放军军事科学院战争研究院,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。