计算机IO HUNG事件的预警方法、装置、设备和介质制造方法及图纸

技术编号:27655569 阅读:18 留言:0更新日期:2021-03-12 14:17
本发明专利技术提供一种计算机IO HUNG事件的预警方法、装置、设备和介质,方法包括:在各个虚拟机上部署采集机;采集机定时采集虚拟机上的数据,写入至监控报文文件;若是写盘成功,则发送状态信息报文;否,则不发送;所述状态信息报文包括采集时间;预警机定期检查服务端的报文;并从与当前时间最近的一条报文中读取出其中采集时间,与本机标准时间进行比较,若相差达到设定的偏差值,则进行预警;不但对各类计算机已知的和未知的IO HUNG问题有效,同时适用于部分传统故障,而且还有助于发现诸如定时任务失效、用户密码过期、时钟偏差等操作系统级问题。此外,通过实时采集到的报文数据,可生成客户机的性能报表,用于定期分析。

【技术实现步骤摘要】
计算机IOHUNG事件的预警方法、装置、设备和介质
本专利技术涉及计算机
,特别涉及一种计算机IOHUNG事件的预警方法、装置、设备和介质。
技术介绍
在当今IT科技风起云涌的时代,云计算的大势犹如奔腾咆哮的长江滚滚而来,势不可挡。当前企业各个业务对于IT的需求日益强烈,数据中心不断地集约整合,IT管理者越来越感受到了新型数据中心所带来的运维挑战,特别是日常运维中要面临众多故障。绝大部分故障靠常规的监控系统即可发现,但有一些故障,如IOHUNG导致计算机“失联”事件,却难以及时捕获。IOHUNG是一类极其诡异的故障,是计算机系统监控的一大难题,传统监控(如BMC)根本无能为力。如果说故障处理是系统运维的皇冠,那么IOHUNG事件的预警则是皇冠上的一颗璀璨的明珠。IOHUNG即计算机IO挂起事件,可由诸多复杂因素引起,硬件(硬盘、RAID卡等)或软件(操作系统、数据库等)的BUG均能触发,属于数据中心服务器的一种极端故障。发生这种故障时,该机操作系统层面事实上已停止工作,基本无法登录,但网络层面通过ping该机却是连通的,让传统监控系统产生错觉,还误认为该机是正常的,以致事态扩大,甚至酿成生产事故。2019年3月3日国内某IT巨头的华北云计算数据中心的服务器突发IOHUNG事件,由于一时难以定位故障,影响客户的各类业务若干小时,造成巨大的经济损失和声誉影响。国外的“亚马逊云”近年也发生多次IOHUNG事件,而且这种IOHUNG事件不只发生在大型数据中心,小型数据中心也依然存在,比如我们作为某国有银行的一级分行数据中心有230台PC服务器,每年均会发生3~5起IOHUNG故障,发生概率大约是1.7%。如果是在有上万台甚至几十万台服务器的大型数据中心,那发生该类故障的数量将不容小觑。IOHUNG经常发生在PC服务器上,因为PC服务器的可靠性远远低于小型机。所以在十年前还是小型机唱主角的年代IOHUNG非常罕见。但时过境迁,在云计算时代,随着物美价廉的PC服务器的大规模应用,IOHUNG事件日益凸显,迫使我们不得不认真面对。实际上IOHUNG这种说法也就是近几年才提出的,这是对一种新鲜事物渐进的认识过程。早期发生的计算机“假死”或“失联”,其实均可属于这一类,但那时大家研究不足,还没一个统一的称呼罢了。IOHUNG的有效预警监控属于计算机界的一大难题。那为什么传统监控发现不了IOHUNG故障呢?这里就以世界排名第一的计算机监控软件BMC为例来说明这个原因。BMC监控系统是由部署在客户机的代理程序(PatrolAgent)来自动检查本机状态,如果发现异常主动向服务端(BPPMCentral)发送报警信息,服务端被动得到报警信息。这种报警方式有个必须的前提条件,要求客户机“能”将报警信息发送到服务端,即PatrolAgent要能正常工作。但实际上在发生IOHUNG时计算机往往已丧失发送能力,导致BMC监控系统无法获知IOHUNG故障。如果把传统监控打个比方,可以通过“看病”做个形象比喻:在传统监控体系中,病人(客户端)找医生(服务端)看病,病人要主动将自己得了什么病告诉医生,医生是被动知道的,一旦病人发生很严重的病连话都说不出来时,医生就完全不能知晓病人是什么情况,认为其是正常的。传统的BMC监控有一些不足:一是软件庞大,有若干光盘;二是部署复杂,不但服务端要安装控制台、配置管理、知识库模块、转发服务等,而且客户端要安装680M的软件;三是操作复杂,菜单繁多,不易上手;四是可靠性差,服务端经常出现各种客户端变虚的告警,多是因为客户端patrol用户密码过期所致,此时需在服务端重新配置patrol新密码才可继续监控,而这断档期间就存在监控空白;五是BMC客户端程序消耗系统资源较多,甚至影响客户端其它应用程序的运行;六是BMC软件版权严格,价格不菲。
技术实现思路
本专利技术要解决的技术问题,在于提供一种计算机IOHUNG事件的预警方法、装置、设备和介质,解决了传统监控的不足。第一方面,本专利技术提供了一种计算机IOHUNG事件的预警方法,包括:步骤1、在各个虚拟机上部署采集机;步骤2、采集机定时采集虚拟机上的数据,写入至监控报文文件;步骤3、若是写盘成功,则发送状态信息报文;否,则不发送;所述状态信息报文包括采集时间;步骤4、预警机定期检查服务端的报文;并从与当前时间最近的一条报文中读取出其中采集时间,与本机标准时间进行比较,若相差达到设定的偏差值,则进行预警。进一步地,还包括步骤5、预警机匹配所述虚拟机对应的物理主机,并将预警信息以及状态信息报文存储至数据库。进一步地,所述状态信息报文还包括CPU使用空闲率以及IO等待时间。第二方面,本专利技术提供了一种计算机IOHUNG事件的预警装置,包括:部署模块,在各个虚拟机上部署采集机;采集模块,采集机定时采集虚拟机上的数据,写入至监控报文文件;发送模块,若是写盘成功,则发送状态信息报文;否,则不发送;所述状态信息报文包括采集时间;预警模块,预警机定期检查服务端的报文;并从与当前时间最近的一条报文中读取出其中采集时间,与本机标准时间进行比较,若相差达到设定的偏差值,则进行预警。进一步地,还包括匹配模块,预警机匹配所述虚拟机对应的物理主机,并将预警信息以及状态信息报文存储至数据库。进一步地,所述状态信息报文还包括CPU使用空闲率以及IO等待时间。第三方面,本专利技术提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现第一方面所述的方法。第四方面,本专利技术提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现第一方面所述的方法。本专利技术实施例中提供的一个或多个技术方案,至少具有如下技术效果或优点:本申请实施例提供的方法、装置、设备和介质,作为传统监控的有效补充,解决了传统监控所不能发现的“IOHUNG”事件这一盲区。我们采用该预警模式后,成效显著,每年及时预警多起IOHUNG故障,避免了生产事故发生。如2019年一台浪潮服务器内存问题导致IOHUNG;2020年上半年反洗钱IQ库所在机器RAID卡异常导致IOHUNG;2020年上半年海报屏机器硬盘异常导致IOHUNG。发生IOHUNG事件时,系统均表现为“假死”,看上去似乎正常,实际上已无法工作,计算机处于“失联”状态,而我们部署的各种传统监控均失灵。幸好在这种新预警模式的帮助下,才又快又准地定位故障,及时排除问题,为生产运行的安全稳定提供坚实保障。上述说明仅是本专利技术技术方案的概述,为了能够更清楚了解本专利技术的技术手段,而可依照说明书的内容予以实施,并且为了让本专利技术的上述和其它目的、特征和优点能够更明显易懂,以下特举本专利技术的具体实施方式。附图说明下面参照附图结合实施例对本专利技术作进一步的说明。图1为本专利技术的告警示意图;图2为本专利技术的框架示意图;图3为本专利技术的流程示意图;<本文档来自技高网
...

【技术保护点】
1.一种计算机IO HUNG事件的预警方法,其特征在于:包括:/n步骤1、在各个虚拟机上部署采集机;/n步骤2、采集机定时采集虚拟机上的数据,写入至监控报文文件;/n步骤3、若是写盘成功,则发送状态信息报文;否,则不发送;所述状态信息报文包括采集时间;/n步骤4、预警机定期检查服务端的报文;并从与当前时间最近的一条报文中读取出其中采集时间,与本机标准时间进行比较,若相差达到设定的偏差值,则进行预警。/n

【技术特征摘要】
1.一种计算机IOHUNG事件的预警方法,其特征在于:包括:
步骤1、在各个虚拟机上部署采集机;
步骤2、采集机定时采集虚拟机上的数据,写入至监控报文文件;
步骤3、若是写盘成功,则发送状态信息报文;否,则不发送;所述状态信息报文包括采集时间;
步骤4、预警机定期检查服务端的报文;并从与当前时间最近的一条报文中读取出其中采集时间,与本机标准时间进行比较,若相差达到设定的偏差值,则进行预警。


2.根据权利要求1所述的一种计算机IOHUNG事件的预警方法,其特征在于:还包括步骤5、预警机匹配所述虚拟机对应的物理主机,并将预警信息以及状态信息报文存储至数据库。


3.根据权利要求1所述的一种计算机IOHUNG事件的预警方法,其特征在于:所述状态信息报文还包括CPU使用空闲率以及IO等待时间。


4.一种计算机IOHUNG事件的预警装置,其特征在于:包括:
部署模块,在各个虚拟机上部署采集机;
采集模块,采集机定时采集虚拟机上的数据,写入...

【专利技术属性】
技术研发人员:张松坚陈长钦杨超沈书航
申请(专利权)人:中国农业银行股份有限公司福建省分行
类型:发明
国别省市:福建;35

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1