一种LINUX系统意外重启的分析方法技术方案

技术编号:14450717 阅读:96 留言:0更新日期:2017-01-18 12:20
本发明专利技术公开一种LINUX系统意外重启的分析方法,涉及计算机操作系统技术领域,通过识别系统环境,查看分析系统日志,分析vmcore,检查硬件故障来定位Linux系统意外重启的具体原因,确定是用户行为导致的,还是软件层面的问题,亦或是硬件故障造成的。本发明专利技术为系统管理员、售后服务人员分析Linux系统意外重启提供指导,帮助用户快速准确的定位引起系统重启的根本原因,从而解决、彻底规避此类问题的发生,提高了服务器系统的安全性和稳定性。

【技术实现步骤摘要】

本专利技术涉及计算机操作系统
,具体的说是一种LINUX系统意外重启的分析方法。
技术介绍
通常,在使用电脑的过程中会遇到各种各样的故障,机器意外重启就是其中之一。所谓意外重启,就是由于非操作员本身意愿而发生的电脑重新启动现象,引起这一故障的因素很多,如供电、资源冲突等。系统意外重启的原因主要包括,硬件质量、供电方面(欠压,过载,波动)、震动因素等硬件原因,以及系统不完善、DirectX因素、病毒等软件原因,还包括其他比如系统“瓶颈”、外界灰尘、散热不良等原因。系统意外重启,是在服务器测试、生产环境中的一个常见的严重问题,尤其是对于生产环境,往往给客户造成重大损失。在发生系统意外重启后,如何快速准确的定位引起系统重启的根本原因,从而解决、彻底规避此类问题的发生,是客户、软硬件提供商、集成商最为关注的问题。
技术实现思路
本专利技术针对目前技术发展的需求和不足之处,提供一种ARM平台一种LINUX系统意外重启的分析方法。本专利技术所述一种LINUX系统意外重启的分析方法,解决上述技术问题采用的技术方案如下:所述一种LINUX系统意外重启的分析方法,通过识别环境,查看日志,分析vmcore,检查硬件故障来定位Linux系统意外重启的具体原因,确定是用户行为导致的,还是软件层面的问题,亦或是硬件故障造成的;其具体包括如下步骤:1)首先识别系统环境,2)分析系统日志,3)通过vmcore分析原因,4)检查硬件故障。优选的,所述识别系统环境这一步骤主要包括:(1)检查问题机器是否是高可用集群中的一个节点,服务器是否配置了健康检查软件,以及服务器是否连接了BMC;并通过查看集群日志和硬件日志,判断否是由于集群软件调用:#echob>/proc/sysrq-trigger或发送IPMI信号给BMC触发了重启操作,进而找到错误原因;(2)检查系统软件情况,有哪些软件在执行什么任务,检查系统的负载和性能情况,并利用sysstat包提供的systemActivityReporter工具,判断是否由于CPU、内存、网络、磁盘负载过高导致系统重启。优选的,所述分析系统日志这一步骤主要包括:(1)首先找到系统重启的位置,检查/var/log/messages,搜索关键字“Commandline”,确定日志中记录的发生自动重启的位置及时间点;(2)从找到的Kernelcommandline往前查找进一步确定原因。优选的,所述通过vmcore分析原因这一步骤主要包括:首先检查是否配置了KernelPanic,若没有配置kdump,进行kdump的配置;在系统再次发生重启后,生成vmcore文件,通过kerneloopsanalyzer工具对文件进行分析,或者通过命令分析原因。优选的,所述检查硬件故障这一步骤主要包括:使用硬件诊断工具进行全面的硬件诊断。本专利技术所述一种LINUX系统意外重启的分析方法与现有技术相比具有的有益效果是:本专利技术通过识别系统环境,分析系统日志,分析VMCore,检查硬件故障,定位Linux系统意外重启的具体原因,为系统管理员、售后服务人员分析Linux系统意外重启提供方法指导,使其快速准确的找到导致Linux系统意外重启的根本原因,并加以解决和规避,提高了服务器系统的安全性和稳定性。具体实施方式为使本专利技术的目的、技术方案和优点更加清楚明白,以下结合具体实施例,对本专利技术所述一种LINUX系统意外重启的分析方法进一步详细说明。本专利技术所述一种LINUX系统意外重启的分析方法,通过识别环境,查看日志,分析vmcore,检查硬件故障来定位Linux系统意外重启的具体原因,确定是用户行为导致的,还是软件层面的问题,亦或是硬件故障造成的。本专利技术为系统管理员、售后服务人员分析Linux系统意外重启提供指导,帮助用户快速准确的定位引起系统重启的根本原因,从而解决、彻底规避此类问题的发生。实施例:本实施例一种LINUX系统意外重启的分析方法,针对部署了RedHatEnterpriseLinux,SUSELinuxEnterpriseServer、Ubuntu、CentOS等Linux系统的服务器,提供了在发生意外重启后的分析查找根本原因的步骤及方法,使得相关人员能够快速准确的定位问题,找到造成系统意外重启的根本原因,从而解决、规避再次发生意外重启问题。本实施例中,将造成系统意外重启的原因分为三类,主要包括:(一)、用户行为,比如用户关机命令、高可用fenceevent等;(二)软件错误,比如系统发生KernelPanic,NMI等;(三)硬件故障,比如供电故障,磁盘或内存损坏等。为了判断系统意外重启,具体是由于用户行为、软件错误还是硬件故障导致的,本实施例所述LINUX系统意外重启的分析方法,主要包括如下步骤:1)首先识别系统环境,2)分析系统日志,3)通过vmcore分析原因,4)排除以上故障后,检查硬件故障;通过以上步骤定位Linux系统意外重启的具体原因,确定是用户行为导致的,还是软件层面的问题,亦或是硬件故障造成的。所述识别系统环境这一步骤主要包括:(1)检查问题机器是否是高可用集群中的一个节点,服务器是否配置了健康检查软件,以及服务器是否连接了BMC;并通过查看集群日志和硬件日志,判断否是由于集群软件调用:#echob>/proc/sysrq-trigger或发送IPMI信号给BMC触发了重启操作,进而找到错误原因;很多集群软件,当检测到集群中一个节点发生错误/hang/不响应时会调用#echob>/proc/sysrq-trigger来重启机器;所以需要检查是否配置了sysrq键,#cat/proc/sys/kernel/sysrq值为1时,按下Alt+PrintScreen+b组合键或者#echob>/proc/sysrq-trigger都会导致重启;因此检查是否有按下组合键或有类似的集群软件做了fencing;有一些软件感知到性能问题时,就会发送IPMI信号给BMC来重启机器,比如hp-healthpackage里面的AutomatedSystemRecovery(ASR);有一些集群软件,比如RHELHA,也会使用IPMI信号去fence不响应的节点,所以需要检查相关的硬件log和集群log来进一步查找原因;(2)检查系统软件情况,有哪些软件在执行什么任务,检查系统的负载和性能情况,并利用sysstat包提供的systemActivityReporter工具,可以查询到CPU、内存、网络、磁盘、IO的分析数据,判断是否由于CPU、内存、网络、磁盘负载过高导致系统重启。当以上分析不能确定原因时,通过查看系统日志,查看/var/log/messages可获知大部分的softwarefaults(软件故障)。所述分析系统日志这一步骤主要包括:(1)首先找到系统重启的位置,检查/var/log/messages,搜索关键字“Commandline”,确定日志中记录的发生自动重启的位置及时间点;比如找到如下内容,说明系统在9月29日04:18:15发生重启Sep2904:18:15<hostname>kernel:Commandlin本文档来自技高网...

【技术保护点】
一种LINUX系统意外重启的分析方法,其特征在于,通过识别环境,查看日志,分析vmcore,检查硬件故障来定位Linux系统意外重启的具体原因,确定是用户行为导致的,还是软件层面的问题,亦或是硬件故障造成的;其具体包括如下步骤:1)首先识别系统环境,2)分析系统日志,3)通过vmcore分析原因,4)检查硬件故障。

【技术特征摘要】
1.一种LINUX系统意外重启的分析方法,其特征在于,通过识别环境,查看日志,分析vmcore,检查硬件故障来定位Linux系统意外重启的具体原因,确定是用户行为导致的,还是软件层面的问题,亦或是硬件故障造成的;其具体包括如下步骤:1)首先识别系统环境,2)分析系统日志,3)通过vmcore分析原因,4)检查硬件故障。2.根据权利要求1所述一种LINUX系统意外重启的分析方法,其特征在于,所述识别系统环境这一步骤主要包括:(1)检查问题机器是否是高可用集群中的一个节点,服务器是否配置了健康检查软件,以及服务器是否连接了BMC;并通过查看集群日志和硬件日志,判断否是由于集群软件调用:#echob>/proc/sysrq-trigger或发送IPMI信号给BMC触发了重启操作,进而找到错误原因;(2)检查系统软件情况,有哪些软件在执行什么任务,检查系统的负载和性能情况,并利用sysstat包提供的systemActivityReporter工具,...

【专利技术属性】
技术研发人员:张旭芳
申请(专利权)人:浪潮电子信息产业股份有限公司
类型:发明
国别省市:山东;37

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1