一种服务器故障收集检测方法、系统、设备及存储介质技术方案

技术编号:38127308 阅读:8 留言:0更新日期:2023-07-08 09:32
本发明专利技术公开了一种服务器故障收集检测方法、系统、设备及存储介质,方法包括获取服务器的每个功能模块的状态数据,每个状态数据皆表征对应功能模块的工作运行状态;对每个状态数据进行分析,以确定每个功能模块的故障情况;当功能模块的故障情况为异常,输出功能模块的故障信息;对每个故障信息进行存储。因此解决了服务器故障收集工作维护性差的问题,任何人员都能操作且操作方便,降低了维护难度;其次实现了服务器故障收集从手动收集转换为自动化收集,对于熟练工程师按照传统手动方法进行操作,整机机箱所有设备进行故障信息收集用时需要数小时,而利用本发明专利技术实施例方法只需数分钟,解决了手动方式浪费大量的时间和人力的问题。题。题。

【技术实现步骤摘要】
一种服务器故障收集检测方法、系统、设备及存储介质


[0001]本专利技术涉及服务器
,尤其是涉及一种服务器故障收集检测方法、系统、设备及存储介质。

技术介绍

[0002]服务器按外形结构的不同将服务器分成塔式、机架式、刀片式服务器三种类型。塔式服务器外形与结构类似于立式桌面电脑主机,主板扩展性较强、插槽数量较多,独立性较强,体积较大。主要用于对放置空间没有要求,并且具有良好扩展性的使用环境中。机架式服务器较塔式服务器节省空间,但性能和可扩展性较差,适合一些业务相对固定的使用领域。刀片服务器具有低功耗、空间小、维护成本低等特点,同时它还继承了传统服务器的一些技术指标,比如热插拔和冗余,这些设计满足了密集计算环境的要求。
[0003]自主可控服务器大多是跟随项目研制,各项目所需求的硬件性能和功能相差小,主要是所需应用场景较大的差别,自主可控刀片服务器由计算机模块、存储模块、电源模块、交换模块、机箱组成,多应用于国防、信息安全、工业控制等领域,是国家信息产业化和智能化的核心逐渐之一,具有超高的运算能力和信息处理能力。如用于测量系统的自主可靠刀片服务器主机由4块计算机模块、4块存储模块、2块双冗余电源模块1块交换模和2个风扇模块,机箱组成;刀片式服务器机箱内插装多个种类的卡式模块,模块种类多样化、测试环节多,故障信息采用人工收集,耗费人力工时。
[0004]由于刀片式服务器机箱内插装多个卡式的服务器单元,每一块"刀片"实际上就是独立系统主板,生产过程中需要对机箱内每块主板都要进行多轮重复性测试,耗费人力工时测试。故障时是通过人工进行故障信息收集后定位问题,浪费大量的时间和人力。

技术实现思路

[0005]本专利技术旨在至少解决现有技术中存在的技术问题之一。为此,本专利技术提出一种服务器故障收集检测方法,解决了当前刀片式服务器通过人工进行故障信息收集和分析,浪费大量的时间和人力的问题。
[0006]本专利技术还提供一种服务器故障收集检测系统、一种服务器故障收集检测设备和一种计算机可读存储介质。
[0007]根据本专利技术的第一方面实施例的服务器故障收集检测方法,包括以下步骤:
[0008]获取服务器的每个功能模块的状态数据,每个所述状态数据皆表征对应所述功能模块的工作运行状态;
[0009]对每个所述状态数据进行分析,以确定每个所述功能模块的故障情况;
[0010]当所述功能模块的故障情况为异常,输出所述功能模块的故障信息;
[0011]对每个所述故障信息进行存储。
[0012]根据本专利技术实施例的服务器故障收集检测方法,至少具有如下有益效果:
[0013]通过对服务器各功能模块的工作运行状态进行实时采集并进行数据分析,从而可
以各功能模块的工作异常情况。因此,利用本专利技术实施例的服务器故障收集检测方法,首先解决了服务器故障收集工作维护性差的问题,任何人员都能操作且操作方便,降低了维护难度;其次实现了服务器故障收集从手动收集转换为自动化收集,对于熟练工程师按照传统手动方法进行操作,整机机箱所有设备进行故障信息收集用时需要数小时,而利用本专利技术实施例方法只需数分钟,因此解决了通过人工进行故障信息收集和分析,其浪费大量的时间和人力的问题。
[0014]根据本专利技术的一些实施例,所述功能模块至少包括存储模块、计算模块、交换模块、电源模块和风扇模块。
[0015]根据本专利技术的一些实施例,所述状态数据至少包括心跳数据、温度数据、电压数据和电流数据。
[0016]根据本专利技术的一些实施例,所述对每个所述状态数据进行分析,以确定每个所述功能模块的故障情况,包括以下步骤:
[0017]根据预先获取的阈值数据,以及每个所述功能模块的心跳数据、温度数据、电压数据和电流数据,确定每个所述功能模块对应的故障情况,其中,所述阈值数据包括与每个所述功能模块的心跳数据、温度数据、电压数据和电流数据对应的心跳阈值、温度阈值、电压阈值和电流阈值。
[0018]根据本专利技术的一些实施例,所述当所述功能模块的故障情况为异常,输出所述功能模块的故障信息,包括以下步骤:
[0019]当所述存储模块的心跳数据、温度数据、电压数据和电流数据中任意一项数据小于对应的阈值数据,输出所述存储模块的故障信息,所述存储模块的故障信息包括所述储存模块运行时的电压信息、电流信息、硬盘容量信息和硬盘状态信息;
[0020]当所述计算模块的心跳数据、温度数据、电压数据和电流数据中任意一项数据小于对应的阈值数据,输出所述计算模块的故障信息,所述计算模块的故障信息包括所述计算模块运行时的电压信息、电流信息、CPU温度信息、系统内核信息和硬件初始化上电信息;
[0021]当所述交换模块的心跳数据、温度数据、电压数据和电流数据中任意一项数据小于对应的阈值数据,输出所述交换模块的故障信息,所述交换模块的故障信息包括所述交换模块运行时的电压信息、电流信息和CPU温度信息;
[0022]当所述电源模块的心跳数据、温度数据、电压数据和电流数据中任意一项数据小于对应的阈值数据,输出所述电源模块的故障信息,所述电源模块的故障信息包括所述电源模块运行时的电压信息、电流信息和中心温度信息;
[0023]当所述风扇模块的心跳数据、温度数据、电压数据和电流数据中任意一项数据小于对应的阈值数据,输出所述风扇模块的故障信息,所述风扇模块的故障信息包括所述风扇模块运行时的电压信息、电流信息、温度信息和风扇转速信息。
[0024]根据本专利技术的第二方面实施例的服务器故障收集检测系统,包括:
[0025]数据采集模块,用于获取服务器的每个功能模块的状态数据,每个所述状态数据皆表征对应所述功能模块的工作运行状态;
[0026]数据分析模块,用于对每个所述状态数据进行分析,以确定每个所述功能模块的故障情况;
[0027]故障信息输出模块,用于当所述功能模块的故障情况为异常,输出所述功能模块
的故障信息;
[0028]数据存储模块,用于对每个所述故障信息进行存储。
[0029]根据本专利技术实施例的服务器故障收集检测系统,至少具有如下有益效果:
[0030]通过对服务器各功能模块的工作运行状态进行实时采集并进行数据分析,从而可以各功能模块的工作异常情况。因此,利用本专利技术实施例的服务器故障收集检测系统,首先解决了服务器故障收集工作维护性差的问题,任何人员都能操作且操作方便,降低了维护难度;其次实现了服务器故障收集从手动收集转换为自动化收集,对于熟练工程师按照传统手动系统进行操作,整机机箱所有设备进行故障信息收集用时需要数小时,而利用本专利技术实施例方法只需数分钟,因此解决了通过人工进行故障信息收集和分析,其浪费大量的时间和人力的问题。
[0031]根据本专利技术的一些实施例,所述数据分析模块包括阈值比较单元,所述阈值比较单元用于根据预先获取的阈值数据,以及每个所述功能模块的心跳数据、温度数据、电压数据和电流数据,确定每个所述功能模块对应的故障情况,其中,本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种服务器故障收集检测方法,其特征在于,包括以下步骤:获取服务器的每个功能模块的状态数据,每个所述状态数据皆表征对应所述功能模块的工作运行状态;对每个所述状态数据进行分析,以确定每个所述功能模块的故障情况;当所述功能模块的故障情况为异常,输出所述功能模块的故障信息;对每个所述故障信息进行存储。2.根据权利要求1所述的服务器故障收集检测方法,其特征在于,所述功能模块至少包括存储模块、计算模块、交换模块、电源模块和风扇模块。3.根据权利要求2所述的服务器故障收集检测方法,其特征在于,所述状态数据至少包括心跳数据、温度数据、电压数据和电流数据。4.根据权利要求3所述的服务器故障收集检测方法,其特征在于,所述对每个所述状态数据进行分析,以确定每个所述功能模块的故障情况,包括以下步骤:根据预先获取的阈值数据,以及每个所述功能模块的心跳数据、温度数据、电压数据和电流数据,确定每个所述功能模块对应的故障情况,其中,所述阈值数据包括与每个所述功能模块的心跳数据、温度数据、电压数据和电流数据对应的心跳阈值、温度阈值、电压阈值和电流阈值。5.根据权利要求4所述的服务器故障收集检测方法,其特征在于,所述当所述功能模块的故障情况为异常,输出所述功能模块的故障信息,包括以下步骤:当所述存储模块的心跳数据、温度数据、电压数据和电流数据中任意一项数据小于对应的阈值数据,输出所述存储模块的故障信息,所述存储模块的故障信息包括所述储存模块运行时的电压信息、电流信息、硬盘容量信息和硬盘状态信息;当所述计算模块的心跳数据、温度数据、电压数据和电流数据中任意一项数据小于对应的阈值数据,输出所述计算模块的故障信息,所述计算模块的故障信息包括所述计算模块运行时的电压信息、电流信息、CPU温度信息、系统内核信息和硬件初始化上电信息;当所述交换模块的心跳数据、温度数据、电压数据和电流数据中任意一项数据小于对应的阈值数据,输出所述交换模块的故障信息,所述交换模块的故障信息包括所述交换模块运行时的电压信息、电流信息和CP...

【专利技术属性】
技术研发人员:朱国定雷勇王佳宜喻政周曙明吴加伍徐术
申请(专利权)人:湖南兴天电子科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1