大服务器故障排查系统技术方案

技术编号:29132790 阅读:13 留言:0更新日期:2021-07-02 22:28
本发明专利技术涉及一种大服务器故障排查系统。所述系统包括:散热风扇,设置在大服务器的封装外壳内,包括电机和多片扇叶;水冷降温主体,设置在大服务器内,包括进水口、出水口、水道、水泵和吸热铜底;多个测温元件,分布在大服务器内的多个不同位置,用于测量所述多个不同位置的多个实时监测温度;智能识别机构,用于将多个实时监测温度作为训练后的前馈神经网络模型的输入层的多个输入数据以运行所述前馈神经网络模型,并获得所述前馈神经网络模型的输出以获得故障设备类型。通过本系统,能够通过采用人工智能的故障排查方式,根据大服务器内多个位置的测温数据识别当前大服务器内出现故障的降温元件,从而实现故障设备的及时定位。

【技术实现步骤摘要】
大服务器故障排查系统
本专利技术涉及服务器监控领域,更具体地,涉及一种大服务器故障排查系统。
技术介绍
大服务器通常指处理器数量为8颗以上的高端服务器,是一个性能强大、具有极高可用性的方案型产品,主要承担大型中间件系统和数据库系统等关键核心应用系统,具有强大的在线事务性能和极高的可用性。几个小服务器堆叠在一起能够以较低的成本取得较大的性能,但是这集群技术路线会由于节点之间的通讯协调带来大量的损耗,在HPC等松耦合处理中应用广泛,但是在OLTP、OLAP等紧耦合数据处理中会遭到不可克服的技术瓶颈即memorywall问题,即不同计算节点在处理过程中需要进行大量的协同通讯,当计算节点数量达到一定程度后,节点协同造成的性能损耗已经超过添加节点的性能,系统并发能力就难以继续提高,这也是普通服务器和大服务器的根本区别。大服务器的数据库性能测试通常可以达到几百万(TPC测试),这是普通服务器无论采取怎样的集群方式都不可能实现的值,因此,就性能而言,普通服务器与大型服务器区别不大(若以单台计,大服务器肯定胜出),普通服务器可以通过集群的方式来提高,在线事务处理能力的高低才是大型服务器与普通服务器的根本差别。目前,大服务器因为运算设备较多,内部散热热量充分,对大服务器内各种电子设备造成散热不足的故障的概率增加,因此,需要多种不同散热原理的散热机构同时对大服务器内部进行散热操作。然而,上述多种不同散热原理的散热机构在运行过程中如果某一种或者多种散热机构出现故障,监控人员很难根据温度数据及时判定哪一种类型散热机构出现故障,需要现场排查或者远程排查之后才能下定论,在这段时间内,大服务器内的电子设备可能已经被烧坏。
技术实现思路
为了解决相关领域的技术问题,本专利技术提供了一种大服务器故障排查系统,能够采用人工智能的识别模式基于前馈神经网络模型对当前出现故障的降温设备类型进行有效辨别,从而方便相关管理人员快速做出反应,提升故障排除速度。为此,本专利技术至少需要具备以下几处重要的专利技术点:(1)采用人工智能的故障排查方式,以基于前馈神经网络模型根据大服务器内多个位置的测温数据识别当前大服务器内出现故障的降温元件,从而提升故障排查效率;(2)引入定制结构的水冷降温主体和散热风扇对大服务器进行同时散热,以保证大服务器内部的散热效率,所述水冷降温主体包括进水口、出水口、水道、水泵和吸热铜底。根据本专利技术的一方面,提供了一种大服务器故障排查系统,所述系统包括:散热风扇,设置在大服务器的封装外壳内,包括电机和多片扇叶,每一片扇叶都与所述电机连接,所述多片扇叶在所述电机的驱动下,执行对所述大服务器内部的降温操作。更具体地,在所述大服务器故障排查系统中,所述系统还包括:水冷降温主体,设置在大服务器内,包括进水口、出水口、水道、水泵和吸热铜底,所述吸热铜底设置在大服务器的处理器集群上,所述水道设置在所述吸热铜底上,所述水道的一端连通进水口,另一端连通出水口,所述水泵设置在所述进水口处的水管上,用于为所述水道内的水体流动提供驱动动力。更具体地,在所述大服务器故障排查系统中,所述系统还包括:多个测温元件,分布在大服务器内的多个不同位置,用于分别测量所述多个不同位置分别对应的多个实时监测温度。更具体地,在所述大服务器故障排查系统中,所述系统还包括:智能识别机构,设置在大服务器的附近,分别与所述多个降温元件连接,用于将所述多个实时监测温度作为训练后的前馈神经网络模型的输入层的多个输入数据以运行训练后的前馈神经网络模型,并获得训练后的前馈神经网络模型的输出以获得故障设备类型;网络训练机构,与所述智能识别机构连接,用于对所述前馈神经网络模型进行训练以便于所述智能识别机构使用训练后的前馈神经网络模型;类型反馈设备,与所述智能识别机构连接,用于将所述大服务器的编号与所述前馈神经网络模型输出的故障设备类型一并发送给大服务器运营方的云端监控节点;其中,对所述前馈神经网络模型进行训练以便于所述智能识别机构使用训练后的前馈神经网络模型包括:以第一编号为所述前馈神经网络模型的输出,以所述散热风扇出现故障时的多个实时监测温度为所述前馈神经网络模型的输入,对所述前馈神经网络模型进行训练;其中,对所述前馈神经网络模型进行训练以便于所述智能识别机构使用训练后的前馈神经网络模型包括:以第二编号为所述前馈神经网络模型的输出,以所述水冷降温主体出现故障时的多个实时监测温度为所述前馈神经网络模型的输入,对所述前馈神经网络模型进行训练;其中,对所述前馈神经网络模型进行训练以便于所述智能识别机构使用训练后的前馈神经网络模型包括:以第三编号为所述前馈神经网络模型的输出,以所述水冷降温主体和所述散热风扇都没有出现故障时的多个实时监测温度为所述前馈神经网络模型的输入,对所述前馈神经网络模型进行训练;其中,对所述前馈神经网络模型进行训练以便于所述智能识别机构使用训练后的前馈神经网络模型包括:以第四编号为所述前馈神经网络模型的输出,以所述水冷降温主体和所述散热风扇都出现故障时的多个实时监测温度为所述前馈神经网络模型的输入,对所述前馈神经网络模型进行训练;其中,所述网络训练机构提供给所述智能识别机构的训练后的前馈神经网络模型为第一编号、第二编号、第三编号和第四编号分别作为所述前馈神经网络模型的输入都完成相应训练操作后的前馈神经网络模型;其中,获得所述前馈神经网络模型的输出以获得故障设备类型包括:当所述前馈神经网络模型判断所述散热风扇出现故障时,输出的故障设备类型的故障编号为第一编号;其中,获得所述前馈神经网络模型的输出以获得故障设备类型包括:当所述前馈神经网络模型判断所述水冷降温主体出现故障时,输出的故障设备类型的故障编号为第二编号;其中,获得所述前馈神经网络模型的输出以获得故障设备类型包括:当所述前馈神经网络模型判断所述水冷降温主体和所述散热风扇都没有出现故障时,输出的故障设备类型的故障编号为第三编号;其中,获得所述前馈神经网络模型的输出以获得故障设备类型包括:当所述前馈神经网络模型判断所述水冷降温主体和所述散热风扇都出现故障时,输出的故障设备类型的故障编号为第四编号。通过本系统,能够通过采用人工智能的故障排查方式,根据大服务器内多个位置的测温数据识别当前大服务器内出现故障的降温元件,从而实现故障设备的及时定位。附图简要说明本领域技术人员通过参考附图可更好理解本专利技术的众多优点,其中:图1是依照本专利技术的大服务器故障排查系统的散热风扇的结构示意图。具体实施方式大服务器是云计算的核心平台。云计算的本质是数据和应用的集中,但是集中并未改变计算的类型,未来的云计算平台仍然要运行数据库、中间件等关键核心应用,而且规模会跨数量级的膨胀。此外,云计算平台管理、资源调度、作业调度等高负载业务,本身也是关键高压力应用系统,这些云计算的核心系统由于都涉及到大型的OLTP处理,一般服务器不可能满足通过集群本文档来自技高网
...

【技术保护点】
1.一种大服务器故障排查系统,其特征在于,所述系统包括:/n散热风扇,设置在大服务器的封装外壳内,包括电机和多片扇叶,每一片扇叶都与所述电机连接,所述多片扇叶在所述电机的驱动下,执行对所述大服务器内部的降温操作。/n

【技术特征摘要】
1.一种大服务器故障排查系统,其特征在于,所述系统包括:
散热风扇,设置在大服务器的封装外壳内,包括电机和多片扇叶,每一片扇叶都与所述电机连接,所述多片扇叶在所述电机的驱动下,执行对所述大服务器内部的降温操作。


2.如权利要求1所述的大服务器故障排查系统,其特征在于,所述系统进一步包括:
水冷降温主体,设置在大服务器内,包括进水口、出水口、水道、水泵和吸热铜底,所述吸热铜底设置在大服务器的处理器集群上,所述水道设置在所述吸热铜底上,所述水道的一端连通进水口,另一端连通出水口,所述水泵设置在所述进水口处的水管上,用于为所述水道内的水体流动提供驱动动力。


3.如权利要求2所述的大服务器故障排查系统,其特征在于,所述系统进一步包括:
多个测温元件,分布在大服务器内的多个不同位置,用于分别测量所述多个不同位置分别对应的多个实时监测温度。


4.如权利要求3所述的大服务器故障排查系统,其特征在于,所述系统进一步包括:
智能识别机构,设置在大服务器的附近,分别与所述多个降温元件连接,用于将所述多个实时监测温度作为训练后的前馈神经网络模型的输入层的多个输入数据以运行训练后的前馈神经网络模型,并获得训练后的前馈神经网络模型的输出以获得故障设备类型;
网络训练机构,与所述智能识别机构连接,用于对所述前馈神经网络模型进行训练以便于所述智能识别机构使用训练后的前馈神经网络模型;
类型反馈设备,与所述智能识别机构连接,用于将所述大服务器的编号与所述前馈神经网络模型输出的故障设备类型一并发送给大服务器运营方的云端监控节点;
其中,对所述前馈神经网络模型进行训练以便于所述智能识别机构使用训练后的前馈神经网络模型包括:以第一编号为所述前馈神经网络模型的输出,以所述散热风扇出现故障时的多个实时监测温度为所述前馈神经网络模型的输入,对所述前馈神经网络模型进行训练;
其中,对所述前馈神经网络模型进行训练以便于所述智能识别机构使用训练后的前馈神经网络模型包括:以第二编号为所述前馈神经网络模型的输出,以所述水冷降温主体出现故障时的多个实时监测温度为所述前馈神经网络模型的输入,对所述前馈神经网络模型进行训练;
其中,对所述前馈神经网络模型进行训练以便于所述智能识别机构使用训练后的前馈神经网络模型包括:以第三编号为所述前馈神经网络模型的输出,以所述水冷降温主体和所述散热风扇都没有出现故障时的多个实时监测温度为所述前馈神经网络模型的输入,对所述前馈神经网络模型进行训练;
其中,对所述前馈神经网络模型进行训练以便于所述智能识别机构使用训练后的前馈神经...

【专利技术属性】
技术研发人员:不公告发明人
申请(专利权)人:泰州可以信息科技有限公司
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1