一种数据中心网络设备智能运维系统、方法及终端技术方案

技术编号:26975758 阅读:9 留言:0更新日期:2021-01-06 00:11
本发明专利技术提供了一种数据中心网络设备智能运维系统、方法,信息采集层采集网络设备的硬件信息以及工作运行参数,获取信息数据;数据存储层对信息数据进行数据清洗、分类和整理,得到聚合的有用信息数据,对聚合的有用信息数据进行保存,形成实时/历史信息数据库;数据分析预测层对实时信息数据进行分析和故障判断,获得网络设备当前工作状态;分析历史信息数据,对网络设备工作状况趋势及故障概率进行预测,并对故障点进行定位;数据呈现层显示网络设备的当前工作状态、设备运行异常信息、历史信息数据、网络设备工作状况趋势及故障预测结果和/或故障点定位结果。本发明专利技术实现数据中心网络设备的运行态势感知与风险主动防御。

【技术实现步骤摘要】
一种数据中心网络设备智能运维系统、方法及终端
本专利技术涉及网络管理
,具体地,涉及一种数据中心(IDC)网络设备智能运维系统、方法及终端,用于数据中心网络设备的运行态势感知与风险主动防御。
技术介绍
随着互联网技术与产业的不断升级换代,云计算、虚拟化等服务的快速发展,数据中心行业规模增长迅猛,数据中心机房的数量和面积迅速增长。数据中心运行的网络设备,包括交换机、路由器和服务器等需要全年不间断稳定运行以向互联网用户提供服务。数据中心网络设备管理及运维目前通常具有如下问题:网络设备来源多元化:IT设备品牌型号繁杂,硬件系统异构复杂,导致数据中心建设与运维管理脱节,设备过保后维护困难,有些设备甚至处于“无证驾驶”的状态;小故障导致大麻烦:电源模块、风扇、及光模块的故障往往会导致业务中断,甚至核心业务瘫痪;故障突发无预警:数据中心网络设备硬件随着使用时间的增加逐渐老化,工作寿命逐渐缩短,但设备平均无故障工作时间是非线性、不均匀的,表现在设备故障的出现总是无预兆、突发的,目前运维方案中对这类故障没有更好的解决方法,导致一线运维人员随时处于待命救火的被动状况;运维保障无翔实的数据支持,导致维护人员与维护费用配置失调。数据中心运维的整体性欠缺,无法掌控全局;网络的工作状态的预测缺失,导致运维的滞后。综上所述,数据中心目前网络设备运维管理多考虑单独设备或品牌,没有从整体、全面的视角分析管理数据中心设备的工作情况,无法满足数据中心机房管理高效、即时的需求。数据中心的运维机制需要跟上发展的步伐,需要研究探索一个高效、实时、低成本和前瞻性的管理维护系统。目前没有发现同本专利技术类似技术的说明或报道,也尚未收集到国内外类似的资料。
技术实现思路
本专利技术针对现有技术中存在的上述不足,提供了一种数据中心(IDC)网络设备智能运维系统及方法,用于数据中心网络设备的运行态势感知与风险主动防御。本专利技术是通过以下技术方案实现的。根据本专利技术的一个方面,提供了一种数据中心网络设备智能运维系统,包括:信息采集层,所述信息采集层用于采集网络设备的硬件信息以及工作运行参数,获取网络设备运维管理所需的信息数据;数据存储层,所述数据存储层用于对信息数据进行分类和整理,得到聚合的信息数据,形成信息数据库,所形成的信息数据库中,包括实时信息数据和历史信息数据;数据分析预测层,所述数据分析预测层用于对实时信息数据进行分析和故障判断,获得网络设备当前工作状态;对历史信息数据进行分析,利用分析结果对网络设备工作状况趋势及故障概率进行预测,并对网络设备的故障点进行定位;数据呈现层,所述数据呈现层用于显示网络设备的当前工作状态、设备运行异常信息、历史信息数据、网络设备工作状况趋势及故障预测结果和/或故障点定位结果。优选地,所述网络设备的硬件信息,包括如下任意一项或任意多项:网络设备的型号、厂家、版本和/或工作起始时间;网络设备所包含的板卡、模块和/或端口在网络设备上的位置信息;所述网络设备的工作运行参数,包括如下任意一项或任意多项:网络设备电源实时电压、电流、功率和/或温度;网络设备CPU工作温度、工作电压、工作电流和/或利用率;网络设备端口实时流量、误码信息、端口速率、吞吐率和/或当前连接状态。优选地,所述信息采集层通过SNMP网络管理协议和/或IPMI智能型平台管理接口,采集网络设备的硬件信息以及工作运行参数,作为信息数据。优选地,所述数据存储层对获取的信息数据进行分类和整理,包括:将网络设备的硬件信息作为类型,将网络设备的工作运行参数作为类别,根据类别和类型对信息数据进行分类和整理,聚合得到同类型多维度的信息数据;对聚合得到的信息数据进行保存形成信息数据库;其中,保存的方法为:将聚合得到的信息数据加上时间信息进行保存。优选地,所述数据分析预测层中:对实时信息数据进行分析和故障判断,获得网络设备当前工作状态,包括:根据实时信息数据中最新的网络设备工作运行参数和设定的阈值,结合网络设备对应的硬件信息,判断网络设备当前工作状态为正常工作状态或异常工作状态;对历史信息数据进行分析,利用分析结果对网络设备工作状况趋势及故障概率进行预测,并对网络设备的故障点进行定位,包括:利用工作状态预测模型,将历史信息数据作为模型输入,输出网络设备的工作状况趋势;采用专家决策模型,将历史信息数据作为模型输入,输出网络设备中各硬件发生故障的概率以及故障点定位信息。优选地,所述专家决策模型构建网络设备中各工作硬件之间的数据通信链路,将数据通信链路两端的网络设备中相关联的硬件信息及工作运行参数作为一组业务邻居记录传输链路档案,并将该传输链路档案作为专家决策模型查找、分析链路质量的数据来源;对链路质量进行实时跟踪分析,通过先验知识对多个可能出现问题的工作硬件进行故障概率预测及排序,对应得到网络设备的故障点定位信息;所述工作状态预测模型通过雷达图和/或机器学习,采用历史信息数据中的工作运行参数,并结合网络设备先验知识建立,构建工作运行参数与工作状况之间的输入输出关系。优选地,所述数据呈现层包括:文字显示模块,所述文字显示模块用于显示网络设备的当前工作状态和/或设备运行异常信息;图像显示模块,所述图像显示模块用于显示历史信息数据、网络设备工作状况趋势和/或故障点定位结果。根据本专利技术的另一个方面,提供了一种数据中心网络设备智能运维方法,包括:采集网络设备的硬件信息以及工作运行参数,获取网络设备运维管理所需的信息数据;对获取的信息数据进行分类和整理,得到聚合的信息数据,形成信息数据库,所形成的信息数据库中,包括实时信息数据和历史信息数据;对实时信息数据进行分析和故障判断,获得网络设备当前工作状态;分析历史信息数据,对网络设备工作状况趋势及故障概率进行预测,并对网络设备的故障点进行定位。优选地,通过SNMP网络管理协议和/或IPMI智能型平台管理接口,采集网络设备的硬件信息以及工作运行参数,作为信息数据。优选地,对获取的信息数据进行分类和整理,包括:将网络设备的硬件信息作为类型,将网络设备的工作运行参数作为类别,根据类别和类型对信息数据进行分类和整理,聚合得到同类型多维度的信息数据;对聚合的信息数据进行保存形成信息数据库;其中,保存的方法为:将聚合得到的信息数据加上时间信息进行保存;优选地,对实时信息数据进行分析和故障判断,获得网络设备当前工作状态,包括:根据实时信息数据中最新的网络设备工作运行参数和设定的阈值,结合网络设备对应的硬件信息,判断网络设备当前工作状态为正常工作状态或异常工作状态;对历史信息数据进行分析,利用分析结果对网络设备工作状况趋势及故障概率进行预测,并对网络设备的故障点进行定位,包括:利用工作状态预测模型,将历史信息数据作为模型输入,输出网络设备的工作状况趋势;采用专家决策模型,将历史信本文档来自技高网
...

【技术保护点】
1.一种数据中心网络设备智能运维系统,其特征在于,包括:/n信息采集层(1),所述信息采集层(1)用于采集网络设备的硬件信息以及工作运行参数,获取网络设备运维管理所需的信息数据;/n数据存储层(2),所述数据存储层(2)用于对信息数据进行分类和整理,得到聚合的信息数据,形成信息数据库,所形成的信息数据库中,包括实时信息数据和历史信息数据;/n数据分析预测层(3),所述数据分析预测层(3)用于对实时信息数据进行分析和故障判断,获得网络设备当前工作状态;对历史信息数据进行分析,利用分析结果对网络设备工作状况趋势及故障概率进行预测,并对网络设备的故障点进行定位;/n数据呈现层(4),所述数据呈现层(4)用于显示网络设备的当前工作状态、设备运行异常信息、历史信息数据、网络设备工作状况趋势及故障预测结果和/或故障点定位结果。/n

【技术特征摘要】
1.一种数据中心网络设备智能运维系统,其特征在于,包括:
信息采集层(1),所述信息采集层(1)用于采集网络设备的硬件信息以及工作运行参数,获取网络设备运维管理所需的信息数据;
数据存储层(2),所述数据存储层(2)用于对信息数据进行分类和整理,得到聚合的信息数据,形成信息数据库,所形成的信息数据库中,包括实时信息数据和历史信息数据;
数据分析预测层(3),所述数据分析预测层(3)用于对实时信息数据进行分析和故障判断,获得网络设备当前工作状态;对历史信息数据进行分析,利用分析结果对网络设备工作状况趋势及故障概率进行预测,并对网络设备的故障点进行定位;
数据呈现层(4),所述数据呈现层(4)用于显示网络设备的当前工作状态、设备运行异常信息、历史信息数据、网络设备工作状况趋势及故障预测结果和/或故障点定位结果。


2.根据权利要求1所述的数据中心网络设备智能运维系统,其特征在于,所述网络设备的硬件信息,包括如下任意一项或任意多项:
网络设备的型号、厂家、版本和/或工作起始时间;
网络设备所包含的板卡、模块和/或端口在网络设备上的位置信息;
所述网络设备的工作运行参数,包括如下任意一项或任意多项:
网络设备电源实时电压、电流、功率和/或温度;
网络设备CPU工作温度、工作电压、工作电流和/或利用率;
网络设备端口实时流量、误码信息、端口速率、吞吐率和/或当前连接状态。


3.根据权利要求1所述的数据中心网络设备智能运维系统,其特征在于,所述信息采集层(1)通过SNMP网络管理协议和/或IPMI智能型平台管理接口,采集网络设备的硬件信息以及工作运行参数,作为信息数据。


4.根据权利要求1所述的数据中心网络设备智能运维系统,其特征在于,所述数据存储层(2)对获取的信息数据进行分类和整理,包括:将网络设备的硬件信息作为类型,将网络设备的工作运行参数作为类别,根据类别和类型对信息数据进行分类和整理,聚合得到同类型多维度的信息数据;
对聚合得到的信息数据进行保存形成信息数据库;其中,保存的方法为:
将聚合得到的信息数据加上时间信息进行保存。


5.根据权利要求1所述的数据中心网络设备智能运维系统,其特征在于,所述数据分析预测层(3)中:
对实时信息数据进行分析和故障判断,获得网络设备当前工作状态,包括:
根据实时信息数据中最新的网络设备工作运行参数和设定的阈值,结合网络设备对应的硬件信息,判断网络设备当前工作状态为正常工作状态或异常工作状态;
对历史信息数据进行分析,利用分析结果对网络设备工作状况趋势及故障概率进行预测,并对网络设备的故障点进行定位,包括:
利用工作状态预测模型,将历史信息数据作为模型输入,输出网络设备的工作状况趋势;
采用专家决策模型,将历史信息数据作为模型输入,输出网络设备中各硬件发生故障的概率以及故障点定位信息。


6.根据权利要求5所述的数据中心网络设备智能运维系统,其特征在于,所述专家决策模型构建网络设备中各工作硬件之间的数据通信链路,将数据通信链路两端的网络设备中相关联的硬件信息及工作运行参数作为一组业务邻居记录传输链路档案,...

【专利技术属性】
技术研发人员:唐晓东尤鹤群
申请(专利权)人:上海御威通信科技有限公司
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1