一种基于机器学习的运维机器人网络故障检测系统技术方案

技术编号:19219419 阅读:102 留言:0更新日期:2018-10-20 08:05
本发明专利技术提供了一种基于机器学习的运维机器人网络故障检测系统,包括网络设备,还包括运维机器人以及收发器,每一收发器对应一网络设备设置,运维机器人通过无线或有线的方式分别连接每一终端收发器、接入层收发器、分布层收发器、的第一收发器以及第二收发器;通过在每一网络设备的物理层上直接建立收发器,运维机器人通过收发器直接获取数据,而无需通过原有网络,整个结构可以直接嵌套到任意现有的网络结构中起到运维服务,更重要的是,通过故障诊断策略生成广播传递数据,通过随机以及比对的方式可以直接得到对应的比对结果,通过数据监测获取到每一数据的实际值,从而判断故障的节点,快速方便且数据内容更加详细可靠。

【技术实现步骤摘要】
一种基于机器学习的运维机器人网络故障检测系统
本专利技术涉及智能运维
,具体是涉及一种基于机器学习的运维机器人网络故障检测系统。
技术介绍
运维工程师(Operations),负责维护并确保整个服务的高可用性,同时不断优化系统架构、提升部署效率、优化资源利用率提高整体的ROI。运维工程师面对的最大挑战是大规模集群的管理问题,如何管理好几十万台服务器上的服务,同时保障服务的高可用性,是运维工程师面临的最大挑战。在软件产品的整个生命周期中运维工程师都需要适时地参与并发挥不同得作用,因此运维工程师的工作内容和方向非常多:事件管理:目标是在服务出现异常时尽可能快速的恢复服务,从而保障服务的可用性;同时深入分析故障产生的原因,推动并修复服务存在的问题,同时设计并开发相关的预案以确保服务出现故障时可以高效的止损。在这方面主要工作内容有:问题发现:设计并开发高效的监控平台和告警平台,使用机器学习、大数据分析等方法对系统中的大量监控数据进行汇总分析,以期在系统出现异常的时候可以快速的发现问题和判断故障的影响。问题处理:设计并开发高效的问题处理平台和工具,在系统出现异常的时候可以快速/自动决策并触发相关止损预案,快速恢复服务。问题跟踪:通过分析问题发生时系统的各种表现(日志、变更、监控)确定问题发生的根本原因,制定并开发预案工具。变更管理:以可控的方式,尽可能高效的完成产品功能的迭代的变更工作。在这方面运主要工作内容有:配置管理:通过配置管理平台(自研、开源)管理服务涉及到的多个模块、多个版本的关系以及配置的准确性。发布管理:通过构建自动化的平台确保每一次版本变更可以安全可控地发布到生产环境。容量管理:在服务运行维护阶段,为了确保服务架构部署的合理性同时掌握服务整体的冗余,需要不断评估系统的承载能力,并不断优化之。在这方面主要工作内容有:容量评估:通过技术手段模拟实际的用户请求,测试整个系统所能承担的最大吞吐;通过建立容量评估模型分析压力测试过程中的数据以评估整个服务的容量。容量优化:基于容量评估数据,判断系统的瓶颈并提供容量优化的解决方案。比如通过调整系统参数、优化服务部署架构等方法来高效的提升系统容量。架构优化:为了支持产品的不断迭代,需要不断的进行架构优化调整。以确保整个产品能够在功能不断丰富和复杂的条件下,同时保持高可用性。而目前市场上出现了一种运维机器人,用以替代运维工程师,而对于运维机器人最重要的功能之一是及时发现网络故障,而现有的模式是通过直接将运维机器人组网到局域网中,局域网络的组成一般包括若干终端、若干接入层交换机、若干分布层交换机以及第一核心交换机、第二核心交换机,第一核心交换机通过局域网服务器连接局域网数据库,而第二核心交换机连接广域网,通过运维机器人的组网动作实现组网系统,而一旦网络故障,则需要运维机器人判断故障的节点以及故障的情况,现有的运维机器人显然难以完全实现对故障节点的判断。
技术实现思路
针对现有技术中存在的上述问题,现旨在提供一种基于机器学习的运维机器人网络故障检测系统,以解决上述问题。具体技术方案如下:一种基于机器学习的运维机器人网络故障检测系统,包括网络设备,还包括运维机器人以及收发器,每一收发器对应一网络设备设置;所述运维机器人,用于发送广播检测数据,当网络设备通过收发器接收到所述广播检测数据时,所述网络设备根据所述广播检测数据生成一广播传递数据发送至所有与该网络设备连接的其他网络设备;以及当网络设备接收所述广播传递数据时,根据所述网络设备对应的网络协议处理所述广播传递数据得到协议反馈数据,将所述广播传递数据以及所述协议反馈数据通过对应的收发器发送至所述运维机器人,并将所述广播传递数据发送至与该网络设备直接连接的其他网络设备;所述运维机器人根据接收到的广播传递数据以及协议反馈数据建立反馈数据表,所述运维机器人根据检测位置调用所述标准数据表,所述运维机器人比较所述反馈数据表以及所述标准数据表,确定偏差数据;所述运维机器人根据偏差数据从运维数据库中匹配处理策略。进一步地:所述运维机器人连接于一运维数据库以及后台处理端,所述运维数据库配置有若干标准数据表、偏差数据以及与偏差数据配对的处理策略,所述运维机器人配置有故障诊断策略以及所述故障学习策略;所述故障诊断策略包括随机生成若干检测位置,每一检测位置对应有一标准数据表,每一检测位置对应所述运维机器人网络故障检测系统中的一个网络设备;所述运维机器人向所述检测位置对应的收发器发送所述广播检测数据;所述运维机器人比较所述反馈数据表以及所述标准数据表,确定偏差数据后还包括:若所述反馈数据表和所述标准数据表不存在偏差,那么判断为无故障;若所述反馈数据表以及所述标准数据表存在偏差,那么根据所述偏差得到偏差数据;所述运维机器人根据偏差数据从运维数据库中匹配处理策略后还包括:若运维数据库中存在所述偏差数据配对的处理策略,那么执行所述处理策略;若运维数据库中不存在所述偏差数据配对的处理策略,将所述偏差数据发送至所述后台处理端;所述故障学习策略包括当所述偏差数据被输出到后台处理端时,根据所述后台处理端输入的处理结果生成一新的所述处理策略,并将新的所述处理策略与所述偏差数据配对并存入所述运维数据库。进一步地:所述网络设备包括终端侧设备和网络侧设备;所述收发器包括若干终端侧收发器和网络侧收发器;所述终端侧收发器分别安装于每一终端的网络信号端并与所述终端侧设备建立物理连接;每一所述网络侧设备配置有网络侧镜像端口,所述网络侧镜像端口用于镜像所述网络侧设备的其他端口,每一所述网络侧收发器分别安装于所述网络侧镜像端口并与所述网络侧设备建立物理连接。进一步地:所述网络设备包括若干终端、若干接入层交换机、若干分布层交换机以及第一核心交换机、第二核心交换机,第一核心交换机通过内网服务器连接内网数据库,而第二核心交换机连接广域网;所述收发器包括若干终端收发器、若干接入层收发器、若干分布层收发器、第一收发器以及第二收发器,所述运维机器人通过无线或有线的方式分别连接每一所述终端收发器、所述接入层收发器、所述分布层收发器、所述的第一收发器以及第二收发器;所述终端收发器分别安装于每一终端的网络信号端并与所述终端建立物理连接;每一所述接入层交换机设置有接入层镜像端口,所述接入层镜像端口用于镜像所述接入层交换机的其他端口,每一所述接入层收发器分别安装于所述接入层镜像端口并与所述接入层交换机建立物理连接;每一所述分布层交换机设置有分布层镜像端口,所述分布层镜像端口用于镜像所述分布层交换机的其他端口,每一所述分布层收发器分别安装于所述分布层镜像端口并与所述分布层交换机建立物理连接;每一所述第一核心交换机设置有第一核心镜像端口,所述第一核心镜像端口用于镜像所述第一核心交换机的其他端口,每一所述第一收发器分别安装于所述第一核心镜像端口并与所述第一核心交换机建立物理连接;每一所述第二核心交换机设置有第二核心镜像端口,所述第二核心镜像端口用于镜像所述第二核心交换机的其他端口,每一所述第二收发器分别安装于所述第二核心镜像端口并与所述第二核心交换机建立物理连接。进一步地:所述广播传递数据包括传递路径信息,所述传递路径信息反映该广播传递数据所经过的网络设备以及经过网络设备的顺序。进一步地:所本文档来自技高网
...

【技术保护点】
1.一种基于机器学习的运维机器人网络故障检测系统,包括网络设备,其特征在于,还包括运维机器人以及收发器,每一收发器对应一网络设备设置;所述运维机器人,用于发送广播检测数据;当网络设备通过收发器接收到所述广播检测数据时,所述网络设备根据所述广播检测数据生成广播传递数据发送至所有与该网络设备连接的其他网络设备;以及当网络设备接收所述广播传递数据时,根据所述网络设备对应的网络协议处理所述广播传递数据得到协议反馈数据,将所述广播传递数据以及所述协议反馈数据通过对应的收发器发送至所述运维机器人,并将所述广播传递数据发送至与该网络设备直接连接的其他网络设备;所述运维机器人,根据接收到的广播传递数据以及协议反馈数据确定偏差数据;并根据偏差数据确定网络故障。

【技术特征摘要】
1.一种基于机器学习的运维机器人网络故障检测系统,包括网络设备,其特征在于,还包括运维机器人以及收发器,每一收发器对应一网络设备设置;所述运维机器人,用于发送广播检测数据;当网络设备通过收发器接收到所述广播检测数据时,所述网络设备根据所述广播检测数据生成广播传递数据发送至所有与该网络设备连接的其他网络设备;以及当网络设备接收所述广播传递数据时,根据所述网络设备对应的网络协议处理所述广播传递数据得到协议反馈数据,将所述广播传递数据以及所述协议反馈数据通过对应的收发器发送至所述运维机器人,并将所述广播传递数据发送至与该网络设备直接连接的其他网络设备;所述运维机器人,根据接收到的广播传递数据以及协议反馈数据确定偏差数据;并根据偏差数据确定网络故障。2.如权利要求1所述的一种基于机器学习的运维机器人网络故障检测系统,其特征在于:预先配置标准数据表;并在所述运维机器人侧配置故障诊断策略,该故障诊断策略包括随机生成的若干检测位置,每一检测位置对应有一标准数据表,每一所述检测位置对应所述运维机器人网络故障检测系统中的一个网络设备;所述运维机器人,根据接收到的广播传递数据以及协议反馈数据确定偏差数据,包括;所述运维机器人根据接收到的广播传递数据以及协议反馈数据建立反馈数据表,所述运维机器人根据检测位置调用标准数据表,所述运维机器人比较所述反馈数据表以及所述标准数据表,若所述反馈数据表和所述标准数据表不存在偏差,那么判断为无故障;若所述反馈数据表以及所述标准数据表存在偏差,则根据所述偏差得到偏差数据。3.如权利要求2所述的一种基于机器学习的运维机器人网络故障检测系统,其特征在于:所述运维机器人根据偏差数据确定网络故障包括:预先还配置有偏差数据以及偏差数据配对的处理策略;并配置故障学习策略;所述运维机器人根据偏差数据匹配处理策略,若运维数据库中存在所述偏差数据配对的处理策略,那么执行所述处理策略;若运维数据库中不存在所述偏差数据配对的处理策略,则执行所述故障学习策略,根据所述偏差数据生成一新的处理策略,并将新的所述处理策略与所述偏差数据配对并保存。4.如权利要求1所述的一种基于机器学习的运维机器人网络故障检测系统,其特征在于:所述广播传递数据包括传递路径信息,所述传递路径信息反映该广播传递数据所经过的网络设备以及经过网络设备的顺序。5.如权利要求4所述的一种基于机器学习的运维机器人网络故障检测系统,其特征在于:所述广播传递数据配置有预设的传递值,每一广播传递数据经过一网络设备值,该广播传递数据的对应的传递值减小,当广播传递数据的传递值小于零时,对应的网络设备不再将该广播传递数据发送至其他网络设备中。6.如权利要求5所述的一种基于机器学...

【专利技术属性】
技术研发人员:来骥张少军马跃彭柏许大卫张实君陈重韬吴佳吴舜万莹李贤孟德王海峰李硕王艺霏辛霆麟
申请(专利权)人:国网冀北电力有限公司信息通信分公司国家电网公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1