一种大数据平台的监控系统技术方案

技术编号:21605162 阅读:20 留言:0更新日期:2019-07-13 18:06
本发明专利技术公开了一种大数据平台的监控系统,属于平台监控技术领域,大数据平台监控系统包括集群监控单元、节点性能监控单元、作业运行监控单元和告警单元,其中所述群监控单元、所述节点性能监控单元和所述作业运行监控单元均包括监控代理模块和监控插件模块。本发明专利技术的通过集群监控单元、节点性能监控单元和作业运行监控单元这三个单元对大数据平台服务器进行计算机集群、各计算机性能以及作业运行状态进行监控,可以全面的监控到大数据平台工作中各部分的工作状态,并且三个单元共用监控代理模块和监控插件模块实现各项监控指标数据的采集和处理可以节约资源,减少成本,并且监控系统内部设置告警模块进行报警,保证系统运行顺畅。

A Monitoring System for Large Data Platform

【技术实现步骤摘要】
一种大数据平台的监控系统
本专利技术涉及平台监控
,特别涉及一种大数据平台的监控系统。
技术介绍
大数据,指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产,由于数据量庞大因此数据在分析时需要借助分布式计算机集群来共同工作从而产生了大数据平台。随着集群的数据日趋庞大,用户的应用越来越多,使用的模型也越来越复杂大数据平台作业运行和查询分析都会出现瓶颈,计算量指数级上升,并且对实时性的要求越来越高,大数据平台需要监控系统对各个计算机集群进行实时监控。传统的监控系统监控对象单一,一旦超出了监控范围,出现问题时很难查询到故障原因,不便于即使维护整个系统,由于大数据平台在正常运行过程中会产生各项指标数据,因此想要全面的监控整个平台需要大量的监控系统配合工作,造成了资源浪费,从而提高了成本。
技术实现思路
本专利技术的目的就在于为了解决上述监控系统监控对象单一导致大数据平台出现问题时很难解决以及多对象监控结构复杂提高成本的问题而提供一种大数据平台的监控系统,具有监控范围广,节约成本,出现故障时便于维护的优点。本专利技术通过以下技术方案来实现上述目的,一种大数据平台的监控系统,大数据平台监控系统包括集群监控单元、节点性能监控单元、作业运行监控单元和告警单元,其中所述群监控单元、所述节点性能监控单元和所述作业运行监控单元均包括监控代理模块和监控插件模块;所述监控代理模块用于数据的采集、处理和发送,所述监控插件模块用于数据的接收和可视化;所述集群监控单元用于采集大数据平台用的服务器的各项指标数据,其中包括服务器集群工作状态信息、集群中计算机总数、服务器用户和主机组的信息;所述节点性能监控单元用于采集大数据平台各节点的性能数据;所述作业运行监控单元用于监控计算机的运行状态,且监控对象为大数据平台的计算机集群;所述告警单元用于在系统出现故障自身无法修复时进行报警。优选的,所述监控代理模块包括数据采集模块、数据处理模块和数据发送模块,所述监控插件模块包括数据接收模块和可视化模块。优选的,所述数据处理模块用于过滤清洗采集到的数据,将无效的数据丢弃,有用数据封装,再通过数据发送模块发送给监控插件模块。优选的,所述可视化模块通过串口线外接显示屏,将监控的数据通过Web显示界面展示给用户。优选的,所述各节点的性能数据包括大数据平台计算机集群的网络流量以及计算机主机的处理器负荷和磁盘利用率。优选的,所述作业运行监控单元监控指标包括任务ID、提交用户的信息、提交时间、完成时间以及任务状态。优选的,所述告警模块包括性能告警和作业运行告警,且每个告警部分均设有若干个阀值,每个阀值对应一个比较电路用于比较节点性能监控单元和作业运行监控单元是否出现异常,且告警方式采用邮件、Web界面、短信提醒中的一种或多种。与现有技术相比,本专利技术的有益效果是:本专利技术的通过集群监控单元、节点性能监控单元和作业运行监控单元这三个单元对大数据平台服务器进行计算机集群、各计算机性能以及作业运行状态进行监控,可以全面的监控到大数据平台工作中各部分的工作状态,并且三个单元共用监控代理模块和监控插件模块实现各项监控指标数据的采集和处理可以节约资源,减少成本,并且监控系统内部设置告警模块进行报警,保证系统运行顺畅,整个系统通过插件实现各项监控功能,内部结构简单,运行起来不容易出错,而且告警模块在系统故障后自修复解决不了时通过邮件、Web界面、短信提醒方式推送给管理人员,便于管理人员即使处理维护,减少损失。附图说明图1为本专利技术的大数据平台监控系统示意图。图2为本专利技术的作业运行监控单元工作流程图。图3为本专利技术的告警工作流程图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。参考图1,一种大数据平台的监控系统,大数据平台监控系统包括集群监控单元、节点性能监控单元、作业运行监控单元和告警单元,其中所述群监控单元、所述节点性能监控单元和所述作业运行监控单元均包括监控代理模块和监控插件模块;监控代理模块用于数据的采集、处理和发送,所述监控插件模块用于数据的接收和可视化;集群监控单元用于采集大数据平台用的服务器的各项指标数据,其中包括服务器集群工作状态信息、集群中计算机总数、服务器用户和主机组的信息;节点性能监控单元用于采集大数据平台各节点的性能数据;作业运行监控单元用于监控计算机的运行状态,且监控对象为大数据平台的计算机集群;告警单元用于在系统出现故障自身无法修复时进行报警。作为本专利技术的一种优选方式,监控代理模块包括数据采集模块、数据处理模块和数据发送模块,所述监控插件模块包括数据接收模块和可视化模块。作为本专利技术的一种优选方式,数据处理模块用于过滤清洗采集到的数据,将无效的数据丢弃,有用数据封装,再通过数据发送模块发送给监控插件模块。作为本专利技术的一种优选方式,可视化模块通过串口线外接显示屏,将监控的数据通过Web显示界面展示给用户。作为本专利技术的一种优选方式,各节点的性能数据包括大数据平台计算机集群的网络流量以及计算机主机的处理器负荷和磁盘利用率。作为本专利技术的一种优选方式,作业运行监控单元监控指标包括任务ID、提交用户的信息、提交时间、完成时间以及任务状态。作为本专利技术的一种优选方式,告警模块包括性能告警和作业运行告警,且每个告警部分均设有若干个阀值,每个阀值对应一个比较电路用于比较节点性能监控单元和作业运行监控单元是否出现异常,且告警方式采用邮件、Web界面、短信提醒中的一种或多种。本专利技术的工作原理:该监控系统基于监控服务器集群,由于大数据平台采用分布式计算机集群共同工作,集群监控单元、节点性能监控单元、作业运行监控单元和告警单元同时对应计算机集群,集群监控单元监控计算机状态信息、总数、服务器用户信息以及主机组的信息,节点性能监控单元监控大数据平台底层各计算机的性能数据,其中包括网络流量以及计算机处理器和磁盘的使用情况,作业运行监控单元监控整个大数据平台运行状态,当每个单元监控的指标超出告警单元设定的阀值后,告警单元进行报警,方便管理人员对整个大数据平台进行维护。对于本领域技术人员而言,显然本专利技术不限于上述示范性实施例的细节,而且在不背离本专利技术的精神或基本特征的情况下,能够以其他的具体形式实现本专利技术。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本专利技术的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本专利技术内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外,应当理解,虽然本说明书按照实施方式加以描述,但并非每个实施方式仅包含一个独立的技术方案,说明书的这种叙述方式仅仅是为清楚起见,本领域技术人员应当将说明书作为一个整体,各实施例中的技术方案也可以经适当组合,形成本领域技术人员可以理解的其他实施方式。本文档来自技高网...

【技术保护点】
1.一种大数据平台的监控系统,其特征在于:大数据平台监控系统包括集群监控单元、节点性能监控单元、作业运行监控单元和告警单元,其中所述群监控单元、所述节点性能监控单元和所述作业运行监控单元均连接有监控代理模块和监控插件模块;所述监控代理模块用于数据的采集、处理和发送,所述监控插件模块用于数据的接收和可视化;所述集群监控单元用于采集大数据平台用的服务器的各项指标数据,其中包括服务器集群工作状态信息、集群中计算机总数、服务器用户和主机组的信息;所述节点性能监控单元用于采集大数据平台各节点的性能数据;所述作业运行监控单元用于监控计算机的运行状态,且监控对象为大数据平台的计算机集群;所述告警单元用于在系统出现故障自身无法修复时进行报警。

【技术特征摘要】
1.一种大数据平台的监控系统,其特征在于:大数据平台监控系统包括集群监控单元、节点性能监控单元、作业运行监控单元和告警单元,其中所述群监控单元、所述节点性能监控单元和所述作业运行监控单元均连接有监控代理模块和监控插件模块;所述监控代理模块用于数据的采集、处理和发送,所述监控插件模块用于数据的接收和可视化;所述集群监控单元用于采集大数据平台用的服务器的各项指标数据,其中包括服务器集群工作状态信息、集群中计算机总数、服务器用户和主机组的信息;所述节点性能监控单元用于采集大数据平台各节点的性能数据;所述作业运行监控单元用于监控计算机的运行状态,且监控对象为大数据平台的计算机集群;所述告警单元用于在系统出现故障自身无法修复时进行报警。2.根据权利要求1所述的一种大数据平台的监控系统,其特征在于:所述监控代理模块包括数据采集模块、数据处理模块和数据发送模块,所述监控插件模块包括数据接收模块和可视化模块。3.根据权利要求2所述的一种大数据平台的监控...

【专利技术属性】
技术研发人员:王希锐
申请(专利权)人:安徽汇迈信息科技有限公司
类型:发明
国别省市:安徽,34

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1