大数据计算平台监控系统及方法技术方案

技术编号:14904964 阅读:105 留言:0更新日期:2017-03-29 19:48
本发明专利技术提供了一种大数据计算平台监控系统及其方法,该系统包括:数据采集模块,实时获取和存储计算平台中计算环境的监控指标和计算作业监控的监控指标,并为环境监测模块和作业监控模块开放查询接口;环境监控模块,对计算平台的计算环境进行实时监控,从所述数据采集模块中获取大数据计算平台的计算环境的监控指标,并将这些计算环境的监控指标进行可视化展示;作业监控模块,对计算平台的计算作业进行实时监控,从数据采集模块中获取大数据计算平台的计算作业的监控指标,并将计算作业的监控指标进行可视化展示。本发明专利技术可以减少针对大数据计算平台管理操作流程的复杂性,提供智能、直观、易用和快速响应的监控系统。

【技术实现步骤摘要】

本专利技术涉及分布式计算
,具体而言,尤其涉及针对Storm和Hadoop大数据计算平台的监控系统。
技术介绍
社会信息化技术的不断提高,诸多业务领域产生海量、实时的数据,而不同领域对数据处理又各有需求。当前大数据分析逐渐以非结构化为主,单机器存储空间和运算能力已经不能满足,于是分布式环境中分别面向海量数据和实时数据计算的ApacheHadoop和ApacheStorm系统,广泛应用于业务领域的应用中,逐步成为业界主流,也成为当前事实上的标准。业界商用的Hadoop和Storm集群数目从几百台到上千台不等,使得管理规模和难度越来越大,不仅对集群中节点资源配置、实时资源占用和服务部署等获取困难,在计算作业的提交、调度和撤销等也需要耗费管理者大量精力维护。例如,各个集群的配置、集群主控节点位置、作业的计算类型和作业的启动类的配置,都大大增加了管理的难度。现有技术中公开了一些Hadoop集群的分布式监测系统,但尚未出现支持Storm集群的监控系统。如公开号为CN102130950A的专利文献《基于Hadoop集群的分布式监控系统及其监控方法》;公开号为CN103678521A的专利文献《一种基于Hadoop框架的分布式文件监控系统》;公开号为CN104615526A的专利文献《一种大数据平台的监控系统》等。分析其中的技术细节可知,其对大数据计算平台的监控系统并不完整和完善,主要体现在以下几个方面:第一方面:当前工作缺乏对批处理计算和流处理计算一体化管理和监控。的当前工作都是针对海量离线数据处理的Hadoop计算平台的监控系统,而针对实时在线数据处理的Storm计算平台的监控依然存在空白,而后者已然是大数据流式计算的业界主流和事实上的标准。第二方面:当前工作对集群计算资源的细粒度监控支持不足。当前工作多针对Hadoop集群的作业状态或文件系统状态进行监控,而对集群中计算资源细粒度的监控,如CPU、内存、带宽和硬盘资源等,缺乏有效支持。第三方面:当前工作对计算节点的服务管理支持不足。大数据计算平台中,计算节点是通过相关服务支撑计算的不同功能角色。例如,Hadoop存在name-node、data-node、job-tracker和task-tracker四种服务,分别对应数据和作业的后台服务;Storm存在nimbus、ui、supervisor三种服务,分别对应主控、控制台和工作服务。当前工作很少从服务管理的角度,对集群中的计算节点进行监控。第四方面:当前工作普遍缺乏图形化管理界面和智能辅助支持。这使得不了解计算集群环境安装的业务人员,很难操作集群中机器和服务的启停、作业的提交和撤销等功能;对于不太了解开发细节的业务人员,很难短时间熟记各种配置和启动类名称等参数。
技术实现思路
本专利技术的目的是为了克服上述监控管理缺陷,从而针对大数据计算平台的一体化监控及管理,减少操作流程复杂性,提供智能、直观、易用和快速响应的监控系统。本专利技术通过对Hadoop和Storm计算平台的一体化监控,可以实时查看两类集群机器的运行时状态、机器上各个服务的运行时状态,以及作业在集群中的运行状态,可以对针对机器、服务和作启动和停止,可以针对批处理和流处理两类作业,实现提交、撤销和调度操作,图形化的监控界面和智能辅助支撑,使得非专业人士可以很快上手和掌握。具体而言,本专利技术提供了以下的技术方案:首先,本专利技术提供了一种大数据计算平台监控系统,所述监控系统从大数据计算平台获取数据,所述系统包括:数据采集模块,实时获取和存储大数据计算平台中计算环境的监控指标和计算作业监控的监控指标,并为环境监测模块和作业监控模块开放查询接口;环境监控模块,对大数据计算平台的计算环境进行实时监控,从所述数据采集模块中获取大数据计算平台的计算环境的监控指标,并将这些计算环境的监控指标进行可视化展示;作业监控模块,对大数据计算平台的计算作业进行实时监控,从数据采集模块中获取大数据计算平台的计算作业的监控指标,并将计算作业的监控指标进行可视化展示。优选地,所述数据采集模块采集来自大数据计算平台的数据,所述数据采集模块包含代理单元、关系数据库单元;所述系统封装了关系数据库及代理的功能,提供JDBC接口和Restful接口,并从所述关系数据库单元及代理单元查询监控指标数据;所述监控指标数据包括环境监控指标和作业监控指标。环境监控指标指涉及到所监控的大数据计算平台的计算环境相关联的指标,主要是指环境监控模块所监控或关注的各个指标;作业监控指标指所监控的各作业所涉及到的指标,主要是指作业监控模块所监控或关注的各个指标。上述两指标之间可以是存在相互重复或相同的部分指标,也可以是相互不同的各个指标。优选地,所述环境监控模块包含计算平台监控模块、机器监控模块、服务监控模块,用于实现对计算环境的监控指标进行监控,具体包括:所述计算平台监控模块用于对每个计算平台的平台信息数据进行监控;所述机器监控模块,监控计算平台中的每个计算节点,监控计算节点关联的监控指标;所述服务监控模块,对计算平台中的服务进行监控,并针对每种服务,监控服务的节点列表;针对服务的节点列表中的每一个节点,所述服务监控模块可配置服务命令在该节点路径,可以启动服务、停止服务和重启服务。优选地,所述机器监控模块的所述计算节点关联的监控指标包括节点标识、IP地址、节点的服务列表、CPU负载、内存使用率、带宽占用、硬盘使用率;所述机器监控模块针对节点的服务列表中的每一项服务,可配置服务命令在该节点路径,并可以启动服务、停止服务和重启服务。优选地,所述计算平台监控模块监控的平台信息数据包括多个监控指标,具体包括:针对每个Hadoop计算平台,监控指标包括平台标识、版本号、job-tracker节点IP地址、已启动时间、计算节点数量、计算作业数量、Map任务数量、Reduce任务数量、Map任务的进程数量、Reduce任务占用的进程数量、Map任务容量、Reduce任务容量、平均节点任务容量等;针对每个Storm计算平台,监控指标包括平台标识、版本号、nimbus节点IP地址、已启动时间、计算节点数量、计算作业数量、进程数量、空闲进程数量、线程数量、任务数量等。优选地,所述作业监控模块包括新作业提交模块和作业管理模块,用于实现对计算作业的监控指标进行监控,具体包括:所述新作业提交模块用于用户上传计算作业包,并在线配置参数后,经系统分析后,将所述计算作业包分配至合适的计算平台;所述作业管理模块,用于监控计算平台的作业的指标数据,所述作业包括批处理计算作业、流处理计算作业、流计算作业的组件列表的组件、任务列表的任务。优选地,所述作业管理模块所监控的指标数据具体包括:针对Hadoop计算平台的批处理计算作业,监控指标包括平台标识、作业名称、作业标识、作业状态、启动时间、用户名、优先权等;针对Storm计算平台的流处理计算作业,监控指标包括平台标识、作业名称、作业标识、作业状态、启动时间、占用进程数量、占用线程数量、计算任务数量、组件列表等;针对Storm流计算作业的组件列表的组件,监控指标包括每一个组件的占用进程数量、任务数量、发送数据量、传输数据量、完成延迟、处理数据量、处理延迟、响应数量、失败数量、所在节点的节点标识、最本文档来自技高网
...
<a href="http://www.xjishu.com/zhuanli/62/201610970996.html" title="大数据计算平台监控系统及方法原文来自X技术">大数据计算平台监控系统及方法</a>

【技术保护点】
一种大数据计算平台监控系统,所述监控系统从大数据计算平台获取数据,其特征在于,所述系统包括:数据采集模块,实时获取和存储大数据计算平台中计算环境的监控指标和计算作业监控的监控指标,并为环境监测模块和作业监控模块开放查询接口;环境监控模块,对大数据计算平台的计算环境进行实时监控,从所述数据采集模块中获取大数据计算平台的计算环境的监控指标,并将这些计算环境的监控指标进行可视化展示;作业监控模块,对大数据计算平台的计算作业进行实时监控,从数据采集模块中获取大数据计算平台的计算作业的监控指标,并将计算作业的监控指标进行可视化展示。

【技术特征摘要】
1.一种大数据计算平台监控系统,所述监控系统从大数据计算平台获取数据,其特征在于,所述系统包括:数据采集模块,实时获取和存储大数据计算平台中计算环境的监控指标和计算作业监控的监控指标,并为环境监测模块和作业监控模块开放查询接口;环境监控模块,对大数据计算平台的计算环境进行实时监控,从所述数据采集模块中获取大数据计算平台的计算环境的监控指标,并将这些计算环境的监控指标进行可视化展示;作业监控模块,对大数据计算平台的计算作业进行实时监控,从数据采集模块中获取大数据计算平台的计算作业的监控指标,并将计算作业的监控指标进行可视化展示。2.根据权利要求1所述的系统,其特征在于,所述数据采集模块采集来自大数据计算平台的数据,所述数据采集模块包含代理单元、关系数据库单元;所述系统封装了关系数据库及代理的功能,提供JDBC接口和Restful接口,并从所述关系数据库单元及代理单元查询监控指标数据;所述监控指标数据包括环境监控指标和作业监控指标。3.根据权利要求1所述的系统,其特征在于,所述环境监控模块包含计算平台监控模块、机器监控模块、服务监控模块,用于实现对计算环境的监控指标进行监控,具体包括:所述计算平台监控模块用于对每个计算平台的平台信息数据进行监控;所述机器监控模块,监控计算平台中的每个计算节点,监控计算节点关联的监控指标;所述服务监控模块,对计算平台中的服务进行监控,并针对每种服务,监控服务的节点列表;针对服务的节点列表中的每一个节点,所述服务监控模块可配置服务命令在该节点路径,可以启动服务、停止服务和重启服务。4.根据权利要求3所述的系统,其特征在于,所述机器监控模块的所述计算节点关联的监控指标包括节点标识、IP地址、节点的服务列表、CPU负载、内存使用率、带宽占用、硬盘使用率;所述机器监控模块针对节点的服务列表中的每一项服务,可配置服务命令在该节点路径,并可以启动服务、停止服务和重启服务。5.根据权利要求3所述的系统,其特征在于,所述计算平台监控模块监控的平台信息数据包括多个监控指标,具体包括:针对每个Hadoop计算平台,监控指标包括平台标识、版本号、job-tracker节点IP地址、已启动时间、计算节点数量、计算作业数量、Map任务数量、Reduce任务数量、Map任务的进程数量、Reduce任务占用的进程数量、Map任务容量、Reduce任务容量、平均节点任务容量;针对每个Storm计算平台,监控指标包括平台标识、版本号、nimbus节点IP地址、已启动时间、计算节点数量、计算作业数量、进程数量、空闲进程数量、线程数量、任务数量。6.根据权利要求1所述的系统,其特征在于,所述作业监控模块包括新作业提交模块和作业管理模块,用于实现对计算作业的监控指标进行监控,具体包括:所述新作业提交模块用于用户上传计算作业包,并在线配置参数后,经系统分析后,将所述计算作业包分配至合适的计算平台;所述作业管理模块,用于监控计算平台的作业的指标数据,所述作业包括批处理计算作业、流处理计算作业、流计算作业的组件列表的组件、任务列表的任务。7.根据权利要求6所述的系统,其特征在于,所述作业管理模块所监控的指标数据具体包括:针对Hadoop计算平台的批处理计算作业,监控指标包括平台标识、作业名称、作业标识、作业状态、启动时间、用户名、优先权;针对Storm计算平台的流处理计算作业,监控指标包括平台标识、作业名称、作业标识、作业状态、启动时间、占用进程数量、占用线程数量、计算任务数量、组件列表;针对Storm流计算作业的组件列表的组件,监控指标包括每一个组件的占用进程数量、任务数量、发送数据量、传输数据量、完成延迟、处理数据量、处理延迟、响应数量、失败数量、所在节点的节点标识、最近错误日志、任务列表;针对Storm流计算作业的组件列表的组件,对其中任务列表的任务,监控指标包括任务标识、启动时间、所在计算节点的节点标识、端口、发送数据量、传输数据量、完成延迟、处理数据量、处理延迟、响应数量、失败数量。8.根据权利要求2所述的系统,其特征在于,所述代理单元设置在计算平台中的计算节点,其...

【专利技术属性】
技术研发人员:丁维龙赵卓峰曹娅琪胡雅鹏
申请(专利权)人:北方工业大学
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1