【技术实现步骤摘要】
本专利技术涉及分布式计算
,具体而言,尤其涉及针对Storm和Hadoop大数据计算平台的监控系统。
技术介绍
社会信息化技术的不断提高,诸多业务领域产生海量、实时的数据,而不同领域对数据处理又各有需求。当前大数据分析逐渐以非结构化为主,单机器存储空间和运算能力已经不能满足,于是分布式环境中分别面向海量数据和实时数据计算的ApacheHadoop和ApacheStorm系统,广泛应用于业务领域的应用中,逐步成为业界主流,也成为当前事实上的标准。业界商用的Hadoop和Storm集群数目从几百台到上千台不等,使得管理规模和难度越来越大,不仅对集群中节点资源配置、实时资源占用和服务部署等获取困难,在计算作业的提交、调度和撤销等也需要耗费管理者大量精力维护。例如,各个集群的配置、集群主控节点位置、作业的计算类型和作业的启动类的配置,都大大增加了管理的难度。现有技术中公开了一些Hadoop集群的分布式监测系统,但尚未出现支持Storm集群的监控系统。如公开号为CN102130950A的专利文献《基于Hadoop集群的分布式监控系统及其监控方法》;公开号为CN103678521A的专利文献《一种基于Hadoop框架的分布式文件监控系统》;公开号为CN104615526A的专利文献《一种大数据平台的监控系统》等。分析其中的技术细节可知,其对大数据计算平台的监控系统并不完整和完善,主要体现在以下几个方面:第一方面:当前工作缺乏对批处理计算和流处理计算一体化管理和监控。的当前工作都是针对海量离线数据处理的Hadoop计算平台的监控系统,而针对实时在线数据处理的St ...
【技术保护点】
一种大数据计算平台监控系统,所述监控系统从大数据计算平台获取数据,其特征在于,所述系统包括:数据采集模块,实时获取和存储大数据计算平台中计算环境的监控指标和计算作业监控的监控指标,并为环境监测模块和作业监控模块开放查询接口;环境监控模块,对大数据计算平台的计算环境进行实时监控,从所述数据采集模块中获取大数据计算平台的计算环境的监控指标,并将这些计算环境的监控指标进行可视化展示;作业监控模块,对大数据计算平台的计算作业进行实时监控,从数据采集模块中获取大数据计算平台的计算作业的监控指标,并将计算作业的监控指标进行可视化展示。
【技术特征摘要】
1.一种大数据计算平台监控系统,所述监控系统从大数据计算平台获取数据,其特征在于,所述系统包括:数据采集模块,实时获取和存储大数据计算平台中计算环境的监控指标和计算作业监控的监控指标,并为环境监测模块和作业监控模块开放查询接口;环境监控模块,对大数据计算平台的计算环境进行实时监控,从所述数据采集模块中获取大数据计算平台的计算环境的监控指标,并将这些计算环境的监控指标进行可视化展示;作业监控模块,对大数据计算平台的计算作业进行实时监控,从数据采集模块中获取大数据计算平台的计算作业的监控指标,并将计算作业的监控指标进行可视化展示。2.根据权利要求1所述的系统,其特征在于,所述数据采集模块采集来自大数据计算平台的数据,所述数据采集模块包含代理单元、关系数据库单元;所述系统封装了关系数据库及代理的功能,提供JDBC接口和Restful接口,并从所述关系数据库单元及代理单元查询监控指标数据;所述监控指标数据包括环境监控指标和作业监控指标。3.根据权利要求1所述的系统,其特征在于,所述环境监控模块包含计算平台监控模块、机器监控模块、服务监控模块,用于实现对计算环境的监控指标进行监控,具体包括:所述计算平台监控模块用于对每个计算平台的平台信息数据进行监控;所述机器监控模块,监控计算平台中的每个计算节点,监控计算节点关联的监控指标;所述服务监控模块,对计算平台中的服务进行监控,并针对每种服务,监控服务的节点列表;针对服务的节点列表中的每一个节点,所述服务监控模块可配置服务命令在该节点路径,可以启动服务、停止服务和重启服务。4.根据权利要求3所述的系统,其特征在于,所述机器监控模块的所述计算节点关联的监控指标包括节点标识、IP地址、节点的服务列表、CPU负载、内存使用率、带宽占用、硬盘使用率;所述机器监控模块针对节点的服务列表中的每一项服务,可配置服务命令在该节点路径,并可以启动服务、停止服务和重启服务。5.根据权利要求3所述的系统,其特征在于,所述计算平台监控模块监控的平台信息数据包括多个监控指标,具体包括:针对每个Hadoop计算平台,监控指标包括平台标识、版本号、job-tracker节点IP地址、已启动时间、计算节点数量、计算作业数量、Map任务数量、Reduce任务数量、Map任务的进程数量、Reduce任务占用的进程数量、Map任务容量、Reduce任务容量、平均节点任务容量;针对每个Storm计算平台,监控指标包括平台标识、版本号、nimbus节点IP地址、已启动时间、计算节点数量、计算作业数量、进程数量、空闲进程数量、线程数量、任务数量。6.根据权利要求1所述的系统,其特征在于,所述作业监控模块包括新作业提交模块和作业管理模块,用于实现对计算作业的监控指标进行监控,具体包括:所述新作业提交模块用于用户上传计算作业包,并在线配置参数后,经系统分析后,将所述计算作业包分配至合适的计算平台;所述作业管理模块,用于监控计算平台的作业的指标数据,所述作业包括批处理计算作业、流处理计算作业、流计算作业的组件列表的组件、任务列表的任务。7.根据权利要求6所述的系统,其特征在于,所述作业管理模块所监控的指标数据具体包括:针对Hadoop计算平台的批处理计算作业,监控指标包括平台标识、作业名称、作业标识、作业状态、启动时间、用户名、优先权;针对Storm计算平台的流处理计算作业,监控指标包括平台标识、作业名称、作业标识、作业状态、启动时间、占用进程数量、占用线程数量、计算任务数量、组件列表;针对Storm流计算作业的组件列表的组件,监控指标包括每一个组件的占用进程数量、任务数量、发送数据量、传输数据量、完成延迟、处理数据量、处理延迟、响应数量、失败数量、所在节点的节点标识、最近错误日志、任务列表;针对Storm流计算作业的组件列表的组件,对其中任务列表的任务,监控指标包括任务标识、启动时间、所在计算节点的节点标识、端口、发送数据量、传输数据量、完成延迟、处理数据量、处理延迟、响应数量、失败数量。8.根据权利要求2所述的系统,其特征在于,所述代理单元设置在计算平台中的计算节点,其...
【专利技术属性】
技术研发人员:丁维龙,赵卓峰,曹娅琪,胡雅鹏,
申请(专利权)人:北方工业大学,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。