一种分布式hadoop集群故障自动诊断修复系统技术方案

技术编号:12882751 阅读:161 留言:0更新日期:2016-02-17 15:18
本发明专利技术公开了一种分布式hadoop集群故障自动诊断修复系统,包括集群文件系统监控模块:采集获取集群节点信息以及数据库文件;作业任务监控模块:采集作业和任务的信息;物理节点监控模块:监控每个物理节点的资源消耗信息;数据存储分析处理模块:将监控数据存储到数据库;设定监控告警规则,预先配置告警ID、级别及原因;自动修复模块:预先定义配置各类常见告警故障,并为每个告警故障定制预处理脚本,当监控巡检到故障发生时,对当前发生的故障与预先定义配置的告警故障进行匹配,并调用相应的预处理脚本完成故障的自动处理。本发明专利技术能够自动诊断修复系统故障,使维护变得更加简单,性能数据、节点状态更加清晰明确。

【技术实现步骤摘要】

本专利技术涉及一种集群故障自动诊断修复系统,尤其涉及一种分布式hadoop集群故障自动诊断修复系统
技术介绍
业界没有对hadoop集群监控发现问题后自动分析解决的方案,目前关于hadoop集群故障解决方法为预先配置好关键的运维监控指标,对hadoop集群及相关项目健康进行检查,同时对作业和任务执行进行分析,将监控信息暴露出来,维护人员登录web平台查看存在问题的节点及性能,并登录节点分析日志,修复集群。现有技术的主要缺点如下:1、不能实现故障实时告警,配置好的每个监控指标需要维护人员登录到web平台查看有问题的节点;2、集群监控只能查看当前的监控数据,没有存储和历史查询功能,无法进行监控数据分析和建立预测模型;3、不能对监控数据进行自动分析及根据分析结果进行自动化修复,需要人工登录到问题节点分析错误日志,根据经验进行故障解决。
技术实现思路
本专利技术所要解决的技术问题是提供一种分布式hadoop集群故障自动诊断修复系统,能够轻松有效地控制hadoop集群,使维护变得更加简单,性能数据、节点状态更加清晰明确,分析、发现、解决问题更加快速。本专利技术为解决上述技术问题而采用的技术方案是提供一种分布式hadoop集群故障自动诊断修复系统,包括:集群文件系统监控模块:采集获取集群节点信息以及数据库文件;作业任务监控模块:采集作业和任务的信息,并对作业任务进行控制管理,包括作业的开启和停止,对指定作业进行周期采样,以及对任务优先级进行管理;物理节点监控模块:监控每个物理节点的资源消耗信息;数据存储分析处理模块:对来自所述集群文件系统监控模块、作业任务监控模块和物理节点监控模块的监控数据进行结构化、统一化后存储到数据库;设定监控告警规则,预先配置告警ID、级别及原因;自动修复模块:预先定义配置各类常见告警故障,并为每个告警故障定制预处理脚本,当所述数据存储分析处理模块监控巡检到故障发生时,对当前发生的故障与预先定义配置的告警故障进行匹配,并调用相应的预处理脚本完成故障的自动处理。 上述的分布式hadoop集群故障自动诊断修复系统,其中,所述集群文件系统监控模块包括:浏览文件记录,namenode日志记录,namenode运行情况、集群配置容量、DFS占用容量、非DFS占用容量、DFS的可使用容量、DFS已使用百分比、DFS可使用百分比、活节点数、死节点数、namenode的存储目录及类型状态。上述的分布式hadoop集群故障自动诊断修复系统,其中,所述集群文件系统监控模块包括:获取HDFS的实时数据和历史状态,根据HDFS信息浏览和定位相关文件,以及监控关闭或者打开所述相关文件时,各个磁盘已经使用和各个磁盘的总容量,剩余容量,文件名称和数目,以及文件的使用情况和历程。上述的分布式hadoop集群故障自动诊断修复系统,其中,所述作业任务监控模块控制集群任务概要信息,堆的大小,所占的比例,Map任务数,Reduce任务数以及各个节点上的任务数量值。上述的分布式hadoop集群故障自动诊断修复系统,其中,所述作业任务监控模块实时查看作业的状态,查询整个作业从开始工作到结束工作耗费的时间总和,对与指定任务的作业相关信息,显示完成的所有进度、总共要进行的任务总数,预计需要完成的任务数量,当前正在运行的任务数量、到目前为止已经完成,没有成功运行和已经终止的任务。上述的分布式hadoop集群故障自动诊断修复系统,其中,所述作业任务监控模块实时查看任务的信息,包括任务的状态、运行任务的开始和结束时间,任务的运行速度及任务所消耗的时间,记录整个任务运行日志,统计任务数目和条目。上述的分布式hadoop集群故障自动诊断修复系统,其中,所述物理节点监控模块对hadoop集群中全部物理机进行分组,监控每个物理节点平均内存和CPU负载,并对物理节点之间监控信息共享。上述的分布式hadoop集群故障自动诊断修复系统,其中,所述数据存储分析处理模块包括:设置热点问题告警,对热点问题进行优先监控,同时建立预测模型,对故障进行预测。上述的分布式hadoop集群故障自动诊断修复系统,其中,所述数据存储分析处理模块对海量数据进行抽取、转换、分类和聚类、设定集群告警相关性,并根据关联规则对监控数据进行关联分析,定位故障所在。上述的分布式hadoop集群故障自动诊断修复系统,其中,还包括设置WEB界面对所述集群文件系统监控模块、作业任务监控模块、物理节点监控模块、数据存储分析处理模块以及自动修复模块的采集监控过程进行可视化展示。本专利技术对比现有技术有如下的有益效果:本专利技术提供的分布式hadoop集群故障自动诊断修复系统,通过对集群健康指标、作业任务进行监控,进行智能分析预警,让管理员实时清楚节点状态、并准确发现节点上出现了什么问题,解决故障不能实时告警的缺陷;并能够定义配置好告警选项及相应解决办法,对监控告警数据进行自动化修复。此外,本专利技术能够存储集群监控数据,建立热点事件进行分析和监控,同时根据监控数据建立预测模型,可以对故障进行预测,解决监控告警数据不能进行智能分析的缺陷。【附图说明】图1为本专利技术分布式hadoop集群故障自动诊断修复系统架构示意图。【具体实施方式】下面结合附图和实施例对本专利技术作进一步的描述。图1为本专利技术分布式hadoop集群故障自动诊断修复系统架构示意图。请参见图1,本专利技术提供的分布式hadoop集群故障自动诊断修复系统,采用集群监控模块分别对集群文件系统、作业任务和物理节点分别进行监控,数据库和数据分析模块构成数据存储分析处理模块,从而形成集群文件系统监控模块、作业任务监控模块、数据存储分析处理模块和自动修复模块共五个模块,实现这五个小模块并将其在web中进行展现和管理,从而组成hadoop自动化监控运维平台,能够进行多方面监控、良好的报警机制、数据分析处理、自动化修复管理。本专利技术实现一种hadoop集群健康指标采集、作业任务执行监控、自动化预警与修复的方法。通过此方法,根据预先配置好关键的运维监控指标可以对集群健康进行检查、作业和任务执行进行可视化分析;根据将监控数据转成到数据库进行分析处理,可以设置热点问题,对热点问题进行重点分析和监控,同时可以建立预测模型,对故障进行预测,提高运维效率;根据定义配置好告警选项和各类告警故障定制好自动化预处理,可以对监控告警数据进行自动化分析,自动化修复;极大的提高了运维的工作效率,为不懂hadoop运维的人提供系统入门的垫脚石,为hadoop管理提供了方便的集群管理工具。本专利技术各模块主要功能及实现过程如下:1、集群文件系统监控模块:整个框架的基础是hadoop的分布式文件系统(HDFS),对集群节点信息以及各种文件的数据库进行具体的分析。浏览文件记录,namenode日志记录,namenode运行情况,如成功运行及运行时间或者运行失败;集群配置容量、DFS占用容量、非DFS占用容量、DFS的可使用容量、DFS已使用百分比、DFS可使用百分比、活节点数、死节点数、namenode的存储目录及类型和状态。HDFS的实时数据,历史状态功能,包括对集群监控后,实时能检测到HDFS信息,浏览和定位相关文件,以及关闭或者打开一个文件,各个磁盘已经使用和各个磁盘的总容量,剩余容量,文件名称本文档来自技高网...
一种分布式hadoop集群故障自动诊断修复系统

【技术保护点】
一种分布式hadoop集群故障自动诊断修复系统,其特征在于,包括:集群文件系统监控模块:采集获取集群节点信息以及数据库文件;作业任务监控模块:采集作业和任务的信息,并对作业任务进行控制管理,包括作业的开启和停止,对指定作业进行周期采样,以及对任务优先级进行管理;物理节点监控模块:监控每个物理节点的资源消耗信息;数据存储分析处理模块:对来自所述集群文件系统监控模块、作业任务监控模块和物理节点监控模块的监控数据进行结构化、统一化后存储到数据库;设定监控告警规则,预先配置告警ID、级别及原因;自动修复模块:预先定义配置各类常见告警故障,并为每个告警故障定制预处理脚本,当所述数据存储分析处理模块监控巡检到故障发生时,对当前发生的故障与预先定义配置的告警故障进行匹配,并调用相应的预处理脚本完成故障的自动处理。

【技术特征摘要】

【专利技术属性】
技术研发人员:程永新胡永李京龙
申请(专利权)人:上海新炬网络信息技术有限公司
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1