Hadoop awr自动负载分析信息库、分析方法及存储介质技术

技术编号:18592104 阅读:42 留言:0更新日期:2018-08-04 20:02
本发明专利技术提供Hadoop awr自动负载分析信息库、分析方法及存储介质。所述信息库包括数据采集模块、计算模块、Awr报表信息库,各模块通过网络连接,其中:所述数据采集模块用于采集Hadoop大数据集群的信息送到所述计算模块;所述计算模块用于根据客户端选择的计算模式,采用相应的算法进行相关指标的聚合、分类计算,将计算结果送到Awr报表信息库;所述Awr报表信息库提供信息给运维人员对集群硬件和软件进行调优。本发明专利技术在主机、机架、输入文件、输出文件、任务方面做了完整的分析,弥补了现有集群日志系统的不足,提供了更全面的分析纬度,能非常明确和有效的指出集群的性能问题,帮助管理员针对自己的集群做出优化。

Hadoop AWR automatic load analysis information base, analysis method and storage medium

The invention provides a Hadoop AWR automatic load analysis information base, an analysis method and a storage medium. The information base includes the data acquisition module, the calculation module and the Awr report information base. Each module is connected through the network. The data acquisition module is used to collect the information of the Hadoop large data cluster to the calculation module. The calculation module is used to use the corresponding algorithm according to the computing mode selected by the client. The calculation results are sent to the Awr report information base, and the Awr report information base provides information for the operators to adjust the hardware and software of the cluster. This invention has made a complete analysis on the host, frame, input file, output file, and task. It makes up the shortage of the existing cluster log system, provides a more comprehensive analysis latitude, and can clearly and effectively point out the performance of the cluster, and help the administrator to optimize the cluster for its own.

【技术实现步骤摘要】
Hadoopawr自动负载分析信息库、分析方法及存储介质
本专利技术属于计算机大数据领域,主要是涉及Hadoopawr自动负载分析信息库、分析方法及存储介质。
技术介绍
Hadoop是一个分布式系统基础架构。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力进行高速运算和存储。Hadoop实现了一个分布式文件系统,其框架最核心的设计就是:HDFS(HadoopDistributedFileSystem)和MapReduce。HDFS为海量的数据提供了存储,则MapReduce为海量的数据提供了计算。Hadoop是可靠的,因为它假设计算元素和存储会失败,因此它维护多个工作数据副本,确保能够针对失败的节点重新分布处理;Hadoop是高效的,因为它以并行的方式工作,通过并行处理加快处理速度;Hadoop还是可伸缩的,能够处理PB级数据;此外,Hadoop依赖于社区服务,因此它的成本比较低,任何人都可以使用。Hadoop是一个能够让用户轻松架构和使用的分布式计算平台。用户可以轻松地在Hadoop上开发和运行处理海量数据的应用程序。它主要有以下几个优点:Hadoop带有用Java语言编写的框架,因此运行在Linux生产平台上是非常理想的。Hadoop上的应用程序也可以使用其他语言编写,比如C++。Hadoop得以在大数据处理应用中广泛应用得益于其自身在数据提取、变形和加载(ETL)方面上的天然优势。Hadoop的分布式架构,将大数据处理引擎尽可能的靠近存储,对例如像ETL这样的批处理操作相对合适,因为类似这样操作的批处理结果可以直接走向存储。Hadoop的MapReduce功能实现了将单个任务打碎,并将碎片任务(Map)发送到多个节点上,之后再以单个数据集的形式加载到数据仓库里。AWR(AutomaticWorkloadRepository)是自动负载信息库的英文缩写,AWR报告是Oracle10g以后版本提供的一种性能收集和分析工具,能提供一个时间段内整个系统资源使用情况的报告,通过报告可以了解一个系统的整个运行情况,生成的报告包括多个部分。AWR每小时对内存中的采集信息进行采样一次,并将信息保存到磁盘中,并且保留7天,7天后旧的记录才会被覆盖。这些采样信息被保存写入AWR库中。而这个采样频率和保留时间是可以根据实际情况进行调整的,这就给DBA们提供了更加有效的系统监测工具。DBA(DatabaseAdministrator)对数据库运行状态及状况的监控了解、测试过程中发现数据库出现瓶颈但无法定位到具体原因时,可以借用AWR报告进行分析定位。数据库出现性能问题,一般都在三个地方:IO、内存、CPU,这三个地方又是息息相关的。假设这个三个地方都没有物理上的故障,当IO负载增大时,肯定需要更多的内存来存放,同时也需要CPU花费更多的时间来过滤这些数据。相反,CPU时间花费多的话,有可能是解析SQL(StructuredQueryLanguage)语句,也可能是过滤太多的数据,倒不一定是和IO或内存有关系。图1是Hadoop集群的系统组成示意图。如图1所示,Hadoop集群包括五个层,分别为数据采集、数据存储、数据调度、大数据计算、应用层。数据采集是数据的接入层,这层级的框架负责将数据传输进入大数据集群,和将大数据集群的数据导出。Flume:异构数据采集框架;Sqoop:关系型数据库离线采集框架;Canal:关系型数据库在线采集框架。数据存储是数据的存储层,这层框架主要对数据进行存储,提供各式数据接口供用户使用。Hdfs:Hadoop的默认分布式存储系统;Hbase:hadoop的默认数据库,基于Hdfs,提供了Oltp(on-linetransactionprocessing),Olap(On-LineAnalyticalProcessing)等访问方式,基于列式存储;Kafka:流式数据存储,供流式计算使用,是一个消息队列系统。数据调度是资源的管理和调度分配层,负责管理Cpu,内存等资源,并将不同的计算框架根据资源情况进行分配计算等。Yarn:Hadoop默认的调度系统,兼容多种计算框架,多种调度算法。大数据计算:各种不同的计算框架。Hive:大数据Sql查询引擎,将Sql解析成Mapreduce或者Spark等计算任务,进行计算;Spark:内存计算引擎,分布式算法;Mapreduce:Hadoop默认的计算引擎,分布式算法;Phoenix:基于Hbase的Sql计算引擎;Other:其他类型的计算框架。应用层:各种大数据体系的客户端应用系统。Oozie:大数据计算任务的调度系统,将不同任务进行组合,根据依赖关系进行调度;Hue:大数据开发统一网关,开发人员借助这个工具进行大数据开发。Hadoop集群运行一段时间后管理员无法发现以下问题:无法发现集群使用最多的文件;集群每个主机和机架的Cpu和内存分别分配给了哪些任务;每个文件分别暂用了多少计算资源;任务的计算和资源分配是否合理;Hdfs的文件平衡度是否合理;机架的划分是否合理。为了解决以上问题,本专利技术拟提供Hadoopawr自动负载分析信息库分析方法及存储介质,通过Hadoopawr对大数据集群进行性能收集、分析和调优。
技术实现思路
本专利技术的目的在于提供一个Hadoop集群的性能收集和调优工具,提供一种方式去分析集群当前的负载情况,输出集群负载相关报表信息,用以指导管理人员了解集群的负载情况,是Hadoop集群调优的利器。本专利技术提供一种Hadoopawr自动负载分析信息库,所述信息库包括数据采集模块、计算模块、Awr报表信息库,各模块通过网络连接,其中:所述数据采集模块用于采集Hadoop大数据集群的信息送到所述计算模块;所述计算模块用于根据客户端选择的计算模式,采用相应的算法进行相关指标的聚合、分类计算,将计算结果送到Awr报表信息库;所述Awr报表信息库提供信息给运维人员对集群硬件和软件进行调优。进一步地,所述数据采集模块包括Hive查询引擎、Mapreduce计算引擎、Spark计算引擎、Other查询引擎,所述各单元通过网络连接到所述计算模块,其中:所述Hive查询引擎用于对大数据集群的Sql进行查询并解析成计算任务送到所述计算模块;所述Mapreduce计算引擎用于对大数据集群的计算节点进行分配和调度,解析成计算任务送到所述计算模块;所述Spark计算引擎用于对大数据集群的内存单元的数据分成小的时间片断解析成计算任务送到所述计算模块;所述Other查询引擎用于对大数据集群的其他未分类指标解析成计算任务送到所述计算模块。进一步地,所述计算模块包括模式解析单元、输入单元、计算单元、输出单元,所述各单元网络连接,其中;所述模式解析单元用于解析客户端选择的计算模式,用对应的计算模式进行数据的填充,将计算模式和数据送到所述输入单元;所述输入单元用于对从所述数据进行格式化、解析、过滤和封装处理,将计算模式和处理过的数据送到所述计算单元;所述计算单元用于接收所述计算模式和输入单元封装的数据,进行相关指标的聚合,分类计算,将计算结果送到所述输出单元;所述输出单元用于对所述计算单元提供的计算结果进行格式化、封装,选择对应的输出报表模式本文档来自技高网
...

【技术保护点】
1.一种Hadoop awr自动负载分析信息库,所述信息库包括数据采集模块、计算模块、Awr报表信息库,各模块通过网络连接,其中:所述数据采集模块用于采集Hadoop大数据集群的信息送到所述计算模块;所述计算模块用于根据客户端选择的计算模式,采用相应的算法进行相关指标的聚合、分类计算,将计算结果送到Awr报表信息库;所述Awr报表信息库提供信息给运维人员对集群硬件和软件进行调优。

【技术特征摘要】
1.一种Hadoopawr自动负载分析信息库,所述信息库包括数据采集模块、计算模块、Awr报表信息库,各模块通过网络连接,其中:所述数据采集模块用于采集Hadoop大数据集群的信息送到所述计算模块;所述计算模块用于根据客户端选择的计算模式,采用相应的算法进行相关指标的聚合、分类计算,将计算结果送到Awr报表信息库;所述Awr报表信息库提供信息给运维人员对集群硬件和软件进行调优。2.根据权利要求1所述的Hadoopawr自动负载分析信息库,其特征在于,其中:所述数据采集模块包括Hive查询引擎、Mapreduce计算引擎、Spark计算引擎、Other查询引擎,所述各单元通过网络连接到所述计算模块,其中:所述Hive查询引擎用于对大数据集群的sql进行查询并解析成计算任务送到所述计算模块;所述Mapreduce计算引擎用于对大数据集群的计算节点进行分配和调度,解析成计算任务送到所述计算模块;所述Spark计算引擎用于对大数据集群的内存单元的数据分成小的时间片断解析成计算任务送到所述计算模块;所述Other查询引擎用于对大数据集群的其他未分类指标解析成计算任务送到所述计算模块。所述计算模块包括模式解析单元、输入单元、计算单元、输出单元,所述各单元网络连接,其中;所述模式解析单元用于解析客户端选择的计算模式,用对应的计算模式进行数据的填充,将计算模式和数据送到所述输入单元;所述输入单元用于对从所述数据进行格式化、解析、过滤和封装处理,将计算模式和处理过的数据送到所述计算单元;所述计算单元用于接收所述计算模式和输入单元封装的数据,进行相关指标的聚合,分类计算,将计算结果送到所述输出单元;所述输出单元用于对所述计算单元提供的计算结果进行格式化、封装,选择对应的输出报表模式输出到所述awr报表信息库。3.根据权利要求2所述的Hadoopawr自动负载分析信息库,其特征在于,所述模式解析单元解析的所述计算模式包括单机计算模式、集群计算模式、Mapreduce计算模式,其中;所述单机计算模式用于数据量少的集群,提供非分布式算法送到所述输入单元;所述集群计算模式用于Yarn集群,提供Mapreduce、Spark等分布式算法送到所述输入单元;所述Mapreduce计算模式用于Hadoop1.x版本集群,提供Mapreduce分布式算法送到所述输入单元。4.根据权利要求2所述的Hadoopawr自动负载分析信息库,其特征在于,所述输入单元包括输入格式化单元、解析单元、过滤单元、打包单元,其中:所述输入格式化单元用于对来自所述模式解析单元的数据进行格式化后送到所述解析单元;所述解析单元用于对来自所述输入格式化单元的数据进行数据解析后送到所述过滤单元;所述过滤单元用于对来自所述解析单元的数据进行数据过滤后送到打包单元;所述打包单元用于对来自所述过滤单元的数据进行打包后送到所述计算...

【专利技术属性】
技术研发人员:周帅
申请(专利权)人:深圳市华讯方舟软件信息有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1