The invention provides a Hadoop AWR automatic load analysis information base, an analysis method and a storage medium. The information base includes the data acquisition module, the calculation module and the Awr report information base. Each module is connected through the network. The data acquisition module is used to collect the information of the Hadoop large data cluster to the calculation module. The calculation module is used to use the corresponding algorithm according to the computing mode selected by the client. The calculation results are sent to the Awr report information base, and the Awr report information base provides information for the operators to adjust the hardware and software of the cluster. This invention has made a complete analysis on the host, frame, input file, output file, and task. It makes up the shortage of the existing cluster log system, provides a more comprehensive analysis latitude, and can clearly and effectively point out the performance of the cluster, and help the administrator to optimize the cluster for its own.
【技术实现步骤摘要】
Hadoopawr自动负载分析信息库、分析方法及存储介质
本专利技术属于计算机大数据领域,主要是涉及Hadoopawr自动负载分析信息库、分析方法及存储介质。
技术介绍
Hadoop是一个分布式系统基础架构。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力进行高速运算和存储。Hadoop实现了一个分布式文件系统,其框架最核心的设计就是:HDFS(HadoopDistributedFileSystem)和MapReduce。HDFS为海量的数据提供了存储,则MapReduce为海量的数据提供了计算。Hadoop是可靠的,因为它假设计算元素和存储会失败,因此它维护多个工作数据副本,确保能够针对失败的节点重新分布处理;Hadoop是高效的,因为它以并行的方式工作,通过并行处理加快处理速度;Hadoop还是可伸缩的,能够处理PB级数据;此外,Hadoop依赖于社区服务,因此它的成本比较低,任何人都可以使用。Hadoop是一个能够让用户轻松架构和使用的分布式计算平台。用户可以轻松地在Hadoop上开发和运行处理海量数据的应用程序。它主要有以下几个优点:Hadoop带有用Java语言编写的框架,因此运行在Linux生产平台上是非常理想的。Hadoop上的应用程序也可以使用其他语言编写,比如C++。Hadoop得以在大数据处理应用中广泛应用得益于其自身在数据提取、变形和加载(ETL)方面上的天然优势。Hadoop的分布式架构,将大数据处理引擎尽可能的靠近存储,对例如像ETL这样的批处理操作相对合适,因为类似这样操作的批处理结果可以直接走向存储。 ...
【技术保护点】
1.一种Hadoop awr自动负载分析信息库,所述信息库包括数据采集模块、计算模块、Awr报表信息库,各模块通过网络连接,其中:所述数据采集模块用于采集Hadoop大数据集群的信息送到所述计算模块;所述计算模块用于根据客户端选择的计算模式,采用相应的算法进行相关指标的聚合、分类计算,将计算结果送到Awr报表信息库;所述Awr报表信息库提供信息给运维人员对集群硬件和软件进行调优。
【技术特征摘要】
1.一种Hadoopawr自动负载分析信息库,所述信息库包括数据采集模块、计算模块、Awr报表信息库,各模块通过网络连接,其中:所述数据采集模块用于采集Hadoop大数据集群的信息送到所述计算模块;所述计算模块用于根据客户端选择的计算模式,采用相应的算法进行相关指标的聚合、分类计算,将计算结果送到Awr报表信息库;所述Awr报表信息库提供信息给运维人员对集群硬件和软件进行调优。2.根据权利要求1所述的Hadoopawr自动负载分析信息库,其特征在于,其中:所述数据采集模块包括Hive查询引擎、Mapreduce计算引擎、Spark计算引擎、Other查询引擎,所述各单元通过网络连接到所述计算模块,其中:所述Hive查询引擎用于对大数据集群的sql进行查询并解析成计算任务送到所述计算模块;所述Mapreduce计算引擎用于对大数据集群的计算节点进行分配和调度,解析成计算任务送到所述计算模块;所述Spark计算引擎用于对大数据集群的内存单元的数据分成小的时间片断解析成计算任务送到所述计算模块;所述Other查询引擎用于对大数据集群的其他未分类指标解析成计算任务送到所述计算模块。所述计算模块包括模式解析单元、输入单元、计算单元、输出单元,所述各单元网络连接,其中;所述模式解析单元用于解析客户端选择的计算模式,用对应的计算模式进行数据的填充,将计算模式和数据送到所述输入单元;所述输入单元用于对从所述数据进行格式化、解析、过滤和封装处理,将计算模式和处理过的数据送到所述计算单元;所述计算单元用于接收所述计算模式和输入单元封装的数据,进行相关指标的聚合,分类计算,将计算结果送到所述输出单元;所述输出单元用于对所述计算单元提供的计算结果进行格式化、封装,选择对应的输出报表模式输出到所述awr报表信息库。3.根据权利要求2所述的Hadoopawr自动负载分析信息库,其特征在于,所述模式解析单元解析的所述计算模式包括单机计算模式、集群计算模式、Mapreduce计算模式,其中;所述单机计算模式用于数据量少的集群,提供非分布式算法送到所述输入单元;所述集群计算模式用于Yarn集群,提供Mapreduce、Spark等分布式算法送到所述输入单元;所述Mapreduce计算模式用于Hadoop1.x版本集群,提供Mapreduce分布式算法送到所述输入单元。4.根据权利要求2所述的Hadoopawr自动负载分析信息库,其特征在于,所述输入单元包括输入格式化单元、解析单元、过滤单元、打包单元,其中:所述输入格式化单元用于对来自所述模式解析单元的数据进行格式化后送到所述解析单元;所述解析单元用于对来自所述输入格式化单元的数据进行数据解析后送到所述过滤单元;所述过滤单元用于对来自所述解析单元的数据进行数据过滤后送到打包单元;所述打包单元用于对来自所述过滤单元的数据进行打包后送到所述计算...
【专利技术属性】
技术研发人员:周帅,
申请(专利权)人:深圳市华讯方舟软件信息有限公司,
类型:发明
国别省市:广东,44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。