The invention belongs to the technical field of electronic information, big data, cloud computing, automatic optimization of Spark configuration parameters in particular to the perception of a data, by determining the Spark applications and the effects of parameters of Spark performance in advance, random configuration parameters training set, the training set by random forest algorithm to build the performance model by genetic the algorithm searches the optimal configuration parameters. The invention does not require the user to understand the Spark operating mechanism, function and range of parameters, and the application and characteristics of the input set, users can find the optimal operation in the specific configuration parameters for application specific cluster environment, random forest algorithm parameter configuration method is more simple and efficient than previous invention in combination machine learning and statistical reasoning strengths, can use less of the training set, achieve a high accuracy.
【技术实现步骤摘要】
一种数据感知的Spark配置参数自动优化方法
本专利技术属于电子信息、大数据、云计算等
,特别涉及一种数据感知的Spark配置参数自动优化方法。
技术介绍
Spark是UCBerkeleyAMPlab(加州大学伯克利分校的AMP实验室)所开源的类HadoopMapReduce通用并行框架。它发展迅速,仅用了短短五年时间,就成为Apache基金的顶级项目。由于Spark具有将中间结果存储在内存中的特点,Spark运行迭代和交互式程序比传统的磁盘计算框架Hadoop提高了10倍。由于Spark在大数据分析领域具有重要地位,根据Typesafe公司的调查,2015年已有超过500家企业使用Spark。配置参数优化一直是大数据系统的研究热点之一,由于配置参数众多(多于100个),性能受配置参数影响很大,应用程序具有不同特点。因此使用默认配置远未达到最佳性能。Spark是一种新兴的大数据内存计算框架,由于Spark具有“内存计算”的特性,集群中的所有资源:CPU、网络带宽、内存,都会成为制约Spark程序的瓶颈。而不同的Spark应用程序又具有不同特点,比如Kmeans指令局部性好但数据局部性差,PageRank的shuffle和迭代选择都比KMeans多,WordCount不包含迭代等等。本专利技术要解决的问题是对特定的集群环境、输入数据集和应用程序,为自动Spark找到最优的配置参数。基于随机森林的Hadoop参数自动优化方法RFHOC(ARandom-ForestApproachtoAuto-TuningHadoop’sConfiguration,简称R ...
【技术保护点】
一种数据感知的Spark配置参数自动优化方法,其特征在于,包括如下步骤:收集数据;所述收集数据具体包括:选定Spark应用程序,进一步确定上述应用程序中影响Spark性能的参数,确定上述参数的取值范围;在取值范围内随机生成参数,并生成配置文件配置Spark,配置后运行应用程序并收集数据;所述数据包括但不限于:Spark运行时间、输入数据集、配置参数值;构建性能模型;将收集的Spark运行时间、输入数据集、配置参数值数据构成横向量,多个向量构成训练集,通过随机森林算法对上述训练集进行建模;搜索最优配置参数;使用构建好的性能模型,通过遗传算法搜索最优配置参数。
【技术特征摘要】
1.一种数据感知的Spark配置参数自动优化方法,其特征在于,包括如下步骤:收集数据;所述收集数据具体包括:选定Spark应用程序,进一步确定上述应用程序中影响Spark性能的参数,确定上述参数的取值范围;在取值范围内随机生成参数,并生成配置文件配置Spark,配置后运行应用程序并收集数据;所述数据包括但不限于:Spark运行时间、输入数据集、配置参数值;构建性能模型;将收集的Spark运行时间、输入数据集、配置参数值数据构成横向量,多个向量构成训练集,通过随机森林算法对上述训练集进行建模;搜索最优配置参数;使用构建好的性能模型,通过遗传算法搜索最优配置参数。2.如权利要求1所述的数据感知的Spark配置参数自动优化方法,其特征在于,在所述搜索最优配置参数步骤之后还包括一验证步骤,所述验证步骤为将搜索到的最优配置参数进行配置Spark,并运行验证执行时间是否为最短。3.如权利要求2所述的数据感知的Spark配置参数自动优化方法,其特征在于,在收集数据中所述随机生成参数步骤为:假设参数s取值范围是[a,b],在该取值范围内统一、均匀、随机地取值c,a≦c≦b,则产生一条记录“s/tc”(/t是一个制表符),按照这个方法,生成其他配置参数。4.如权利要求3所述的数据感知的Spark配置参数自动优化方法,其特征在于,所述通过随机森林算法对上述训练集进行建模具体包括如下步骤:随机森林算法从给定的训练集通过多次随机的可重复的采样得到多个bootstrap数据集;对每个bootstra...
【专利技术属性】
技术研发人员:罗妮,喻之斌,贝振东,姜春涛,须成忠,熊文,
申请(专利权)人:深圳先进技术研究院,
类型:发明
国别省市:广东,44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。