【技术实现步骤摘要】
本专利技术涉及计算机领域,尤其涉及一种Hadoop的配置参数的计算方法及系统。
技术介绍
Hadoop是一个开源的分布式计算框架,其借鉴了MapReduce编程思想,简化了数据的分发、处理、计算和任务的调度,并具有容错、高可靠、可扩展等特性。编程人员只需要编写Map和Reduce函数,而Hadoop会自动将任务分配到集群的各个节点,并执行任务。因此,该框架降低了并行编程的难度,而且编程人员也可以充分利用硬件的资源。目前Hadoop已广泛应用于工业界和学术界。但MapReduce任务的性能由众多因素组成,如物理机群的硬件环境,操作系统参数的配置,JVM性能,任务的调度,以及Hadoop配置参数等等。其中Hadoop的参数配置对性能的影响至关重要。而基于经验的手调方案成本高,耗时长。Hadoop具有190多个配置参数,用户在提交作业时需要指定一些参数,而用户不知道如何调整这些参数,所以大多数用户只能使用默认配置参数,但这不能最大程度挖掘Hadoop ...
【技术保护点】
一种Hadoop的配置参数的计算方法,其特征在于,所述方法包括如下步骤:对工业环境下的实际的生产数据采样获得工业环境的小数据集;随机产生Hadoop配置参数,并将工业环境的小数据集运行于Hadoop集群,输出为运行时间‘以时间为类标,Hadoop配置参数的组合为输入,采用信息增益的方案,输出为Hadoop的重要配置参数;采用遗传算法对获取的重要性参数迭代搜索最优配置组合。
【技术特征摘要】
1.一种Hadoop的配置参数的计算方法,其特征在于,所述方法包括如下步
骤:
对工业环境下的实际的生产数据采样获得工业环境的小数据集;
随机产生Hadoop配置参数,并将工业环境的小数据集运行于Hadoop集群,
输出为运行时间‘
以时间为类标,Hadoop配置参数的组合为输入,采用信息增益的方案,输
出为Hadoop的重要配置参数;
采用遗传算法对获取的重要性参数迭代搜索最优配置组合。
2.根据权利要求1所述的方法,其特征在于,所述采用遗传算法对获取的
重要性参数迭代搜索最优配置组合具体,包括:
使用机器学习算法遗传算法对所述重要性参数进行选择、交叉、变异,多
次迭代搜索近似最优配置组合。
3.根据权利要求1所述的方法,其特征在于,所述方法还包括:
用最优配置组合替换所述工业环境的Hadoop配置值。
4.一...
【专利技术属性】
技术研发人员:刘勇,喻之斌,须成忠,
申请(专利权)人:中国科学院深圳先进技术研究院,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。