【技术实现步骤摘要】
本专利技术涉及计算机,具体为一种spark自动能效优化方法。
技术介绍
1、随着信息化时代的到来,数据处理需求激增,推动了分布式计算平台的发展。apache spark作为其中的佼佼者,因其出色的硬件兼容性和性能而广受关注。spark采用弹性分布式内存抽象模型(rdd)高效处理集群内存中的数据,相较于hadoop,其计算速度显著提升,从而有效降低了能耗。spark生态系统功能全面,支持sql查询、流数据处理、机器学习和图处理等,且提供java、python、scala和r语言编程接口,用户友好度高。spark集群由master和worker节点组成,通过分解任务为若干stage和task实现并行计算,形成有向无环图(dag)表征应用特征。rdd作为数据表示方式,支持惰性计算和基于lineage的容错机制。
2、然而,spark的能效高度依赖于配置参数,不当的参数设置会显著降低效率,增加能耗。spark拥有超过180个可调参数,且数量随版本升级而增加,其中数十个参数对系统能耗有显著影响。参数调优复杂,因为能效瓶颈可能涉及计算、
...【技术保护点】
1.一种Spark自动能效优化方法,其特征在于所述方法包括以下步骤:
2.根据权利要求1所述的一种Spark自动能效优化方法,其特征在于所述步骤一中利用启发式参数优化方法对参数的默认值进行参数调优,的具体步骤为:
3.根据权利要求2所述的一种Spark自动能效优化方法,其特征在于所述任务并行度表示为:
4.根据权利要求3所述的一种Spark自动能效优化方法,其特征在于所述步骤三中利用机器学习方法对默认值进行参数调优的具体步骤为:
5.根据权利要求4所述的一种Spark自动能效优化方法,其特征在于所述随机递归搜索算法为改进
...【技术特征摘要】
1.一种spark自动能效优化方法,其特征在于所述方法包括以下步骤:
2.根据权利要求1所述的一种spark自动能效优化方法,其特征在于所述步骤一中利用启发式参数优化方法对参数的默认值进行参数调优,的具体步骤为:
3.根据权利要求2所述的一种spark自动能效优化方法,其特征在于所述任务并行度表示为:
4.根据权利要求3所述的一种spark自动能效优化方法,其特征在于所述步骤三中利用机器学习方法对默认值进行参数调优的具体步骤为:
5.根据权利要求4所述的一种spark自动能效优化方法,其特征在于所述随机递归搜索算法为改进的随机...
【专利技术属性】
技术研发人员:巢泽敏,陈潇,杜长斌,孙长秋,王宏志,谭世喆,岑建何,王宇,葛广志,朱艳秋,柴云峰,李菲,高肇明,李欣宇,
申请(专利权)人:哈尔滨工业大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。