一种边缘计算平台上数据分析框架Spark配置参数的优化系统技术方案

技术编号:33760415 阅读:25 留言:0更新日期:2022-06-12 14:09
本发明专利技术涉及信息计算领域,尤其涉及一种边缘计算平台上数据分析框架Spark配置参数的优化系统,包括配置参数区间输入子系统和参数优化子系统,配置参数区间输入子系统用于接收并保存调参范围信息和参数迭代次数;参数优化子系统被配置为:发送运行参数至边缘计算平台;接收边缘计算平台反馈的Spark作业的运行时长并选择运行时长最短的Spark作业所对应的运行参数作为最优配置参数。本发明专利技术提出的一种边缘计算平台上数据分析框架Spark配置参数的优化系统,提升了Spark作业的运行速度。提升了Spark作业的运行速度。提升了Spark作业的运行速度。

【技术实现步骤摘要】
一种边缘计算平台上数据分析框架Spark配置参数的优化系统


[0001]本专利技术涉及信息计算领域,尤其涉及一种边缘计算平台上数据分析框架Spark配置参数的优化系统。

技术介绍

[0002]近年来,可移动的边缘计算一体机是当前计算机体系结构领域的热点。边缘计算一体机主要由硬件层面上和软件层面上组成,硬件层面上包括满足边缘计算需求的小型计算机、网络设备和其他硬件。软件层面上由边缘计算定制的资源管理系统组成。它的主要特点表现为:体积小,低功耗,轻重量,易拓展,高性能,低成本。人们可以利用边缘计算一体机的便携性和灵活性,在靠近数据输入的地方提供计算和存储服务,解决传统模式下将数据回传到云计算中央数据中心的高延迟、网络不稳定和劫持数据不安全的问题。
[0003]基于内存的分布式计算框架Spark在工业界被广泛应用于数据分析。它使用能支持迭代计算的弹性分布式数据集RDD,显著提高了提高迭代计算和交互式数据挖掘中数据处理的速度。作为大数据计算引擎,Spark程序的配置参数多达几十个。
[0004]当前,大数据计算引擎Spark在许多行业应用广泛,被大量地部署在数据中心的云平台上。如何为Spark作业配置合适的参数,一般基于工程师的实践经验。在数据中心中,由于服务器的硬件资源丰富且性能高,基于实践经验的Spark调参虽不是最优,但对普通的Spark作业运行速度也有显著的提升。然而,在硬件资源有限且性能较低的边缘计算平台上,由于重要参数的值范围有限,基于经验的Spark调参取得的效果并不明显。
[0005]另一方面,在实际应用中,批处理的数据分析程序一般被定时调度触发。换言之,工程师编写好的Spark程序将以一定的时间间隔重复运行。但是上述方法没有配置最优的参数,因此存在耗费的时间长,数据处理的速度慢且用户体验差的问题。

技术实现思路

[0006]本专利技术提出一种边缘计算平台上数据分析框架Spark配置参数的优化系统,以解决现有的优化系统无法显著提升Spark作业的运行速度的问题。
[0007]本专利技术解决上述问题的技术方案是:一种边缘计算平台上数据分析框架Spark配置参数的优化系统,包括配置参数区间输入子系统和参数优化子系统,其中
[0008]配置参数区间输入子系统,用于接收并保存调参范围信息和参数迭代次数;其中,所述调参范围信息为用户输入的配置参数的值域范围的信息;
[0009]所述参数优化子系统被配置为:
[0010]发送运行参数至边缘计算平台,其中所述运行参数为基于所述调参范围进行迭代计算得到的参数;
[0011]接收边缘计算平台反馈的Spark作业的运行时长并选择运行时长最短的Spark作业所对应的运行参数作为最优配置参数。
[0012]优选的是,所述配置参数训练子系统包括配置参数搜索模块、任务限时运行模块、运行结果收集模块和最优参数输出模块;其中
[0013]所述配置参数搜索模块被配置为:
[0014]确定预设搜索方向、预设搜索步长和初始运行参数;
[0015]根据运行参数初始值、预设搜索方向和预设搜索步长得到当前的运行参数,其中首轮迭代中的运行参数是利用随机算法生成的;
[0016]所述任务限时运行模块被配置为:每隔2

4秒监控当前Spark作业的运行时长是否长于历史最短运行时长时,若是则终止并标记本次Spark作业;
[0017]所述运行结果收集模块用于接收并保存所述边缘计算平台发送的当前Spark作业的运行时长、运行参数以及是否有中断标记;
[0018]所述最优参数模块用于选择运行时长最短的Spark作业所对应的运行参数作为最优配置参数。
[0019]优选的是,所述确定预设搜索方向、预设搜索步长和初始运行参数中的初始运行参数为上一轮迭代所得到的运行参数。
[0020]优选的是,所述参数迭代次数小于30次。
[0021]优选的是,所述最优参数输出模块还用于将所述最优配置参数保存至文件或后台数据库中。
[0022]优选的是,所述配置参数区间输入子系统包括前端优化区间填写接口和后端优化区间保存单元;
[0023]所述前端优化区间填写接口和后端优化区间保存单元分别用于接收和保存用户输入的调参范围信息和参数迭代次数。
[0024]优选的是,所述前端优化区间填写接口为网页或文本。
[0025]优选的是,所述配置参数区间输入子系统还用于显示保存的历史参数范围。
[0026]相比于现有技术,本专利技术的有益效果在于:在边缘计算平台上,Spark参数优化系统能够为用户提交的Spark作业实现自动调参,并且参数值的大小是在用户设定的阈值范围内。在得到最优的参数值和对应的Spark作业后,该作业重复提交时就会以最优参数运行,数据处理速度比默认的参数值更快,大大提升了用户服务质量。
附图说明
[0027]图1为本专利技术优化系统的流程示意图。
具体实施方式
[0028]为使本专利技术实施方式的目的、技术方案和优点更加清楚,下面将结合本专利技术实施方式中的附图,对本专利技术实施方式中的技术方案进行清楚、完整地描述,显然,所描述的实施方式是本专利技术一部分实施方式,而不是全部的实施方式。基于本专利技术中的实施方式,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施方式,都属于本专利技术保护的范围。因此,以下对在附图中提供的本专利技术的实施方式的详细描述并非旨在限制要求保护的本专利技术的范围,而是仅仅表示本专利技术的选定实施方式。
[0029]实施例1:如图1所示,一种优化系统,包括配置参数区间输入子系统、参数优化子
系统(Optimization)以及边缘计算平台。
[0030]边缘计算平台是一个由多个小机器节点组成的集群。它上面运行的资源管理系统表现为一个master节点管理若干个slave节点。边缘计算平台向用户提供任务提交接口。
[0031]配置参数区间输入子系统包括前端优化区间填写接口和后端优化区间保存单元。前端优化区间填写接口和后端优化区间保存单元分别用于接收和保存用户输入的调参范围信息和参数迭代次数,调参范围信息为用户输入的配置参数值域范围的信息。
[0032]前端优化区间填写接口可以是网页、文本等不同的输入方式。用户可以通过该接口定义好本次Spark作业的若干个参数的优化区间,如在系统网页界面上填写参数spark、executor、memory的最大值和最小值。如果用户不愿填写过多参数的值域设置,系统也提供建议的参数的值域范围。同时,配置参数区间输入子系统也保留上一次用户填写过的参数范围,供下一次填写参考。
[0033]前端优化区间填写接口把填写完的参数范围信息通过http协议传送到后端优化区间保存单元。后端优化区间保存单元会将这些参数范围信息保存下来,可以保存至数据库中,也可以写进到单独的文件中。本专利技术采取读取到单独的文件的方式,后续的参数训练过程将会从该文件中获取到Spark参数的调参范围。...

【技术保护点】

【技术特征摘要】
1.一种边缘计算平台上数据分析框架Spark配置参数的优化系统,其特征在于,包括配置参数区间输入子系统和参数优化子系统,其中配置参数区间输入子系统,用于接收并保存调参范围信息和参数迭代次数;其中,所述调参范围信息为用户输入的参数值域范围的信息;所述参数优化子系统被配置为:发送运行参数至边缘计算平台,其中所述运行参数为基于所述调参范围进行迭代计算得到的参数;接收边缘计算平台反馈的Spark作业的运行时长并选择运行时长最短的Spark作业所对应的运行参数作为最优配置参数。2.根据权利要求1所述的一种边缘计算平台上数据分析框架Spark配置参数的优化系统,其特征在于,所述配置参数训练子系统包括配置参数搜索模块、任务限时运行模块、运行结果收集模块和最优参数输出模块;其中所述配置参数搜索模块被配置为:确定预设搜索方向、预设搜索步长和初始运行参数;根据运行参数初始值、预设搜索方向和预设搜索步长得到当前的运行参数,其中首轮迭代中的运行参数是利用随机算法生成的;所述任务限时运行模块被配置为:每隔2

4秒监控当前Spark作业的运行时长是否长于历史最短运行时长时,若是则终止并标记本次Spark作业;所述运行结果收集模块用于接收并保存所述边缘计算平台发送的当前Spark作业的运行时长、运行参数以及是否有中断标记;所述最优参数模块用...

【专利技术属性】
技术研发人员:李乐乐喻之斌
申请(专利权)人:中国科学院深圳先进技术研究院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1