计算引擎作业的执行处理方法、装置、电子设备及介质制造方法及图纸

技术编号:38105367 阅读:9 留言:0更新日期:2023-07-06 09:27
本申请提供一种计算引擎作业的执行处理方法、装置、电子设备及介质。该方法包括:获取计算引擎作业和运行单元的历史资源数据,该运行单元用于运行计算引擎作业;确定与历史资源数据对应的历史执行代价数据;基于历史执行代价数据,得到计算引擎作业的预估资源申请量,以及与预估资源申请量对应的预估执行代价数据;根据预估执行代价数据对预估资源申请量进行调优处理,得到调优后资源申请量;向调度系统提供数据查询接口,以使得调度系统经数据查询接口调用调优后资源申请量,并基于调优处理后资源申请量执行计算引擎作业。可以解决现有技术无法有效的实现动态调整资源申请量,难以提升整体调度资源的利用率的问题。提升整体调度资源的利用率的问题。提升整体调度资源的利用率的问题。

【技术实现步骤摘要】
计算引擎作业的执行处理方法、装置、电子设备及介质


[0001]本申请涉及大数据处理技术,尤其涉及一种计算引擎作业的执行处理方法、装置、电子设备及介质。

技术介绍

[0002]目前,在大数据处理平台中,用户对于计算引擎spark作业运行时所需要的资源量难以准确估算,为了使spark作业可以正常运行,一般都会在资源量的上限范围申请尽量多的资源,而spark作业实际运行时可能只需要其中的一小部分资源,导致申请的资源有很大一部分空置浪费,但又无法分配给其他spark作业,而调度系统为了在同一时间内可以调度运行更多的spark作业,只能部署更多的资源设备,调度资源利用率很低,导致调度资源的大面积浪费。
[0003]但是,现有技术一般通过估算作业处理的数据规模,以及spark作业的计算逻辑来判定spark作业的处理器、内存使用情况,并人工调整资源的申请量,该方式无法有效的实现动态调整资源申请量,难以提升整体调度资源的利用率。

技术实现思路

[0004]本申请提供一种计算引擎作业的执行处理方法、装置、电子设备及介质,用以解决现有技术无法有效的实现动态调整资源申请量,难以提升整体调度资源的利用率的问题,实现有效的实现动态调整资源申请量,提升整体调度资源的利用率的技术效果。
[0005]一方面,本申请提供一种计算引擎作业的执行处理方法,包括:
[0006]获取计算引擎作业和运行单元的历史资源数据,其中,所述运行单元用于运行所述计算引擎作业;
[0007]确定与所述历史资源数据对应的历史执行代价数据,其中,所述历史执行代价数据用于表征在历史时段内执行所述计算引擎作业的平均资源消耗量;
[0008]基于所述历史执行代价数据,得到所述计算引擎作业的预估资源申请量,以及与所述预估资源申请量对应的预估执行代价数据;
[0009]根据所述预估执行代价数据对所述预估资源申请量进行调优处理,得到调优后资源申请量;
[0010]向调度系统提供数据查询接口,以使得所述调度系统经所述数据查询接口调用所述调优后资源申请量,并基于所述调优处理后资源申请量执行所述计算引擎作业。
[0011]进一步地,所述获取计算引擎作业和运行单元的历史资源数据,包括:
[0012]获取所述计算引擎作业的第一资源数据,其中,所述第一资源数据包括:作业运行时长、运行单元申请量、内存资源申请量和处理资源申请量;
[0013]获取用于执行所述计算引擎作业的所述运行单元的第二资源数据,其中,所述第二资源数据包括:运行单元数量、运行单元运行时长、内存资源使用量,处理资源使用时长和处理资源使用量
[0014]获取用于执行所述计算引擎作业的所述运行单元的内存资源使用量,处理资源使用时长和处理资源使用量。
[0015]进一步地,所述确定与所述历史资源数据对应的历史执行代价数据,包括:
[0016]将所述历史资源数据输入至预训练得到的执行代价模型,以得到所述执行代价模型输出的处理结果,其中,所述处理结果为在所述历史时段内执行所述计算引擎作业的平均资源消耗量,所述执行代价模型的训练样本至少包含:多组历史资源样本,以及与所述历史资源样本对应的平均资源消耗样本量。
[0017]进一步地,基于所述历史执行代价数据,得到所述计算引擎作业的预估资源申请量,以及与所述预估资源申请量对应的预估执行代价数据,包括:
[0018]根据所述历史时段内执行所述计算引擎作业的平均资源消耗量除以所述计算引擎作业的资源利用率,作为所述计算引擎作业的所述预估资源申请量;
[0019]假定基于所述预估资源申请量,重新执行所述计算引擎作业的作业运行时长不变,并获取基于所述预估资源申请量执行所述计算引擎作业的资源利用率和所述运行单元申请量;
[0020]根据所述处理资源申请量、所述内存资源申请量、所述计算引擎作业的资源利用率和所述运行单元申请量,以及所述处理资源申请量和所述内存资源申请量之间的权重比,计算得到与所述预估资源申请量对应的所述预估资源消耗量。
[0021]进一步地,所述根据所述预估执行代价数据对所述预估资源申请量进行调优处理,得到调优后资源申请量,包括:
[0022]若所述运行单元申请量大于或等于数量阈值,则对所述运行单元申请量进行向上取整处理,得到调优后运行单元申请量;
[0023]若所述调优后运行单元申请量大于所述运行单元申请量,则开始循环对所述处理资源申请量和所述内存资源申请量进行调优处理,得到调优后处理资源申请量和调优后内存资源申请量;
[0024]若所述运行单元申请量小于所述数量阈值,则循环对所述处理资源申请量和所述内存资源申请量进行调优处理,得到调优后处理资源申请量和调优后内存资源申请量。
[0025]进一步地,在所述循环对所述处理资源申请量和所述内存资源申请量进行调优处理,得到调优后处理资源申请量和调优后内存资源申请量之后,所述方法还包括:
[0026]若确定所述调优后处理资源申请量大于目标申请量,且调优后处理资源申请量的利用率小于目标比例的调优后内存资源申请量的利用率,则再次调优所述调优后处理资源申请量,得到再次调优后处理资源申请量;
[0027]若确定所述调优后内存资源申请量大于目标内存量,则再次调优所述调优后内存资源申请量,得到再次调优后内存资源申请量,其中,所述目标内存量为内存资源峰量和预留内存资源量的总和;
[0028]根据所述再次调优后处理资源申请量和所述再次调优后内存资源申请量,得到再次调优后运行单元申请量。
[0029]进一步地,在所述循环对所述处理资源申请量和所述内存资源申请量进行调优处理,得到调优后处理资源申请量和调优后内存资源申请量之后,所述方法还包括:
[0030]若确定所述调优后处理资源申请量小于或等于目标申请量,则结束循环对所述处
理资源申请量和所述内存资源申请量进行调优处理;
[0031]若确定所述调优后内存资源申请量大于目标内存量,则结束循环对所述处理资源申请量和所述内存资源申请量进行调优处理。
[0032]另一方面,本申请提供一种计算引擎作业的执行处理装置,上述装置包括:
[0033]获取模块,用于获取计算引擎作业和运行单元的历史资源数据,其中,所述运行单元用于运行所述计算引擎作业;
[0034]第一确定模块,用于确定与所述历史资源数据对应的历史执行代价数据,其中,所述历史执行代价数据用于表征在历史时段内执行所述计算引擎作业的平均资源消耗量;
[0035]第二确定模块,用于基于所述历史执行代价数据,得到所述计算引擎作业的预估资源申请量,以及与所述预估资源申请量对应的预估执行代价数据;
[0036]调优处理模块,用于根据所述预估执行代价数据对所述预估资源申请量进行调优处理,得到调优后资源申请量;
[0037]提供模块,用于向调度系统提供数据查询接口,以使得所述调度系统经所述数据查询接口调用所述调优后资源申请量,并基于所本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种计算引擎作业的执行处理方法,其特征在于,包括:获取计算引擎作业和运行单元的历史资源数据,其中,所述运行单元用于运行所述计算引擎作业;确定与所述历史资源数据对应的历史执行代价数据,其中,所述历史执行代价数据用于表征在历史时段内执行所述计算引擎作业的平均资源消耗量;基于所述历史执行代价数据,得到所述计算引擎作业的预估资源申请量,以及与所述预估资源申请量对应的预估执行代价数据;根据所述预估执行代价数据对所述预估资源申请量进行调优处理,得到调优后资源申请量;向调度系统提供数据查询接口,以使得所述调度系统经所述数据查询接口调用所述调优后资源申请量,并基于所述调优处理后资源申请量执行所述计算引擎作业。2.根据权利要求1所述的方法,其特征在于,所述获取计算引擎作业和运行单元的历史资源数据,包括:获取所述计算引擎作业的第一资源数据,其中,所述第一资源数据包括:作业运行时长、运行单元申请量、内存资源申请量和处理资源申请量;获取用于执行所述计算引擎作业的所述运行单元的第二资源数据,其中,所述第二资源数据包括:运行单元数量、运行单元运行时长、内存资源使用量,处理资源使用时长和处理资源使用量。3.根据权利要求1或2所述的方法,其特征在于,所述确定与所述历史资源数据对应的历史执行代价数据,包括:将所述历史资源数据输入至预训练得到的执行代价模型,以得到所述执行代价模型输出的处理结果,其中,所述处理结果为在所述历史时段内执行所述计算引擎作业的平均资源消耗量,所述执行代价模型的训练样本至少包含:多组历史资源样本,以及与所述历史资源样本对应的平均资源消耗样本量。4.根据权利要求2所述的方法,其特征在于,基于所述历史执行代价数据,得到所述计算引擎作业的预估资源申请量,以及与所述预估资源申请量对应的预估执行代价数据,包括:根据所述历史时段内执行所述计算引擎作业的平均资源消耗量除以所述计算引擎作业的资源利用率,作为所述计算引擎作业的所述预估资源申请量;假定基于所述预估资源申请量,重新执行所述计算引擎作业的作业运行时长不变,并获取基于所述预估资源申请量执行所述计算引擎作业的资源利用率和所述运行单元申请量;根据所述处理资源申请量、所述内存资源申请量、所述计算引擎作业的资源利用率和所述运行单元申请量,以及所述处理资源申请量和所述内存资源申请量之间的权重比,计算得到与所述预估资源申请量对应的所述预估资源消耗量。5.根据权利要求2所述的方法,其特征在于,所述根据所述预估执行代价数据对所述预估资源申请量进行调优处理,得到调优后资源申请量,包括:若所述运行单元申请量大于或等于数量阈值,则对所述运行单元申请量进行向上取整处理,得到调优后运行单元申请量;
若所述调优后运行单元申请量大于所述运行单元申请量,则开始循环对所述处理资源申请量和所述内存资源申请量进行调优处理,得到调优后处理资源申请量和调优后内存资源申请量;若所述运行单元申请量小于所述数量阈值,则循环对所述处理资源申请量和所述内存资源申请量进行调优处理,得到调优后处理资源申请量和调优后内存资源申请量。6.根据权利要求5所述的方法,其特征在于,在所述循环对所述处理资源申请量和所述内存资源申请量进行调优处理,得到调优后处理资源申请量和调优后内存资源申请量之后,所述方法还包括:若确定所述调优后处理资源申请量大于目标申请量,且调优后处理资源申请量的利用率小于目标比例的调优后内存资源申请量的利用率,则再次调优所述调优后处理资源申请量,得到再次调优后处理资源申请量;若确定所述调优后内存资源申请量大于目标内存量,则再次调优所述调优后内存资源申请量,得到再次调优后内存资源申请量,其中,所述目标内存量为内存资源峰量和预留内存资源量的总和;根据所述再次调优后处理资源申请量和所述再次调优后内存资源申请量,得到再次调优后运行单元申请量。7.根据权利要求5所述的方法,其特征在于,在所述循环对所述处理资源申请量和所述内存资源申请量进行调优处理,得到调优后处理资源申请量和调优后内存资源申请量之后,所述方法还包括:若确定所述调优后处理资源申请量小于或等于目标申请量,则结束循环对所述处理资源申请量和所述内存资源申请量进行调优处理;若确定所述调优后内存资源申请量大于目标内存量,则结束循环对所述处理资源申请量和所述内存资源申请量进行调优处理。8.一种计算引擎作业的执行处理装置,其特...

【专利技术属性】
技术研发人员:陈文柏赖海滨翁世清赵世辉
申请(专利权)人:建信金融科技有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1