【技术实现步骤摘要】
实现任务调度的方法、装置及系统
本专利技术涉及数据处理
,更具体地,涉及一种实现任务调度的方法、一种实现任务调度的装置、一种包括至少一个计算装置和至少一个存储装置的系统、及一种可读存储介质。
技术介绍
Spark是目前主流的开源大数据处理框架,广泛用于机器学习的数据清洗、数据探索和特征抽取等大数据处理任务。目前Spark支持的调度数据处理任务的计算集群包括Kubernetes计算集群、YARN计算集群、Mesos计算集群、Standalone计算集群以及Local计算集群。用户在通过客户端提交数据处理任务时,需要预先通过"--master"和"--deploy-mode"参数来指定运行该数据处理任务的计算集群,而且,每次提交数据处理任务时只能选择一个计算集群。但是,在真实的企业环境中,一般都会有多个Yarn计算集群和/或Kubernetes计算集群,这些计算集群都可以为Spark数据处理任务提供计算资源。如果客户端每次都只向同一个计算集群提交数据处理任务,可能导致该计算集群资源不足、而其他计算集群空闲, ...
【技术保护点】
1.一种实现任务调度的方法,包括:/n获取客户端提交的目标数据处理任务、及所述目标数据处理任务的运行参数;/n获取可用计算集群的资源使用信息;/n根据所述目标数据处理任务的运行参数和所述可用计算集群的资源使用信息,从所述可用计算集群中选取目标计算集群;/n将所述目标数据处理任务调度至所述目标计算集群中运行。/n
【技术特征摘要】
1.一种实现任务调度的方法,包括:
获取客户端提交的目标数据处理任务、及所述目标数据处理任务的运行参数;
获取可用计算集群的资源使用信息;
根据所述目标数据处理任务的运行参数和所述可用计算集群的资源使用信息,从所述可用计算集群中选取目标计算集群;
将所述目标数据处理任务调度至所述目标计算集群中运行。
2.根据权利要求1所述的方法,其中,
该方法还包括:获取后端计算集群的注册信息,完成计算集群的注册;
所述可用计算集群为已注册的计算集群。
3.根据权利要求1所述的方法,所述根据所述目标数据处理任务的运行参数和所述可用计算集群的资源使用信息,从所述可用计算集群中选取目标计算集群包括:
根据所述目标数据处理任务的运行参数,从所述可用计算集群中选取剩余资源大于或等于运行所述目标数据处理任务所需的资源的可用计算集群,作为备选计算集群;
根据所述资源使用信息,从所述备选计算集群中选取所述目标计算集群。
4.根据权利要求3所述的方法,所述根据所述资源使用信息,从所述备选计算集群中选取所述目标计算集群包括:
从所述备选计算集群中,选取剩余资源最大的一个,作为所述目标计算集群。
5.根据权利要求3所述的方法,所述根据所述资源使用信息,从所述备选计算集群中选取所述目标计算集群包括:
从所述备选计算集群中,选取已使用资源最多的一个,作为所述目标计算集群。
6....
【专利技术属性】
技术研发人员:陈迪豪,包新启,王太泽,范晓亮,陈靓,穆妮,王子贤,
申请(专利权)人:第四范式北京技术有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。