【技术实现步骤摘要】
任务处理方法、装置、服务器、客户端、系统和存储介质
本专利技术实施例涉及通信
,尤其涉及一种任务处理方法、服务器、客户端、系统和存储介质。
技术介绍
随着信息推荐技术的发展,在线实时推荐逐渐成为了推荐领域研究的热点,实时推荐系统的关键在于大数据场景下模型的更新速度,而模型通常通过计算集群进行更新。以部署有MPI(MessagePassingInterface,信息传递应用程序接口)环境的MPI集群为示例,程序员开发程序后,需要将任务提交到MPI集群上运行,目前,MPI集群本身不具备资源调度功能,MPI集群通过Slurm(SimpleLinuxUtilityforResourceManagement)对MPI集群的资源进行管理和调度,Slurm是一个开源、容错、高可伸缩的集群管理和大型小型Linux集群作业调度系统,部署有Slurm的MPI集群称为Slurm集群。MPI程序开发者向Slurm集群提交任务,需要MPI程序开发者学习一整套Slurm资源管理工具,深入学习Slurm的各种参数的含义,一方面,MP ...
【技术保护点】
1.一种任务处理方法,其特征在于,应用于服务器,所述服务器分别与客户端和计算集群连接,包括:/n接收所述客户端发送的任务提交请求,所述任务提交请求中包括任务的配置信息;/n生成包含所述配置信息的任务提交脚本;/n将所述任务提交脚本提交到所述计算集群,所述计算集群用于根据所述任务提交脚本中的配置信息运行所述任务。/n
【技术特征摘要】
1.一种任务处理方法,其特征在于,应用于服务器,所述服务器分别与客户端和计算集群连接,包括:
接收所述客户端发送的任务提交请求,所述任务提交请求中包括任务的配置信息;
生成包含所述配置信息的任务提交脚本;
将所述任务提交脚本提交到所述计算集群,所述计算集群用于根据所述任务提交脚本中的配置信息运行所述任务。
2.根据权利要求1所述的方法,其特征在于,在生成包含所述配置信息的任务提交脚本之前,还包括:
生成所述任务的任务索引标识;
将所述配置信息和所述任务索引标识关联存储在预先建立的任务信息数据库中。
3.根据权利要求2所述的方法,其特征在于,所述生成包含所述配置信息的任务提交脚本,包括:
采用所述任务索引标识在所述任务信息数据库中查找所述任务的配置信息;
将所述配置信息封装为所述任务的任务提交脚本。
4.根据权利要求1所述的方法,其特征在于,所述配置信息包括运行所述任务时所需资源的资源信息、所述任务在分布式文件系统中的任务目录、提交所述任务的用户的用户名、所述任务的任务名、所述任务的运行时长、所述任务所在的任务队列中的至少一项。
5.根据权利要求1-4任一项所述的方法,其特征在于,所述配置信息包括运行所述任务时所需资源的资源信息,所述将所述任务提交脚本提交到所述计算集群之前,还包括:
对所述任务提交脚本中的资源信息进行校验;
在对所述资源信息校验成功时,执行将所述任务提交脚本提交到所述计算集群的步骤;
在对所述资源信息校验失败时,向所述客户端返回资源信息校验失败的信息。
6.根据权利要求1-4任一项所述的方法,其特征在于,所述配置信息包括提交所述任务的用户的用户名、所述任务的任务名以及所述任务所在的任务队列,所述将所述任务提交脚本提交到所述计算集群之前,还包括:
当所述任务所在的任务队列为在线任务队列时,基于预先建立的准入数据库对所述任务提交脚本中的所述用户名和所述任务名进行校验;
在对所述用户名和所述任务名校验成功时,执行将所述任务提交脚本提交到所述计算集群的步骤;
在对所述用户名和所述任务名校验失败时,向所述客户端返回准入在线队列校验失败的信息。
7.根据权利要求1-4任一项所述的方法,其特征在于,还包括:
从所述计算集群获取所述任务的运行状态信息;
将所述运行状态信息与所述任务的任务索引标识关联存储在预先建立的任务信息数据库中。
8.根据权利要求7所述的方法,其特征在于,还包括:
接收所述客户端发送的任务状态查询请求,所述任务状态查询请求中包括所述任务的任务索引标识;
基于所述任务索引标识在所述任务信息数据库中查询所述任务的运行状态信息;
将所述运行状态信息发送至所述客户端。
9.根据权利要求1-4任一项所述的方法,其特征在于,还包括:
接收所述客户端发送的任务日志获取请求,所述任务日志获取请求中包含所述任务的任务索引标识;
基于所述任务索引标识确定所述计算集群中运行所述任务的计算节点的地址;
将所述地址发送至所述客户端,所述客户端用于根据所述地址向所述计算节点请求所述任务的任务日志。
10.根据权利要求1-4任一项所述的方法,其特征在于,还包括:
当检测到资源抢占触发事件时,以预设策略抢占资源以使得所述计算集群运行在线任务队列中的任务。
11.根据权利要求10所述的方法,其特征在于,所述资源抢占触发事件包括在线任务队列中存在等待执行的任务,或者在线任务队列中任务的等待时长大于预设时长。
12.根据权利要求10所述的方法,其特征在于,所述当检测到资源抢占触发事件时,以预设策略抢占资源以使得所述计算集群运行在线任务队列中的任务,包括:
调用所述计算集群的指定接口取消离线任务队列中处于指定状态的任务,或者,
调用所述计算集群的指定接口取消离线任务队列中资源使用量大于预设阈值的任务。
13.根据权利要求1-4任一项所述的方法,其特征在于,还包括:
获取所述计算集群的资源监控信息;
展示所述资源监控信息。
14.根据权利要求13所述的方法,其特征在于,所述展示所述资源监控信息,包括:
响应所述客户端的资源监控信息请求,将所述资源监控信息发送至所述客户端,以在所述客户端展示所述资源监控信息。
15.根据权利要求1-4任一项所述的方法,其特征在于,还包括:
获取所述计算集...
【专利技术属性】
技术研发人员:梁家彪,陈航,张志彪,
申请(专利权)人:广州市网星信息技术有限公司,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。