【技术实现步骤摘要】
分布式深度学习推理云平台任务调度方法
本专利技术涉及一种服务调度方法,尤其涉及一种分布式深度学习推理云平台任务调度方法。
技术介绍
深度学习的训练与推理任务是一种计算密集型任务,但推理任务与训练所不同的是推理任务的计算周期不是长时间与固定某一时间段,而是随着时间的变化而变化,通常在白天到夜晚计算密集流量高,而在夜晚至凌晨流量低计算量相对较少。现有技术中,对于云平台的推理任务的运行效率较低,而且云环境下的加速卡设备的利用率也较低。因此,为了解决上述技术问题,亟需提出一种新的技术手段。
技术实现思路
有鉴于此,本专利技术的目的是提供一种分布式深度学习推理云平台任务调度方法,能够将用户所提交的任务在云环境下进行分布式处理,对于分布式操作下的每一个节点选择加速卡资源状态下的最优并行参数,从而提高任务的运行效率,并能够确保云环境下的加速卡设备的利用率。本专利技术提供的一种分布式深度学习推理云平台任务调度方法,包括以下步骤:S1.将用户在云平台上创建的任务输入任务队列中;S2.任务控制 ...
【技术保护点】
1.一种分布式深度学习推理云平台任务调度方法,其特征在于:包括以下步骤:/nS1.将用户在云平台上创建的任务输入任务队列中;/nS2.任务控制器从任务队列中提取目标任务,并将目标任务对应的服务分割成若干子服务进行分布式处理;/nS3.并行模式选择器根据子服务生成相应的模型;/nS4.任务执行器根据并行模式选择器所产生的模型执行对应的子服务。/n
【技术特征摘要】
20200630 CN 20201061940591.一种分布式深度学习推理云平台任务调度方法,其特征在于:包括以下步骤:
S1.将用户在云平台上创建的任务输入任务队列中;
S2.任务控制器从任务队列中提取目标任务,并将目标任务对应的服务分割成若干子服务进行分布式处理;
S3.并行模式选择器根据子服务生成相应的模型;
S4.任务执行器根据并行模式选择器所产生的模型执行对应的子服务。
2.根据权利要求1所述分布式深度学习推理云平台任务调度方法,其特征在于:步骤S2中,在任务控制器从任务队列中提取目标任务前,由资源监控器判断当前是否可执行任务:
若当前集群资源无空闲或者空闲资源较低,那么任务队列中的任务将处于等待状态;
若当前集群资源具有空余并满足任务执行需求时,则判断当前可执行任务。
3.根据权利要求2所述分布式深度学习推理云平台任务调度方法,其特征在于:任务控制器提取目标任务具体如下:
当前可执行任务时,任务控制器从任务队列中选择最先进入到任务队列的任务作为目标任务。
4.根据权利要求1所述分布式深度学习推理云平台任务调度方法,其特征在于:步骤S2中,任务控制器判断目标任务是否具有对应的服务,若不存在,则创建目标任务的服务。
5.根据权利要求1所述分布...
【专利技术属性】
技术研发人员:谭光明,马立贤,邵恩,张春明,段勃,
申请(专利权)人:中科院计算所西部高等技术研究院,
类型:发明
国别省市:重庆;50
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。