基于资源调整的深度学习模型动态批处理调度方法和系统技术方案

技术编号:32784090 阅读:83 留言:0更新日期:2022-03-23 19:43
本发明专利技术提供了一种基于资源调整的深度学习模型动态批处理调度方法和系统,包括:步骤1:将深度学习推理作业按运行时消耗评估资源的种类进行任务拆分;步骤2:根据深度学习推理作业的资源种类和当前部署环境资源情况进行任务动态批处理,当满足预设停止调度条件时停止调度,当接收到新推理作业,或在可用资源发生变化时,触发新的调度。本发明专利技术通过不同运行时期运行调度当时的部署资源情况,得出此时某个推理任务的批处理推理批量大小并调度执行,可以有效的根据实时部署资源,动态调整批处理批量,利用批处理对运行效率的提升并达到对部署资源的实时充分利用,从而提升资源动态变化场景下的推理作业处理的吞吐量。场景下的推理作业处理的吞吐量。场景下的推理作业处理的吞吐量。

【技术实现步骤摘要】
基于资源调整的深度学习模型动态批处理调度方法和系统


[0001]本专利技术涉及深度学习模型的调度和推理部署
,具体地,涉及一种基于资源调整的深度学习模型动态批处理调度方法和系统。

技术介绍

[0002]随着计算机硬件的提升与深度学习领域的快速发展,各种神经网络模型被应用与生命健康,零售,工业等各个领域。深度学习模型的成功应用于商业领域依赖于多个环节,除了模型训练之外,通常还需要将训练好的模型针对使用场景进行优化和部署。用户向部署好的模型传入数据,在输入数据经过模型推理运算后,用户得到对应的输出结果。
[0003]为优化模型推理过程,各种方便于工业部署的模型推理引擎也陆续被开发出来。如NVidia公司推出了针对NVidia GPU进行优化的模型推理引擎triton,Intel公司推出的针对Intel硬件拓展的卷积神经网络模型推理引擎OpenVINO等。各个深度学习框架如tensorflow,porch,mxnet等也都推出了适用于自身框架模型或通用模型的推理部署工具。部分引擎及推理部署工具支持在单一GPU中预加载多个推理模型,在接收本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于资源调整的深度学习模型动态批处理调度方法,其特征在于,包括:步骤1:将深度学习推理作业按运行时消耗评估资源的种类进行任务拆分;步骤2:根据深度学习推理作业的资源种类和当前部署环境资源情况进行任务动态批处理,当满足预设停止调度条件时停止调度,当接收到新推理作业,或在可用资源发生变化时,触发新的调度。2.根据权利要求1所述的基于资源调整的深度学习模型动态批处理调度方法,其特征在于,当任务在DAG图中的前序任务都完成后,记录为就绪,添加至对应调度就绪队列;为实现GPU型任务的批处理动态调度,为GPU型就绪任务构建与CPU型就绪任务队列不同的队列结构。3.根据权利要求1所述的基于资源调整的深度学习模型动态批处理调度方法,其特征在于,若CPU型的就绪队列为多级队列,则第一级按接收作业的先后顺序进行先入先出FIFO调度,每有一个新作业到来时增加一个对应队列,当作业分解的任务都已完成时删除该队列;第二级按作业内就绪作业任务顺序进行FIFO调度,任务记录为就绪状态的时间顺序,调度时优先调度第一级中的首个队列,在首个队列内优先调度其中的首个任务。4.根据权利要求1所述的基于资源调整的深度学习模型动态批处理调度方法,其特征在于,GPU型的就绪队列是由多个独立的队列组成,当出现拆分出的GPU型任务,运行前需加载深度学习模型,构建一个对应队列;调度时,根据当前队列内剩余元素数量由多到少,或队列上次成功调度时间距离当前时间由远及近动态排列队列优先级。5.根据权利要求1所述的基于资源调整的深度学习模型动态批处理调度方法,其特征在于,触发GPU型任务调度后,执行如下步骤:步骤3:排序选出推理任务队列QueueA,获取其中就绪任务TaskA和数量tryBatchSize;步骤4:排序选出包含已加载且空闲状态StageA模型,当前可用显存最大的GPU,计算调度StageA运行支持的最大批量maxBatchSize,若min(tryBatchsize,maxBatchSize)>0,则执行步骤5;否则计算尝试卸载GPU上已经加载的其他空闲模型后调度StageA运行支持的最大批量maxBatchSize,若min(tryBatchsize,maxBatchSize)>0,则执行步骤5;否则排序选出不包含已加载且空闲状态StageA模型,当前可用显存最大的GPU,计算加载模型StageA后,运行支持的最大批量maxBatchSize,若min(tryBatchSize,maxBatchSize)>0,则执行步骤5;否则计算尝试卸载GPU上已经加载的其他空闲模型后调度StageA运行支持的最大批量maxBatchSize,若min(tryBatchsize,maxBatchSize)>0,则执行步骤5,否则结束GPU型任务调度;步骤5:以min(tryBatchSize,maxBatchSize)为批处理大小从Queue中取出对应数量Task执行,然后返回步骤3,继续执行。6.一种基于资源调整的深...

【专利技术属性】
技术研发人员:陈伟睿蒋昌龙冯奕乐王子龙张政丁晓伟
申请(专利权)人:上海体素信息科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1