【技术实现步骤摘要】
云端GPU的显存调度方法、装置、电子设备及存储介质
本申请属于深度学习
,具体涉及一种云端GPU的显存调度方法、装置、电子设备及存储介质。
技术介绍
随着深度学习训练业务数据量的增加,深度学习网络模型所需的GPU(GraphicsProcessingUnit,图形处理器)显存容量变大,用户自己配备GPU的成本很高,所以很多用户选择使用云端的GPU池来运行深度学习网络模型。云端需要为请求运行的深度学习网络模型分配合适的GPU。相关技术中提出了一种针对深度学习网络模型的分布式算力调度方法,该方法所基于的GPU池中每个GPU的显存容量较少,单个GPU无法正常运行深度学习网络模型,因此通过分布式调度为一个深度学习网络模型分配多个GPU。但上述相关技术并不适用于每个GPU的显存容量都很大的GPU池,在这样的GPU池中单个GPU就能够提供用户提交的深度学习网络模型所需要的显存,因此在这样的GPU池中,相关技术中的分布式算力调度方法无法实现高效的显存调度。
技术实现思路
本申请提出一种云端 ...
【技术保护点】
1.一种云端GPU的显存调度方法,其特征在于,所述方法包括:/n接收终端发送的运行请求,所述运行请求包括深度学习网络模型的算法程序和待学习数据;/n根据所述算法程序和所述待学习数据,确定所述深度学习网络模型运行所需的实际显存容量;/n根据所述实际显存容量,从GPU池中为所述深度学习网络模型分配GPU。/n
【技术特征摘要】
1.一种云端GPU的显存调度方法,其特征在于,所述方法包括:
接收终端发送的运行请求,所述运行请求包括深度学习网络模型的算法程序和待学习数据;
根据所述算法程序和所述待学习数据,确定所述深度学习网络模型运行所需的实际显存容量;
根据所述实际显存容量,从GPU池中为所述深度学习网络模型分配GPU。
2.根据权利要求1所述的方法,其特征在于,所述根据所述算法程序和所述待学习数据,确定所述深度学习网络模型运行所需的实际显存容量,包括:
根据所述算法程序,获取所述深度学习网络模型的网络结构信息和批处理数量;
获取所述待学习数据对应的数据维度信息;
根据所述网络结构信息,确定所述深度学习网络模型自身所占的第一显存容量;
根据所述网络结构信息、所述数据维度信息和所述批处理数量,确定运行所述深度学习网络模型所涉及的数据所占的第二显存容量;
计算所述第一显存容量和所述第二显存容量之和,得到所述深度学习网络模型运行所需的实际显存容量。
3.根据权利要求2所述的方法,其特征在于,所述根据所述网络结构信息、所述数据维度信息和所述批处理数量,确定运行所述深度学习网络模型所涉及的数据所占的第二显存容量,包括:
根据所述网络结构信息和所述数据维度信息,确定处理一个数据单元所需的显存容量;
计算所述一个数据单元所需的显存容量与所述批处理数量之间的乘积,得到运行所述深度学习网络模型所涉及的数据所占的第二显存容量。
4.根据权利要求1所述的方法,其特征在于,所述根据所述实际显存容量,从GPU池中为所述深度学习网络模型分配GPU,包括:
获取GPU池中每个GPU的状态信息,所述状态信息包括未使用显存容量;
从所述GPU池中筛选出未使用显存容量大于或等于所述实际显存容量的所有GPU;
从筛选出的GPU中,选择未使用显存容量最小的GPU分配给所述深度学习网络模型。
5.根据权利要求4所述的方法,其特征在于,所述...
【专利技术属性】
技术研发人员:沈筱圆,
申请(专利权)人:浙江智慧视频安防创新中心有限公司,
类型:发明
国别省市:浙江;33
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。