【技术实现步骤摘要】
本申请涉及推理性能优化与异构资源调度领域,尤其涉及一种面向异构gpu集群的资源分配与任务调度方法及系统。
技术介绍
1、随着通信技术的不断进步和人工智能的创新,靠近数据源的实时推理服务在广泛用户群中得以共享。用户对这些时延敏感且计算密集型的服务提出了严格的质量要求。但许多终端设备在计算、存储性能方面往往存在不足,难以满足实时推理的需求。为此,将推理服务迁移到边缘或云端服务器成为了一个重要的解决方案。
2、随着硬件设备的不断升级,网络基础设施中的计算资源展现出泛在性和异构性。在推理服务中,gpu作为主要的计算力量,分布于多个节点。这些gpu型号在计算核心数量、内存容量和功耗等方面存在差异。这使得推理服务能够灵活调度计算资源,智能选择适合的推理模型和优化模型的部署数量,以应对实时变化的流量需求。因此,合理利用这些异构gpu资源并提高其利用率,成为高效推理服务的关键。
3、然而,当前的推理资源调度方法大多存在两个明显的不足。首先,在异构gpu扩展方面,这些方法的适用性仍然有限,未能充分挖掘不同型号gpu的性能优势。特别
...【技术保护点】
1.一种面向异构GPU集群的资源分配与任务调度方法,其特征在于,所述方法包括如下步骤:
2.根据权利要求1所述的资源分配与任务调度方法,其特征在于,利用Little定理动态计算步骤S1所述的系统的平均响应时间,包括如下步骤:获取时间区间t0至t1内的系统中平均任务数量包括正在运行任务中的和排队中的任务;以及任务平均到达率得到平均响应时间
3.根据权利要求2所述的资源分配与任务调度方法,其特征在于,步骤S2所述的基于资源效用的亲和度感知算法,构建每个推理模型在异构GPU上的单位资源效用矩阵,包括如下步骤:
4.根据权利要求3所述的资源
...【技术特征摘要】
1.一种面向异构gpu集群的资源分配与任务调度方法,其特征在于,所述方法包括如下步骤:
2.根据权利要求1所述的资源分配与任务调度方法,其特征在于,利用little定理动态计算步骤s1所述的系统的平均响应时间,包括如下步骤:获取时间区间t0至t1内的系统中平均任务数量包括正在运行任务中的和排队中的任务;以及任务平均到达率得到平均响应时间
3.根据权利要求2所述的资源分配与任务调度方法,其特征在于,步骤s2所述的基于资源效用的亲和度感知算法,构建每个推理模型在异构gpu上的单位资源效用矩阵,包括如下步骤:
4.根据权利要求3所述的资源分配与任务调度方法,其特征在于,计算资源效用μij与最晚服务时延lc和到达率λ的差异,按比例动态调整资源分配比例
5.根据权利要求4所述的资源分配与任务调度方法,其特征在于,计算最后两次资源效用μij变化率,获得单位资源效用其中,xij[max_iters]、μij[max_iters]指的是倒数第一次的资源分配比例以及在此配置下取得的资源效...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。