面向多阶段AI云服务的高吞吐异构资源管理方法及器件技术

技术编号：32265717 阅读：9 留言：0更新日期：2022-02-12 19:28

本发明专利技术提供一种面向多阶段AI云服务的高吞吐异构资源管理方法及器件，所述面向多阶段AI云服务的高吞吐异构资源管理方法包括：利用一服务质量目标分配器基于接收到的LC服务的请求将服务质量目标拆分为CPU侧服务质量目标和GPU侧服务质量目标；利用一异构资源管理器以CPU侧服务质量目标和GPU侧服务质量目标作为初始样本搜索最佳资源分配；利用一服务质量补偿器实时监测CPU阶段的进度，并在用户请求在CPU阶段花费的时间超过其CPU的服务质量目标时，加速其在加速器端的执行。本发明专利技术既保证LC服务的服务质量，又极大地提高了异构设备上所有BE应用的综合性能。所有BE应用的综合性能。所有BE应用的综合性能。

全部详细技术资料下载

【技术实现步骤摘要】
面向多阶段AI云服务的高吞吐异构资源管理方法及器件

[0001]本专利技术涉及GPU
，特别是涉及一种面向多阶段AI云服务的高吞吐异构资源管理方法及器件。

技术介绍

[0002]现代数据中心常常托管一些面向用户的应用服务，比如网页搜索、社交网络、人脸识别等等。这类应用通常以低响应时间和高精度来吸引用户，因此都有着严格的延迟要求。这类应用也被称为LC(latency
‑
critical)应用。保证这些LC应用的服务质量(QoS)是目前数据中心相关研究的重点。
[0003]随着云计算平台以及深度学习的快速发展，最近的深度神经网络(DNN)已经在各类应用场景下达到了人类级别的准确性，比如图像识别、语音识别等。相应地，深度神经网络也被用来支持各种数据中心的LC应用。新的硬件如GPU等加速器也被云计算服务商采用并广泛部署在计算机集群中，以支持新兴深度学习任务的高算力需求。相比传统的在线服务，基于深度学习的在线服务不仅有严格的服务质量要求而且在计算上要求很高，会使用多种异构资源。
[0004]这类基于DNN支持的LC应用，主要有两个阶段：数据预处理和在线推理(inference)。异构加速器(如GPU)通常会用于推理阶段，而主机CPU则用于数据预处理阶段(包括解码和数据大小调整等)。主机和加速器之间的交互阶段(memcpy)由PCI
‑
e总线支持。数据中心存在着一些不可避免的问题，其中很重要的一个问题就是资源的过度配置。根据之前的一些研究可知，这...

【技术保护点】

【技术特征摘要】
1.一种面向多阶段AI云服务的高吞吐异构资源管理方法，其特征在于：利用一服务质量目标分配器基于接收到的LC服务的请求将服务质量目标拆分为CPU侧服务质量目标和GPU侧服务质量目标；利用一异构资源管理器以CPU侧服务质量目标和GPU侧服务质量目标作为初始样本搜索最佳资源分配；利用一服务质量补偿器实时监测CPU阶段的进度，并在用户请求在CPU阶段花费的时间超过其CPU的服务质量目标，加速其在加速器端的执行。2.根据权利要求1所述的面向多阶段AI云服务的高吞吐异构资源管理方法，其特征在于：所述基于接收到的LC服务的请求将服务质量目标拆分为CPU侧服务质量目标和GPU侧服务质量目标，包括：将LC任务的每种资源配额设置为其最小资源单位，同时将其余资源分配给BE任务；根据共享资源的性能曲面调整CPU
‑
GPU阶段的服务质量分配；记录LC任务的服务质量增加值和BE任务性能下降值；选择最佳资源分配，将最佳资源分配从BE任务调整到LC任务并执行下一次循环，实现将服务质量目标拆分为CPU侧服务质量目标和GPU侧服务质量目标。3.根据权利要求1所述的面向多阶段AI云服务的高吞吐异构资源管理方法，其特征在于：所述异构资源管理器基于随机森林的贝叶斯优化算法搜索最佳资源分配。4.根据权利要求3所述的面向多阶段AI云服务的高吞吐异构资源管理方法，其特征在于：所述初始样本采用以下策略中的任一种进行采样：所有CPU阶段任务分配相等的计算资源的相同优先级策略、从服务质量目标分配器中获取资源分配初始点的初始资源分配策略、为BE作业分配最小资源配额，剩余给LC任务的服务质量保证策略。5.根据权利要...

【专利技术属性】
技术研发人员：陈全，过敏意，张蔚，符凯华，
申请(专利权)人：上海交通大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人