一种基于强化学习的Serverless高效资源分配方法及系统技术方案

技术编号：37505434 阅读：25 留言：0更新日期：2023-05-07 09:41

本发明专利技术提公开了一种基于强化学习的Serverless高效资源分配方法及系统，该方法是通过对尾延迟、决策频率以及资源效率关系的观察，在最小化无服务器系统的资源配置消耗的同时，保障设置的性能延迟目标。该方法充分利用高频率管理带来的资源高效管理优点，通过观察每个请求的状态，利用强化学习模型对处理请求的实例资源配置做出决策。针对函数工作流多阶段运行的特性并对决策模型的轻量化设计，使得高频率控制层隐藏了时间开销并降低了资源开销。本发明专利技术与最新的工作流任务调度系统作比较，提升了CPU利用率，并提供了99%的请求时延SLO（Service Level Objective，服务水平目标）保证，降低了端到端延迟方差。降低了端到端延迟方差。降低了端到端延迟方差。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于强化学习的Serverless高效资源分配方法及系统

[0001]本专利技术属于云计算
，尤其涉及一种基于强化学习的Serverless高效资源分配方法及系统。

技术介绍

[0002]无服务器计算的高扩展、易开发、细粒度以及低成本的特性使其成为当今微服务架构的主流方式，其被各大主流云提供商如亚马逊等所支持并迅速推广，其被广泛使用在Web应用、视频处理、机器学习推理等多种面向用户的应用场景。为了满足这些应用高扩展、高弹性的需求，这些复杂的应用服务被解构成一组无服务器函数，组成一个有向无环图。
[0003]在大部分情况下，这些面向用户的应用都有严苛的时间延迟需求。然而由于各种因素的影响，应用产生了较大的尾延迟，这使得这些应用的性能预测变得极其困难。当前的商业平台如亚马逊的无服务器平台Lambda，或开源平台如Open Whisk等，对应用的相应延迟不提供任何保证，而是依赖于开发人员决定函数的资源配置。因此在这些平台上，开发人员不得不选择较大资源配置（如内存、CPU等）来保障应用的SLO（Service Level Object本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于强化学习的Serverless高效资源分配方法，其特征在于，该方法包括以下步骤：（1）构建强化学习决策器：所述强化学习决策器是利用强化学习模型预测的，所述强化学习模型包含状态模块、策略模块、动作模块和奖励模块；（2）决策流水线化：利用步骤（1）构建得到的强化学习决策器将流水线决策每个阶段函数的资源配置，并在每个决策过程中，强化学习决策器都会采用距离目标时间的剩余作为输入，并导出下一个函数的资源配置，使用当前执行函数的所记录的最大执行时间进行预估；（3）容器管理：当步骤（2）强化学习决策出非一致的函数资源配置，则利用预热式的容器管理系统使函数执行实例在调度过程中转发到目标容器上执行；所述该预热式的容器管理系统包含负责未来请求到达率预测的预测模块、负责节点容器管理的代理模块和负责执行请求快速调度的转发模块；（4）在每个请求到来时，利用步骤（2）的方法依次进行每个阶段的资源配置，在每次得到对应阶段资源配置后，利用步骤（3）中的转发模块调度请求到相应配置容器上执行计算。2.根据权利要求1所述的一种基于强化学习的Serverless高效资源分配方法，其特征在于，所述步骤（1）中状态模块主要由应用状态、请求状态、集群状态三种类型组成，状态模块利用图神经网络对应用DAG信息进行维度压缩；所述应用状态用于描述工作流应用的情况，包括工作流有向无环图DAG的结构、每个函数的平均执行时间以及每个函数的平均资源利用率，即通过函数的离线分析获得的CPU、内存的平均资源利用率；所述请求状态，用于描述访问负载的情况，包括每秒请求数QPS（Query Per Second），即每秒请求数、到达目标时延SLO之前剩余时间以及工作流中尚未执行的函数数量，它们由请求监视器获取；所述集群状态，用于描述物理资源的状况，包括可用的CPU、内存，它们由群集监视器获取。3.根据权利要求2所述的一种基于强化学习的Serverless高效资源分配方法，其特征在于，所述状态模块利用图神经网络对应用DAG信息进行维度压缩，具体为，使用GCN图卷积神经网络中的GraphSAGE方法，所述方法采用节点嵌入的方式，将节点图邻域的高维信息提取到密集向量嵌入中，快速生成全新图形嵌入的归纳能力，对各种工作流应用程序的资源分配需求；在应用状态信息被刻画获得后，系统将从其DAG图的尾部节点开始传递其应用状态信息，通过递归的方式，将各节点的信息传递给父节点以及根节点。4.根据权利要求1所述的一种基于强化学习的Serverless高效资源分配方法，其特征在于，所述步骤（1）中策略模块基于Actor
‑
Critic算法以及优势函数对状态信息进行计算；所述Actor为策略网络，所述Actor选用全连接神经网络，对每个动作都输出一个值，并使用SoftMax函数将值转换成对应的概率，并按照概率选取动作，负责选择行动并与环境进行互动；Critic为评价网络，即利用优势函数作为评价网络Critic，其和分别指累积经验的轨迹和平均经验的模拟逼近，用于对Actor的行为进行评分，Actor再根据Critic的打分情况，对自身的参数进行调整；所述动作模块对每种函数资源实现了独自的策略网络，并由各网络决定对应资源配置量。
5.根据权利要求1所述的一种基于强化学习的Serverless高效资源分配方法，其特征在于，所述步骤（1）中奖励模块利用资源配置量以及请求端到端执行时间作为奖惩值训练决策模块的准确性，其构建如下所示的函数进行奖...

【专利技术属性】
技术研发人员：李勇，赵来平，张环禹，陈光，曾令仿，程稳，
申请(专利权)人：之江实验室，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人