一种基于强化学习的边缘微服务细粒度部署方法及系统技术方案

技术编号:39425952 阅读:8 留言:0更新日期:2023-11-19 16:12
本发明专利技术提供一种基于强化学习的边缘微服务细粒度部署方法及系统,该方法包括:分别构建边缘服务器、微服务种类、应用请求和移动设备的集合,定义各集合中元素信息;建立微服务访问模型,并将最小化访问时延作为优化目标;构建基于奖励记忆塑造的深度确定性策略梯度算法学习最优的微服务部署和路由策略,基于重放池和目标网络来提高学习效率和稳定性;通过批量样本策略梯度更新Actor网络,最小化损失函数更新Critic网络,利用指数平滑更新目标网络;基于最小微服务访问时延的优化目标输出最终的微服务部署策略,并更新微服务部署状态。通过该方案能实现微服务节点资源合理分配,可以有效降低微服务间通信开销,并方便动态调整微服务部署和路由路径。微服务部署和路由路径。微服务部署和路由路径。

【技术实现步骤摘要】
一种基于强化学习的边缘微服务细粒度部署方法及系统


[0001]本专利技术属于深度学习领域,尤其涉及一种基于强化学习的边缘微服务细粒度部署方法及系统


技术介绍

[0002]随着互联网应用的快速发展,用户对服务的响应时间

安全性和可用性的要求越来越高

由于云端服务器与用户之间的距离较远,会存在网络延迟

拥塞以及数据隐私安全等问题

为了解决这些问题,边缘计算作为一种新兴的计算范式,将计算资源和服务部署在靠近用户的边缘节点上,能提高网络服务质量及用户体验

[0003]微服务作为一种轻量级

松耦合

可复用的软件架构风格,它将一个复杂的应用拆分成多个小型

独立的服务,每个服务负责一个单一的功能,并通过网络协议进行通信

微服务具有高内聚

低耦合

易扩展

易维护等优点,适合在动态变化的边缘环境中部署和运行

[0004]当前,在边缘环境中部署微服务也面临着一些问题,比如边缘节点的资源有限,如何有效地利用和分配资源,实现资源均衡和负载均衡;微服务之间存在依赖关系,如何根据依赖强度和网络带宽等因素,优化微服务之间的通信开销和延迟;用户移动设备的位置不固定,如何根据用户位置变化,动态地调整微服务部署位置和路由路径等

[0005]有鉴于此,有必要提出一种能实现节点资源合理分配

降低微服务间通信开销并能动态调整微服务部署和路由路径的方案


技术实现思路

[0006]有鉴于此,本专利技术实施例提供了一种基于强化学习的边缘微服务细粒度部署方法及系统,用于解决现有微服务部署无法实现节点资源合理分配

微服务间通信开销大以及无法动态调整微服务部署和路由路径的问题

[0007]在本专利技术实施例的第一方面,提供了一种基于强化学习的边缘微服务细粒度部署方法,包括:
[0008]构建边缘服务器集合

微服务种类集合

应用请求集合和用户移动设备集合,并定义各集合中元素信息;
[0009]建立微服务访问模型,将微服务部署和路由策略表示为用户访问微服务的时延优化单目标模型,并以最小化微服务访问时延作为优化目标来提高网络服务质量;
[0010]构建基于奖励记忆塑造的深度确定性策略梯度算法学习最优的微服务部署和路由策略,基于重放池和目标网络来提高学习效率和稳定性;
[0011]其中,所述深度确定性策略梯度算法中包括一个
Actor
网络

一个
Critic
网络和一个
LSTM
网络,
Actor
网络用于输出动作,
Critic
网络用于输出评估状态

动作对的
Q
值,
LSTM
网络用于预防网络更新过程的梯度爆炸;
[0012]通过批量样本策略梯度的方式更新
Actor
网络,最小化损失函数更新
Critic
网络,
利用指数平滑更新目标网络;
[0013]基于最小微服务访问时延的优化目标,通过所述微服务访问模型输出最终的微服务部署策略,并更新最终微服务部署状态

[0014]在本专利技术实施例的第二方面,提供了一种基于强化学习的边缘微服务细粒度部署系统,包括:
[0015]集合构建模块,用于构建边缘服务器集合

微服务种类集合

应用请求集合和用户移动设备集合,并定义各集合中元素信息;
[0016]模型构建模块,用于建立微服务访问模型,将微服务部署和路由策略表示为用户访问微服务的时延优化单目标模型,并以最小化微服务访问时延作为优化目标来提高网络服务质量;
[0017]深度学习模块,用于构建基于奖励记忆塑造的深度确定性策略梯度算法学习最优的微服务部署和路由策略,基于重放池和目标网络来提高学习效率和稳定性;
[0018]其中,所述深度确定性策略梯度算法中包括一个
Actor
网络

一个
Critic
网络和一个
LSTM
网络,
Actor
网络用于输出动作,
Critic
网络用于输出评估状态

动作对的
Q
值,
LSTM
网络用于预防网络更新过程的梯度爆炸;
[0019]网络优化模块,用于通过批量样本策略梯度的方式更新
Actor
网络,最小化损失函数更新
Critic
网络,利用指数平滑更新目标网络;
[0020]结果输出模块,用于基于最小微服务访问时延的优化目标,通过所述微服务访问模型输出最终的微服务部署策略,并更新最终微服务部署状态

[0021]在本专利技术实施例的第三方面,提供了一种电子设备,包括存储器

处理器以及存储在所述存储器中并可在所述处理器运行的计算机程序,所述处理器执行所述计算机程序时实现如本专利技术实施例第一方面所述方法的步骤

[0022]在本专利技术实施例的第四方面,提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现本专利技术实施例第一方面提供的所述方法的步骤

[0023]本专利技术实施例中,基于奖励记忆塑造的深度确定性策略梯度模型学习最优的微服务部署和路由策略,将最小访问时延作为目标进行模型得到最优微服务部署策略,从而能实现微服务节点资源合理分配,而且能有效降低微服务间通信开销,并方便动态调整微服务部署和路由路径,进而提高了服务质量及服务的可靠性,且不需要人为地设定固定的规则或参数进行部署,增强微服务部署的灵活性,方便根据需求动态部署

附图说明
[0024]为了更清楚地说明本专利技术实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单介绍,显而易见地,下面描述的附图仅仅是本专利技术的一些实施例,对本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获取其他附图

[0025]图1为本专利技术一个实施例提供的一种微服务部署和请求路由案例示意图;
[0026]图2为本专利技术一个实施例提供的一种基于强化学习的边缘微服务细粒度部署方法的流程示意图;
[0027]图3为本专利技术一个实施例提供的一种奖励记忆塑造的深度确定性策略梯度算法框架示意图;
[0028]图4为本专利技术一个实施例提供的一种基于强化学习的边缘微服务细粒度部署系统的结构示意图;
[0029]图5为本专利技术本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种基于强化学习的边缘微服务细粒度部署方法,其特征在于,包括:构建边缘服务器集合

微服务种类集合

应用请求集合和用户移动设备集合,并定义各集合中元素信息;建立微服务访问模型,将微服务部署和路由策略表示为用户访问微服务的时延优化单目标模型,并以最小化微服务访问时延作为优化目标来提高网络服务质量;构建基于奖励记忆塑造的深度确定性策略梯度算法学习最优的微服务部署和路由策略,基于重放池和目标网络来提高学习效率和稳定性;其中,所述深度确定性策略梯度算法中包括一个
Actor
网络

一个
Critic
网络和一个
LSTM
网络,
Actor
网络用于输出动作,
Critic
网络用于输出评估状态

动作对的
Q
值,
LSTM
网络用于预防网络更新过程的梯度爆炸;通过批量样本策略梯度的方式更新
Actor
网络,最小化损失函数更新
Critic
网络,利用指数平滑更新目标网络;基于最小微服务访问时延的优化目标,通过所述微服务访问模型输出最终的微服务部署策略,并更新最终微服务部署状态
。2.
根据权利要求1所述的方法,其特征在于,所述定义各集合中元素信息包括:边缘服务器集合中每个边缘服务器节点至少包括边缘服务器的地理位置
、CPU
资源总量和
Memory
资源总量;微服务种类集合中每个微服务至少包括微服务需要消耗的
CPU
资源和
Memory
资源;应用请求集合中每个应用请求至少包括微服务及微服务之间存在的依赖关系;用户移动设备集合中每个用户移动设备至少包括地理位置信息
。3.
根据权利要求1所述的方法,其特征在于,所述建立微服务访问模型包括:将微服务部署和路由策略表示为用户访问微服务的时延优化单目标模型;分别定义单目标模型的微服务部署决策变量和微服务实例放置决策变量;其中,微服务部署决策变量用于表示微服务是否部署在边缘节点上,微服务实例放置决策变量用于微服务在边缘节点上放置的实例数目;定义微服务的访问时延,所述访问时延包括执行时延和通信时延,执行时延由处理时延和排队时延组成,通信时延由用户请求到服务器的上下行传输时延

传播时延和边缘服务器之间的路由时延组成;其中,所述执行时延表示为:;所述通信时延表示为:;式中,表示微服务的到来速率,表示微服务队长,表示微服务处理速率,表示用户请求到服务器的上行传输时延,表示服务器到用户的下行传输时
延,表示传播时延,表示边缘服务器之间的路由时延
。4.
根据权利要求1所述的方法,其特征在于,所述构建基于奖励记忆塑造的深度确定性策略梯度算法学习最优的微服务部署和路由策略包括:构建算法的状态

智能体

动作和奖励四个组成部分;状态分为微服务部署状态空间

资源空间,资源空间分为已用资源空间和剩余资源空间,资源空间约束着部署状态空间;智能体包括
Actor
网络
、Critic
网络

目标
Actor
网络和目标
Critic
网络
,
四个网络中都引入
LSTM
网络使得智能体具有记忆能力;动作用于表示微服务镜像部署在某个边缘节点上的倾向,用表示微服务选择部署在某个边缘节点的动作,表示为:;式中,
、、、
均表示选择概率,为边缘服务器节点总数,,最终选择概率最大的节点部署当前微服务镜像;奖励分为部署每个微服务镜像获得的奖励

部署完最后一个微服务镜像后所有请求获得的奖励两个部分,最终的奖励表示为两个部分的累加:;式中,表示总奖励,表示需要部署的微服务实例总数,表示每一个微服务部署的奖励,表示部署完最后一个微服务的总奖励
。5.
根据权利要求1所述的方法,其特征在于,所述基于重放池和目标网络来提高学习效率和稳定性包括:初始化
Actor 网络参数,
Critic 网络 参数,初始化目标网络

以及目标网络的网络参数,令,;在每个
episode
回合开始时,从重放池中随机抽取一批状态转移数据对;通过目标网络计算目标
Q
值,令;式中,表示目标
Q
值,表示获得奖励,表示奖...

【专利技术属性】
技术研发人员:彭凯何金涛徐家祥张晨何建文胡梦兰陈云鹏杨晓东王建东邱生顺姚毅郭佳璐胡毅
申请(专利权)人:华中科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1