【技术实现步骤摘要】
一种基于强化学习的边缘微服务细粒度部署方法及系统
[0001]本专利技术属于深度学习领域,尤其涉及一种基于强化学习的边缘微服务细粒度部署方法及系统
。
技术介绍
[0002]随着互联网应用的快速发展,用户对服务的响应时间
、
安全性和可用性的要求越来越高
。
由于云端服务器与用户之间的距离较远,会存在网络延迟
、
拥塞以及数据隐私安全等问题
。
为了解决这些问题,边缘计算作为一种新兴的计算范式,将计算资源和服务部署在靠近用户的边缘节点上,能提高网络服务质量及用户体验
。
[0003]微服务作为一种轻量级
、
松耦合
、
可复用的软件架构风格,它将一个复杂的应用拆分成多个小型
、
独立的服务,每个服务负责一个单一的功能,并通过网络协议进行通信
。
微服务具有高内聚
、
低耦合
、
易扩展
、
易维护等优点,适合在动态变化的边缘环境中部署和运行
。
[0004]当前,在边缘环境中部署微服务也面临着一些问题,比如边缘节点的资源有限,如何有效地利用和分配资源,实现资源均衡和负载均衡;微服务之间存在依赖关系,如何根据依赖强度和网络带宽等因素,优化微服务之间的通信开销和延迟;用户移动设备的位置不固定,如何根据用户位置变化,动态地调整微服务部署位置和路由路径等
。
[0005]有鉴于此,有必要提出一种能 ...
【技术保护点】
【技术特征摘要】
1.
一种基于强化学习的边缘微服务细粒度部署方法,其特征在于,包括:构建边缘服务器集合
、
微服务种类集合
、
应用请求集合和用户移动设备集合,并定义各集合中元素信息;建立微服务访问模型,将微服务部署和路由策略表示为用户访问微服务的时延优化单目标模型,并以最小化微服务访问时延作为优化目标来提高网络服务质量;构建基于奖励记忆塑造的深度确定性策略梯度算法学习最优的微服务部署和路由策略,基于重放池和目标网络来提高学习效率和稳定性;其中,所述深度确定性策略梯度算法中包括一个
Actor
网络
、
一个
Critic
网络和一个
LSTM
网络,
Actor
网络用于输出动作,
Critic
网络用于输出评估状态
‑
动作对的
Q
值,
LSTM
网络用于预防网络更新过程的梯度爆炸;通过批量样本策略梯度的方式更新
Actor
网络,最小化损失函数更新
Critic
网络,利用指数平滑更新目标网络;基于最小微服务访问时延的优化目标,通过所述微服务访问模型输出最终的微服务部署策略,并更新最终微服务部署状态
。2.
根据权利要求1所述的方法,其特征在于,所述定义各集合中元素信息包括:边缘服务器集合中每个边缘服务器节点至少包括边缘服务器的地理位置
、CPU
资源总量和
Memory
资源总量;微服务种类集合中每个微服务至少包括微服务需要消耗的
CPU
资源和
Memory
资源;应用请求集合中每个应用请求至少包括微服务及微服务之间存在的依赖关系;用户移动设备集合中每个用户移动设备至少包括地理位置信息
。3.
根据权利要求1所述的方法,其特征在于,所述建立微服务访问模型包括:将微服务部署和路由策略表示为用户访问微服务的时延优化单目标模型;分别定义单目标模型的微服务部署决策变量和微服务实例放置决策变量;其中,微服务部署决策变量用于表示微服务是否部署在边缘节点上,微服务实例放置决策变量用于微服务在边缘节点上放置的实例数目;定义微服务的访问时延,所述访问时延包括执行时延和通信时延,执行时延由处理时延和排队时延组成,通信时延由用户请求到服务器的上下行传输时延
、
传播时延和边缘服务器之间的路由时延组成;其中,所述执行时延表示为:;所述通信时延表示为:;式中,表示微服务的到来速率,表示微服务队长,表示微服务处理速率,表示用户请求到服务器的上行传输时延,表示服务器到用户的下行传输时
延,表示传播时延,表示边缘服务器之间的路由时延
。4.
根据权利要求1所述的方法,其特征在于,所述构建基于奖励记忆塑造的深度确定性策略梯度算法学习最优的微服务部署和路由策略包括:构建算法的状态
、
智能体
、
动作和奖励四个组成部分;状态分为微服务部署状态空间
、
资源空间,资源空间分为已用资源空间和剩余资源空间,资源空间约束着部署状态空间;智能体包括
Actor
网络
、Critic
网络
、
目标
Actor
网络和目标
Critic
网络
,
四个网络中都引入
LSTM
网络使得智能体具有记忆能力;动作用于表示微服务镜像部署在某个边缘节点上的倾向,用表示微服务选择部署在某个边缘节点的动作,表示为:;式中,
、、、
均表示选择概率,为边缘服务器节点总数,,最终选择概率最大的节点部署当前微服务镜像;奖励分为部署每个微服务镜像获得的奖励
、
部署完最后一个微服务镜像后所有请求获得的奖励两个部分,最终的奖励表示为两个部分的累加:;式中,表示总奖励,表示需要部署的微服务实例总数,表示每一个微服务部署的奖励,表示部署完最后一个微服务的总奖励
。5.
根据权利要求1所述的方法,其特征在于,所述基于重放池和目标网络来提高学习效率和稳定性包括:初始化
Actor 网络参数,
Critic 网络 参数,初始化目标网络
、
以及目标网络的网络参数,令,;在每个
episode
回合开始时,从重放池中随机抽取一批状态转移数据对;通过目标网络计算目标
Q
值,令;式中,表示目标
Q
值,表示获得奖励,表示奖...
【专利技术属性】
技术研发人员:彭凯,何金涛,徐家祥,张晨,何建文,胡梦兰,陈云鹏,杨晓东,王建东,邱生顺,姚毅,郭佳璐,胡毅,
申请(专利权)人:华中科技大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。