一种考虑动态拓扑的多边缘服务缓存调度方法和系统技术方案

技术编号:36436967 阅读:59 留言:0更新日期:2023-01-20 22:51
本发明专利技术提供了一种考虑动态拓扑的多边缘服务缓存调度方法和系统,属于边缘网络技术领域。本发明专利技术基于当前多基站的边缘缓存方法忽略了边缘服务器的动态变化的缺陷,在多边缘服务缓存问题中引入图卷积神经网络和深度强化学习,图卷积神经网络可实现对动态拓扑的实时信息捕捉,将经过特征提取后的信息传输到深度强化学习网络中进行学习,结合深度强化学习强大的决策能力,可以很好地实现缓存决策并提高服务稳定性。务稳定性。务稳定性。

【技术实现步骤摘要】
一种考虑动态拓扑的多边缘服务缓存调度方法和系统


[0001]本专利技术涉及边缘网络领域,尤其涉及一种考虑动态拓扑的多边缘服务缓存调度方法和系统。

技术介绍

[0002]随着智慧城市和5G的快速发展,移动网络中对延迟敏感型和计算密集型数据服务的需求以前所未有的速度激增,这对无线通信系统的计算和缓存能力提出了重大的挑战。移动边缘计算(MEC)作为最有潜力解决上述问题的前沿技术,在靠近终端设备的无线接入网络中提供云计算缓存功能,从而大大减少服务延迟,并减轻数据中心激增的缓存和计算负担。
[0003]现有边缘缓存技术可分为单基站边缘缓存和多基站边缘缓存,因为单基站边缘缓存存储空间有限,所以多边缘服务缓存技术是目前的主流方法。通过引入多边缘缓存,用户可以获取协作基站的缓存内容,提高缓存区资源的利用率和缓存内容多样性。
[0004]目前基于多基站的边缘缓存方法忽略了边缘服务器的动态变化,即默认现有部署的边缘服务器在未来很长一段时间内不会发生改变。然而现实中存在服务器断电、线路老化、宕机等故障导致无法继续提供请求服务。如果这些变化不能及时地被捕捉到,可能会影响整体的服务效率,从而降低用户体验。
[0005]名词解释:边缘网络由云服务器(Cloud Server,CS)、多个基站BS(Base Station)以及若干终端用户设备UE(User Equipment)组成。其中每个BS都配备有一个边缘缓存服务器。BS之间以及BS与CS之间通过有线连接;每个BS覆盖多个终端用户设备且覆盖范围不重叠,BS与终端用户设备之间通过无线传输进行通信。且在初始状态下,每个BS都有相同的存储空间;即每个BS的最大存储空间相等。

技术实现思路

[0006]为了解决上述现有技术中基于多基站的边缘缓存方法忽略了边缘服务器的动态变化的缺陷,本专利技术提出了一种考虑动态拓扑的多边缘服务缓存调度方法,在缓存调度中考虑到边缘网络的动态变化,提高了缓存调度的服务稳定性。
[0007]本专利技术提出的一种考虑动态拓扑的多边缘服务缓存调度方法,包括以下步骤:S1、建立Markov模型,以边缘网络中的基站作为智能体,设置Markov模型的状态、动作及奖励函数;所述Markov模型的状态S(t)定义为:S(t)={G(t),S(1,t),S(2,t),

,S(b,t),

,S(B,t)};其中,G(t)表示用于描述时隙t时的边缘网络拓扑状态的邻接矩阵,S(b,t)表示时隙t时基站b的状态;S(b,t)={R(b,t),$(b,t)}R(b,t)={r(b,1,t),r(b,2,t),

,r(b,u,t),

,r(b,u(max),t)}
R(b,t)表示基站b在时隙t内接受并处理的内容请求序列,r(b,u,t)表示基站b覆盖范围内终端u在时隙t时向基站b请求的内容,1≤r(b,u,t)≤C,1≤b≤B,C为内容总数量,B表示边缘网络中的基站总数量;令基站b覆盖范围内的所有终端的集合记作U(b),U(b)={1,2,

,u,

u(max)},u∈U(b),u(max)表示基站b覆盖范围内终端总数量;$(b,t)为时隙t时基站b的已缓存内容序列,即已缓存的内容的集合;所述Markov模型的动作A(t)定义为:A(t)={A(1,t),A(2,t),

,A(b,t),

,A(B,t)}A(b,t)={π(a(b,u,t))}
u∈U(b)
a(b,u,t)={y(b,u,t),s(b,u,t),b(b,u,t)}A(b,t)表示基站b在时隙t时的策略分布,a(b,u,t)表示基站b在时隙t时根据终端u的内容请求生成的动作,π(a(b,u,t))表示基站b执行动作a(b,u,t)的概率;y(b,u,t)为表示决策是否缓存的二值数,s(b,u,t)表示时隙t时基站b对应终端u的缓存替换策略,b(b,u,t)表示时隙t时基站b分配给终端u的带宽;如果终端u在时隙t时向基站b请求的内容已经缓存在基站b中,则y(b,u,t)=0,s(b,u,t)为空集;如果终端u在时隙t时向基站b请求的内容没有缓存在基站b中,则y(b,u,t)=1,s(b,u,t)={r(b,u,t),
ř
(b,u,t)},表示基站b将清除已存储的内容
ř
(b,u,t),并缓存内容r(b,u,t);所述Markov模型的奖励函数根据优化目标设置,所述优化目标设置为:utility(b,t)表示效用函数,utility(b,t)=T(b,t)/H(b,t);T(b,t)表示基站b在时隙t时的内容交付总延迟;H(b,t)表示基站b在时隙t时的缓存命中率,即时隙t内基站b命中的缓存内容数量与基站b覆盖范围内的所有终端请求的内容总数的比值,基站命中的缓存内容为基站已缓存且被其覆盖范围内的终端请求的内容;x(b,u,t)为时隙t时基站b分配给覆盖范围内的终端u的带宽百分比,即终端u占用带宽与基站b占用带宽的比值;S2、基于优化目标对基于神经网络模型的缓存调度模型进行求解,以获取各基站对应的缓存调度模型,所述缓存调度模型的输入为时隙t时边缘网络的状态S(t),所述缓存调度模型的输出为对应的基站在时隙t时的策略分布;S3、获取边缘网络的状态S(t),将状态S(t)输入缓存调度模型以获取基站策略分布,并从基站的策略分布中选取对应概率最大的动作作为基站的决策动作。
[0008]优选的,S2中缓存调度模型的获取包括以下步骤:S21、构建由预处理模块、GCN网络、Actor_Old网络、Actor_New网络和Critic网络组成的初始模型,GCN网络、Actor_Old网络、Actor_New网络和Critic网络均为神经网络;预处理模块的输入为时隙t时边缘网络的状态S(t),预处理模块用于结合状态S
(t)中各基站的已缓存内容序列$(b,t)构建用于表述边缘网络存储状态的特征矩阵X,X=[a
bc
]1≤b≤B,1≤c≤C
,a
bc
表示特征矩阵X第b行第c列的元素,当基站b中存储有内容c,则a
bc
=1;反之,a
bc
=0;GCN网络的输入为边缘网络的当前的状态S(t)和特征矩阵X,GCN网络用于对邻接矩阵G(t)和特征矩阵X进行卷积处理,获得聚合邻居特征的矩阵H
l
,H
l
∈R
B
×
d
,即H
l
为B行d列的矩阵,d为GCN网络的节点数量;GCN网络的输出为聚合状态s

(t)=H
l
||R(t),||表示矩阵拼接,R(t)表示时隙t时边缘网络的内容请求状态,R(t)=[R(1,t),R(2,t),

,R(b,t),

,R(B,t)]T
;T表示矩阵本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种考虑动态拓扑的多边缘服务缓存调度方法,其特征在于,包括以下步骤:S1、建立Markov模型,以边缘网络中的基站作为智能体,设置Markov模型的状态、动作及奖励函数;所述Markov模型的状态S(t)定义为:S(t)={G(t),S(1,t),S(2,t),

,S(b,t),

,S(B,t)};其中,G(t)表示用于描述时隙t时的边缘网络拓扑状态的邻接矩阵,S(b,t)表示时隙t时基站b的状态;S(b,t)={R(b,t),$(b,t)}R(b,t)={r(b,1,t),r(b,2,t),

,r(b,u,t),

,r(b,u(max),t)}R(b,t)表示基站b在时隙t内接受并处理的内容请求序列,r(b,u,t)表示基站b覆盖范围内终端u在时隙t时向基站b请求的内容,1≤r(b,u,t)≤C,1≤b≤B,C为内容总数量,B表示边缘网络中的基站总数量;令基站b覆盖范围内的所有终端的集合记作U(b),U(b)={1,2,

,u,

u(max)},u∈U(b),u(max)表示基站b覆盖范围内终端总数量;$(b,t)为时隙t时基站b的已缓存内容序列,即已缓存的内容的集合;所述Markov模型的动作A(t)定义为:A(t)={A(1,t),A(2,t),

,A(b,t),

,A(B,t)}A(b,t)={π(a(b,u,t))}
u∈U(b)
a(b,u,t)={y(b,u,t),s(b,u,t),b(b,u,t)}A(b,t)表示基站b在时隙t时的策略分布,a(b,u,t)表示基站b在时隙t时根据终端u的内容请求生成的动作,π(a(b,u,t))表示基站b执行动作a(b,u,t)的概率;y(b,u,t)为表示决策是否缓存的二值数,s(b,u,t)表示时隙t时基站b对应终端u的缓存替换策略,b(b,u,t)表示时隙t时基站b分配给终端u的带宽;如果终端u在时隙t时向基站b请求的内容已经缓存在基站b中,则y(b,u,t)=0,s(b,u,t)为空集;如果终端u在时隙t时向基站b请求的内容没有缓存在基站b中,则y(b,u,t)=1,s(b,u,t)={r(b,u,t),
ř
(b,u,t)},表示基站b将清除已存储的内容
ř
(b,u,t),并缓存内容r(b,u,t);所述Markov模型的奖励函数根据优化目标设置,所述优化目标设置为:utility(b,t)表示效用函数,utility(b,t)=T(b,t)/H(b,t);T(b,t)表示基站b在时隙t时的内容交付总延迟;H(b,t)表示基站b在时隙t时的缓存命中率,即时隙t内基站b命中的缓存内容数量与基站b覆盖范围内的所有终端请求的内容总数的比值,基站命中的缓存内容为基站已缓存且被其覆盖范围内的终端请求的内容;x(b,u,t)为时隙t时基站b分配给覆盖范围内的终端u的带宽百分比,即终端u占用带宽与基站b占用带宽的比值;
S2、基于优化目标对基于神经网络模型的缓存调度模型进行求解,以获取各基站对应的缓存调度模型,所述缓存调度模型的输入为时隙t时边缘网络的状态S(t),所述缓存调度模型的输出为对应的基站在时隙t时的策略分布;S3、获取边缘网络的状态S(t),将状态S(t)输入缓存调度模型以获取基站策略分布,并从基站的策略分布中选取对应概率最大的动作作为基站的决策动作。2.如权利要求1所述的考虑动态拓扑的多边缘服务缓存调度方法,其特征在于,S2中缓存调度模型的获取包括以下步骤:S21、构建由预处理模块、GCN网络、Actor_Old网络、Actor_New网络和Critic网络组成的初始模型,GCN网络、Actor_Old网络、Actor_New网络和Critic网络均为神经网络;预处理模块的输入为时隙t时边缘网络的状态S(t),预处理模块用于结合状态S(t)中各基站的已缓存内容序列$(b,t)构建用于表述边缘网络存储状态的特征矩阵X,X=[a
bc
]
1≤b≤B,1≤c≤C
,a
bc
表示特征矩阵X第b行第c列的元素,当基站b中存储有内容c,则a
bc
=1;反之,a
bc
=0;GCN网络的输入为边缘网络的当前的状态S(t)和特征矩阵X,GCN网络用于对邻接矩阵G(t)和特征矩阵X进行卷积处理,获得聚合邻居特征的矩阵H
l
,H
l
∈R
B
×
d
,即H
l
为B行d列的矩阵,d为GCN网络的节点数量;GCN网络的输出为聚合状态s

(t)=H
l
||R(t),||表示矩阵拼接,R(t)表示时隙t时边缘网络的内容请求状态,R(t)=[R(1,t),R(2,t),

,R(b,t),

,R(B,t)]
T
;T表示矩阵转置;Actor_Old网络的输入和Actor_New网络的输入均为s

(t),Actor_Old网络的输出和Actor_New网络的输出均为对应的智能体的策略分布,即智能体可选择的所有动作以及各个动作的概率;Critic网络用于计算状态价值,Critic网络的输入为s

(t),其输出为s

(t)对应的状态价值;S22、构建经验池样本;将时隙t时的边缘网络的状态S(t)输入预处理模块和GCN网络,获得对应的聚合状态s

(t);将聚合状态s

(t)输入Actor_New网络,从Actor_New网络输出的策略分布中选择一个动作作为时隙t时的决策动作a(t);根据奖励函数计算决策动作a(t)对应的奖励r(t);获取初始模型对应的智能体执行决策动作a(t)后边缘网络的状态记作下一个状态S(t+1),获取S(t+1)对应的聚合状态记作下一个聚合状态s

(t+1);构建经验池样本{s

(t),a(t),r(t),s

(t+1)}存储到经...

【专利技术属性】
技术研发人员:魏振春朱陈伟吕增威张本宏石雷樊玉琦
申请(专利权)人:安徽布拉特智能科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1