基于离散MADDPG的边缘缓存决策模型、方法和系统技术方案

技术编号:34023214 阅读:16 留言:0更新日期:2022-07-02 17:27
基于离散MADDPG的边缘缓存决策模型、方法和系统,所述边缘缓存决策模型适用于用户终端、云服务器和多个RSU组成的通信网络;所述边缘缓存决策模型基于神经网络构建,其与RSU一一对应,所述边缘缓存决策模型用于根据RSU的状态生成对应的动作决策。本发明专利技术将多智能体深度强化学习中的离散MADDPG算法引入协作边缘缓存,能够实现智能体间的合作通信且有强大的决策能力,可以很好地实现缓存决策且控制缓存冗余。冗余。冗余。

【技术实现步骤摘要】
基于离散MADDPG的边缘缓存决策模型、方法和系统


[0001]本专利技术涉及协作边缘缓存领域,尤其涉及一种基于离散MADDPG的边缘缓存决策模型、方法和系统。

技术介绍

[0002]随着5G技术的逐步成熟,用户可以使用移动设备体验VR(虚拟现实)、超高清实时直播等应用,但这些应用会带来数据量的激增,而体验用户却需要低延迟的服务质量,传统的云服务方式因为用户距离云服务器较远导致延迟较高,从而无法满足用户对VR等应用的高质量体验。
[0003]针对传统云服务方式的不足,边缘缓存技术逐渐成为一种可行的方案。边缘缓存技术是将部分云端数据下放到离用户更近的边缘端,从而使用户可以得到更低延迟的请求响应。边缘缓存技术可分为单节点边缘缓存和协作边缘缓存,因为单节点边缘缓存存储的内容有限,所以协作边缘缓存技术是目前主流的技术。
[0004]然而目前大部分的协作边缘缓存方案仅考虑内容传输时的协作,而不考虑缓存决策时的协作,即在缓存决策时仅依据单个节点的缓存状态,而不考虑其他节点的缓存状态。这种形式的协作缓存可能导致通信网络中RSU(路边单元)存储的内容冗余过高,从而降低缓存空间的利用率。

技术实现思路

[0005]为了解决上述现有技术中的协作缓存方案缓存空间利用率低的缺陷,本专利技术提出了一种基于离散MADDPG的边缘缓存决策模型,大大提高了通信网络的缓存命中率,提高了缓存空间利用效率。
[0006]本专利技术提出的一种基于离散MADDPG(多智能体深度确定性策略梯度)的边缘缓存决策模型,适用于用户终端、云服务器和多个RSU组成的通信网络,所述边缘缓存决策模型为离散MADDPG架构内的神经网络,其与RSU一一对应,所述边缘缓存决策模型用于根据RSU的状态生成对应的动作决策;RSUj表示通信网络中第j个RSU,令RSUj在时隙t的状态记作S
j,t
,令RSUj在时隙t时决定缓存下来的内容集合记作,RSUj在时隙t时选择从缓存空间中移出的内容集合记作,RSUj在时隙t时的动作决策记作;;其中,F
j,t
为RSUj在时隙t时的内容存储状态、R
j,t
为RSUj在时隙t内处理的内容请求集合,内容请求集合指的是请求指向的内容的集合;为RSUj在时隙t时已缓存的内容的流行度集合、为RSUj在时隙t时未命中的内容的流行度集合;RSUj在时隙t时被请求且已经存储在缓存空间中的内容称为命中的内容;RSUj在时隙t时被请求且未存储的内容称为未命中的内容;为RSUj在时隙t时已缓存的内容的大小、为RSUj在时隙t时未
命中的内容的大小;内容的流行度为内容被请求的概率;命中的内容的大小;内容的流行度为内容被请求的概率;为二进制数,;RSU和云服务器存储的所有内容集合为I,I={内容1,内容2,

,内容i,

,内容i
max
},i
max
为内容集合I中的内容总数量,内容集合中任意两个内容相异,i为序数,1≤i≤i
max
;;表示RSUj在时隙t内处理的第k j
个请求指向的内容,表示RSUj在时隙t内处理的请求的总数量;RSUj在时隙t内处理的任一个请求指向的内容均属于内容集合I,记作;设RSUj在时隙t时缓存的内容集合为,将中的第n个内容记作内容;RSUj在时隙t时未命中的内容集合为,将中的第m个内容记作内容,内容i的流行度记作p
i
,内容i的大小记作c
i
;优选的,内容i的流行度记作p
i
,其计算公式如下:其中,u
i
表示内容i在内容集合I的所有内容中请求频次由高到低的排名,θ为偏斜因子,且θ为经验值。
[0007]优选的,通过以下步骤训练获得:S1、基于神经网络构建基础模型,基础模型包括Online

1策略网络、Online

2策略网络、Online价值网络、Target

1策略网络、Target

2策略网络和Target价值网络;设置经验池用于存储经验样本;RSUj在时隙t时的状态记作S
j,t
,Online

1策略网络根据状态S
j,t
生成RSUj决定缓存的内容集合,Online

2策略网络根据S
j,t
生成RSUj将要移出缓存空间的内容集合;令,A
j,t
表示RSUj在时隙t时的动作决策;Online价值网络用于对一个轮询中所有时隙产生的动作决策集合{A
j,t
}进行评价;所述轮询包含多个时隙;将RSUj执行动作决策后的状态记作下一个状态S

j,t
,Target

1策略网络根据下一个状态S

j,t
生成RSUj决定缓存的内容集合,Target

2策略网络根据下一个状态
S

j,t
生成RSUj将要移出缓存空间的内容集合,A

j,t
表示下一个动作决策,;Target价值网络用于对一个轮询中所有时隙产生的下一个动作决策集合{A

j,t
}进行评价;从历史数据中获取训练样本集合,T
S
表示训练样本集合对应的采样时隙维度,记作历史时隙序列,T
S
包含n
s
个时隙;q表示通信网络中RSU的数量;S2、基于基础模型和经验池训练基础模型的参数,获取与各RSU对应的边缘缓存决策模型,训练RSUj对应的边缘缓存决策模型包括以下步骤:S21、初始化基础模型,将n
s
个时隙划分为n
e
个等长的轮询,每个轮询包含多个时隙;令t=1;S22、将RSUj在时隙t时的状态S
j,t
输入到Online

1策略网络和Online

2策略网络以获取对应的动作决策A
j,t
;结合A
j,t
和S
j,t
计算奖励Z
j,t
和下一个状态S

j,t
,奖励Z
j,t
根据设定的奖励规则进行计算,将S
j,t
、A
j,t
、Z
j,t
、S

j,t
存入经验池中;;S
j,t
和S

j,t
满足以下约束条件:其中,c
i
表示内容i的大小,C表示RSUj的缓存空间大小,T
j,t
表示RSUj在时隙t时存储的所有内容的传输时间,表示时隙t内在RSUj中命中的所有内容的总传输时间,表示在RSUj附近的RSU中命中的所有内容的传输时间,在RSUj附近的RSU指本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于离散MADDPG的边缘缓存决策模型,适用于用户终端、云服务器和多个RSU组成的通信网络,其特征在于,所述边缘缓存决策模型为离散MADDPG架构内的神经网络,其与RSU一一对应,所述边缘缓存决策模型用于根据RSU的状态生成对应的动作决策;RSUj表示通信网络中第j个RSU,令RSUj在时隙t的状态记作S
j,t
,令RSUj在时隙t时决定缓存下来的内容集合记作,RSUj在时隙t时选择从缓存空间中移出的内容集合记作,RSUj在时隙t时的动作决策记作;;其中,F
j,t
为RSUj在时隙t时的内容存储状态、R
j,t
为RSUj在时隙t内处理的内容请求集合,内容请求集合指的是请求指向的内容的集合;为RSUj在时隙t时已缓存的内容的流行度集合、为RSUj在时隙t时未命中的内容的流行度集合;RSUj在时隙t时被请求且已经存储在缓存空间中的内容称为命中的内容;RSUj在时隙t时被请求且未存储的内容称为未命中的内容;为RSUj在时隙t时已缓存的内容的大小、为RSUj在时隙t时未命中的内容的大小;内容的流行度为内容被请求的概率;;为二进制数,; RSU和云服务器存储的所有内容集合为I,I={内容1,内容2,

,内容i,

,内容i
max
}, i
max
为内容集合I中的内容总数量,内容集合中任意两个内容相异,i为序数,1≤i≤i
max
;;表示RSUj在时隙t内处理的第k j
个请求指向的内容,表示RSUj在时隙t内处理的请求的总数量;RSUj在时隙t内处理的任一个请求指向的内容均属于内容集合I,记作;设RSUj在时隙t时缓存的内容集合为,将中的第n个内容记作内容;RSUj在时隙t时未命中的内容集合为,将中的第m个内容记作内容,内容i的流行度记作p
i
,内容i的大小记作c
i
;。2.如权利要求1所述的基于离散MADDPG的边缘缓存决策模型,其特征在于,内容i的流行度记作p
i
,其计算公式如下:
其中,u
i
表示内容i在内容集合I的所有内容中请求频次由高到低的排名,θ为偏斜因子,且θ为经验值。3.如权利要求1所述的基于离散MADDPG的边缘缓存决策模型,其特征在于,通过以下步骤训练获得:S1、基于神经网络构建基础模型,基础模型包括Online

1策略网络、Online

2策略网络、Online价值网络、Target

1策略网络、Target

2策略网络和Target价值网络;设置经验池用于存储经验样本;RSUj在时隙t时的状态记作S
j,t
,Online

1策略网络根据状态S
j,t
生成RSUj决定缓存的内容集合,Online

2策略网络根据S
j,t
生成RSUj将要移出缓存空间的内容集合;令,A
j,t
表示RSUj在时隙t时的动作决策;Online价值网络用于对一个轮询中所有时隙产生的动作决策集合{A
j,t
}进行评价;所述轮询包含多个时隙;将RSUj执行动作决策后的状态记作下一个状态S

j,t
,Target

1策略网络根据下一个状态S

j,t
生成RSUj决定缓存的内容集合,Target

2策略网络根据下一个状态S

j,t
生成RSUj将要移出缓存空间的内容集合,A

j,t
表示下一个动作决策,;Target价值网络用于对一个轮询中所有时隙产生的下一个动作决策集合{A

j,t
}进行评价;从历史数据中获取训练样本集合,T
S
表示训练样本集合对应的采样时隙维度,记作历史时隙序列,T
S
包含n
s
个时隙;q表示通信网络中RSU的数量;S2、基于基础模型和经验池训练基础模型的参数,获取与各RSU对应的边缘缓存决策模型,训练RSUj对应的边缘缓存决策模型包括以下步骤:S21、初始化基础模型,将n
s
个时隙划分为n
e
个等长的轮询,每个轮询包含多个时隙;令t=1;S22、将RSUj在时隙t时的状态S
j,t
输入到Online

1策略网络和Online

2策略网络以获取对应的动作决策A
j,t
;结合A
j,t
和S
j,t
计算奖励Z
j,t
和下一个状态S

j,t
,奖励Z
j,t
根据设定的奖励规则进行计算,将S
j,t
、A
j,t
、Z
j,t
、S

j,t
存入经验池中;S
j,t
和S

j,t
满足以下约束条件:其中,c
i
表示内容i的大小,C表示RSUj的缓存空间大小,T
j,t
表示RSUj在时隙t时存储的
所有内容的传输时间,表示时隙t内在RSUj中命中的所有内容的总传输时间,表示在RSU...

【专利技术属性】
技术研发人员:魏振春傅宇吕增威张本宏樊玉琦石雷徐娟
申请(专利权)人:合肥工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1