基于离散MADDPG的边缘缓存决策模型、方法和系统技术方案

技术编号：34023214 阅读：16 留言：0更新日期：2022-07-02 17:27

基于离散MADDPG的边缘缓存决策模型、方法和系统，所述边缘缓存决策模型适用于用户终端、云服务器和多个RSU组成的通信网络；所述边缘缓存决策模型基于神经网络构建，其与RSU一一对应，所述边缘缓存决策模型用于根据RSU的状态生成对应的动作决策。本发明专利技术将多智能体深度强化学习中的离散MADDPG算法引入协作边缘缓存，能够实现智能体间的合作通信且有强大的决策能力，可以很好地实现缓存决策且控制缓存冗余。冗余。冗余。

全部详细技术资料下载

【技术实现步骤摘要】
基于离散MADDPG的边缘缓存决策模型、方法和系统

[0001]本专利技术涉及协作边缘缓存领域，尤其涉及一种基于离散MADDPG的边缘缓存决策模型、方法和系统。

技术介绍

[0002]随着5G技术的逐步成熟，用户可以使用移动设备体验VR（虚拟现实）、超高清实时直播等应用，但这些应用会带来数据量的激增，而体验用户却需要低延迟的服务质量，传统的云服务方式因为用户距离云服务器较远导致延迟较高，从而无法满足用户对VR等应用的高质量体验。
[0003]针对传统云服务方式的不足，边缘缓存技术逐渐成为一种可行的方案。边缘缓存技术是将部分云端数据下放到离用户更近的边缘端，从而使用户可以得到更低延迟的请求响应。边缘缓存技术可分为单节点边缘缓存和协作边缘缓存，因为单节点边缘缓存存储的内容有限，所以协作边缘缓存技术是目前主流的技术。
[0004]然而目前大部分的协作边缘缓存方案仅考虑内容传输时的协作，而不考虑缓存决策时的协作，即在缓存决策时仅依据单个节点的缓存状态，而不考虑其他节点的缓存状态。这种形式的协作缓存可能导致通信网络中RSU（路边单元）存储的内容冗余过高，从而降低缓存空间的利用率。

技术实现思路

[0005]为了解决上述现有技术中的协作缓存方案缓存空间利用率低的缺陷，本专利技术提出了一种基于离散MADDPG的边缘缓存决策模型，大大提高了通信网络的缓存命中率，提高了缓存空间利用效率。
[0006]本专利技术提出的一种基于离散MADDPG（多智能体深度确定性策略梯度）的边缘缓存决策模型，适用于...

【技术保护点】

【技术特征摘要】
1.一种基于离散MADDPG的边缘缓存决策模型，适用于用户终端、云服务器和多个RSU组成的通信网络，其特征在于，所述边缘缓存决策模型为离散MADDPG架构内的神经网络，其与RSU一一对应，所述边缘缓存决策模型用于根据RSU的状态生成对应的动作决策；RSUj表示通信网络中第j个RSU，令RSUj在时隙t的状态记作S
j,t
，令RSUj在时隙t时决定缓存下来的内容集合记作，RSUj在时隙t时选择从缓存空间中移出的内容集合记作，RSUj在时隙t时的动作决策记作；；其中，F
j,t
为RSUj在时隙t时的内容存储状态、R
j,t
为RSUj在时隙t内处理的内容请求集合，内容请求集合指的是请求指向的内容的集合；为RSUj在时隙t时已缓存的内容的流行度集合、为RSUj在时隙t时未命中的内容的流行度集合；RSUj在时隙t时被请求且已经存储在缓存空间中的内容称为命中的内容；RSUj在时隙t时被请求且未存储的内容称为未命中的内容；为RSUj在时隙t时已缓存的内容的大小、为RSUj在时隙t时未命中的内容的大小；内容的流行度为内容被请求的概率；；为二进制数，； RSU和云服务器存储的所有内容集合为I，I={内容1,内容2,
…
,内容i,
…
,内容i
max
}， i
max
为内容集合I中的内容总数量，内容集合中任意两个内容相异，i为序数，1≤i≤i
max
；；表示RSUj在时隙t内处理的第k j
个请求指向的内容，表示RSUj在时隙t内处理的请求的总数量；RSUj在时隙t内处理的任一个请求指向的内容均属于内容集合I，记作；设RSUj在时隙t时缓存的内容集合为，将中的第n个内容记作内容；RSUj在时隙t时未命中的内容集合为，将中的第m个内容记作内容，内容i的流行度记作p
i
，内容i的大小记作c
i
；。2.如权利要求1所述的基于离散MADDPG的边缘缓存决策模型，其特征在于，内容i的流行度记作p
i
，其计算公式如下：
其中，u
i
表示内容i在内容集合I的所有内容中请求频次由高到低的排名，θ为偏斜因子，且θ为经验值。3.如权利要求1所述的基于离散MADDPG的边缘缓存决策模型，其特征在于，通过以下步骤训练获得：S1、基于神经网络构建基础模型，基础模型包括Online
‑
1策略网络、Online
‑
2策略网络、Online价值网络、Target
‑
1策略网络、Target
‑
2策略网络和Target价值网络；设置经验池用于存储经验样本；RSUj在时隙t时的状态记作S
j,t
，Online
‑
1策略网络根据状态S
j,t
生成RSUj决定缓存的内容集合，Online
‑
2策略网络根据S
j,t
生成RSUj将要移出缓存空间的内容集合；令，A
j,t
表示RSUj在时隙t时的动作决策；Online价值网络用于对一个轮询中所有时隙产生的动作决策集合{A
j,t
}进行评价；所述轮询包含多个时隙；将RSUj执行动作决策后的状态记作下一个状态S
’
j,t
，Target
‑
1策略网络根据下一个状态S
’
j,t
生成RSUj决定缓存的内容集合，Target
‑
2策略网络根据下一个状态S
’
j,t
生成RSUj将要移出缓存空间的内容集合，A
’
j,t
表示下一个动作决策，；Target价值网络用于对一个轮询中所有时隙产生的下一个动作决策集合{A
’
j,t
}进行评价；从历史数据中获取训练样本集合，T
S
表示训练样本集合对应的采样时隙维度，记作历史时隙序列，T
S
包含n
s
个时隙；q表示通信网络中RSU的数量；S2、基于基础模型和经验池训练基础模型的参数，获取与各RSU对应的边缘缓存决策模型，训练RSUj对应的边缘缓存决策模型包括以下步骤：S21、初始化基础模型，将n
s
个时隙划分为n
e
个等长的轮询，每个轮询包含多个时隙；令t=1；S22、将RSUj在时隙t时的状态S
j,t
输入到Online
‑
1策略网络和Online
‑
2策略网络以获取对应的动作决策A
j,t
；结合A
j,t
和S
j,t
计算奖励Z
j,t
和下一个状态S
’
j,t
，奖励Z
j,t
根据设定的奖励规则进行计算，将S
j,t
、A
j,t
、Z
j,t
、S
’
j,t
存入经验池中；S
j,t
和S
’
j,t
满足以下约束条件：其中，c
i
表示内容i的大小，C表示RSUj的缓存空间大小，T
j,t
表示RSUj在时隙t时存储的
所有内容的传输时间，表示时隙t内在RSUj中命中的所有内容的总传输时间，表示在RSU...

【专利技术属性】
技术研发人员：魏振春，傅宇，吕增威，张本宏，樊玉琦，石雷，徐娟，
申请(专利权)人：合肥工业大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人