当前位置: 首页 > 专利查询>东南大学专利>正文

一种雾无线接入网中基于强化学习的边缘缓存方法技术

技术编号:21340487 阅读:26 留言:0更新日期:2019-06-13 21:49
本发明专利技术公开了一种雾无线接入网中基于强化学习的边缘缓存方法,包括:(1)根据全局文件流行度,初始化节点的本地缓存动作向量、系统状态,以及权重向量;(2)记录前一时隙的缓存动作向量;(3)在每个时隙结束时刻,根据贪婪选择算法以及近似值函数,得出新的缓存动作向量;(4)根据时隙内收集到的用户请求次数计算内容流行度,同时根据时隙内收集的用户偏好标记,结合文件特征标记,计算区域用户偏好,确定系统状态;(5)根据时隙内用户对各个文件的请求次数,计算缓存命中率,得到即时回报函数以及即时误差函数;(6)更新权重向量,进入下一时隙。

An Edge Caching Method Based on Reinforcement Learning in Fog Wireless Access Network

The invention discloses an edge caching method based on reinforcement learning in fog wireless access network, which includes: (1) initializing local caching action vectors, system state and weight vectors of nodes according to global file popularity; (2) recording caching action vectors of previous slots; (3) obtaining new caching action vectors at the end of each slot according to greedy selection algorithm and approximation function. Caching action vectors; (4) Calculating content popularity based on the number of user requests collected in time slots, and calculating regional user preferences based on user preference tags collected in time slots, combined with file feature tags, to determine system status; (5) Calculating cache hit rate based on the number of user requests for each file in time slots, obtaining instant return function and instant error function. (6) Update the weight vector and enter the next slot.

【技术实现步骤摘要】
一种雾无线接入网中基于强化学习的边缘缓存方法
本专利技术涉及移动通信系统中的边缘缓存方法,尤其涉及一种雾无线接入网中基于强化学习的边缘缓存方法。
技术介绍
随着实时多媒体服务在5G通信网络中逐渐成为主要业务,无线网络为了支持这种高速大容量的无线网络业务,正在遭受空前的数据传输压力。雾无线接入网作为5G通信系统的新型系统架构,通过在节点中提前缓存流行内容,从而可以有效地降低回传负载,在缓解前传拥塞和降低通信时延等方面有着巨大优势。由于网络环境空时变化复杂以及各个节点的存储空间有限,雾无线接入网缓存技术面临各种各样的挑战,诸如,为使得节点的缓存命中率尽可能地高,应该在何时存放什么内容到本地节点。传统的缓存策略诸如最近最少使用缓存策略、最近最不常用缓存策略以及这些算法的变体已经广泛应用于有线网络,然而,实时多媒体服务使得网络环境趋向复杂,单一的基于全局文件流行度的传统缓存策略不再适用于无线网络。目前的研究工作正在转向基于区域流行度和用户偏好的动态缓存策略的研究上。如果能从较为复杂的网络环境中,提取到有效信息并加以利用并预测下一时刻用户最有可能请求的文件,节点可以保证持续缓存热点内容,从而实现逼近理想缓存策略的缓存命中率,最大程度降低回传负载和通信时延。
技术实现思路
专利技术目的:本专利技术针对现有技术存在的问题,提供一种雾无线接入网中基于强化学习的边缘缓存方法,本专利技术动态地确定雾无线接入网中的节点的缓存决策,且通信开销少、总前传卸载量较高。本专利技术所采用的技术方案是:一种雾无线接入网中基于强化学习的边缘缓存方法,包括以下步骤:S1:根据全局文件流行度初始化节点的本地缓存动作向量a(0),并随机初始化系统状态s(0)和权重向量w0;S2:在第t个时隙,记录上一时刻的缓存动作向量a(t-1),当前时刻的缓存动作向量a(t)=[a1(t),...,af(t),...,aF(t)]T,其中af(t)=1表示在第t个时隙第f个文件已缓存至本地,af(t)=0表示在第t个时隙第f个文件未缓存至本地;S3:本地节点各自计算周期内的内容流行度p(t)和收集自身覆盖区域用户偏好q(t),并结合S2中记录的上一时刻缓存动作向量a(t-1),确认当前的系统状态s(t);S4:在第t个时隙结束时刻,根据事先设定的贪婪选择中的贪婪因子∈t,进行缓存动作向量的选择:其中,为近似值函数,s(t)为系统状态,为缓存动作集合,wt为权重向量;S5:收集用户对各个文件的请求次数,计算得到即时回报函数r(t),并以此计算即时误差函数S6:更新权重向量wt,并令t=t+1,开始下一个时隙的缓存优化。进一步的,所述S3具体包括以下步骤:S3-1:收集在第t个时隙内的所有用户请求,以对第f个内容为例子,df(t)为其被区域用户请求的总次数,则第f个文件的内容流行度:内容流行度向量p(t)=[p1(t),...,pf(t),...,pF(t)]T;S3-2:收集在第t个时隙内的所有用户偏好标记xn(t)∈[0,1]L,并根据文件特征标记yn(t)∈[0,1]L,得出来自用户集中每个用户与每个文件之间的关联性函数:g[xn(t),yf(t)]=(1-<1xn(t),yf(t)>)log(1-α)(3)其中,L为标记向量的维度,α为相关性参数;S3-3:用户偏好向量q(t)=[q1(t),...,qf(t),...,qF(t)]T,其中进一步的,S4中将求使得当前时隙近似函数最小时的缓存动作向量问题转化为整数规划问题,具体包括以下步骤:S4-1:根据上一时刻的缓存动作向量a(t-1)和自变量x(t),计算得到代价z1(t)=xT(t)(1-a(t-1);S4-2:根据内容流行度p(t)和自变量x(t),计算得到代价矢量S4-3:根据用户偏好向量q(t)和自变量x(t),计算得到代价矢量S4-4:构建代价向量:S4-5:根据权重向量wt和由构建的代价向量得到如下整数规划并求解:s.t.x(t)∈{0,1}F,x(t)·1=M其中,F表示文件库中的文件个数,M表示节点可缓存的文件个数上限。进一步的,所述S5具体包括以下步骤:S5-1:计算得到第t个时隙内的缓存命中率:S5-2:根据第t个时隙内的缓存命中率,得到即时回报函数:r(t)=1-θ(t);S5-3:根据即时回报函数得到即时误差函数:其中,γ为折现因子,wt为权重向量。进一步的,所述S6具体包括以下步骤:S6-1:根据即时误差函数和代价向量更新权重向量:其中,ρ为学习步长;S6-2:令t=t+1,回到S2开始下一个时隙的缓存优化。有益效果:本专利技术具有以下优点:1、通过各节点在缓存动作后得到的即时回报函数进行动态缓存优化,使得各节点能够免于大量的信息交互而自行完成最优决策;2、将雾无线接入网中的动态缓存布置问题建立在深度强化学习框架下,准确地描述用户请求与节点缓存状态的实时情况,进而使得节点在每一时刻均能够做出最优决策,从而使动态的最优内容布置成为可能;3、利用结合缓存更新代价、结合内容流行度和区域用户偏好的代价特征向量,通过基于值函数近似的强化学习算法降低了传统强化学习算法的复杂度,加快了在线学习的收敛速度;附图说明图1是本专利技术的流程示意图。图2是本专利技术与传统边缘缓存策略对缓存命中率进行对比的仿真结果图。具体实施方式下面结合附图和实施例进一步阐述本专利技术。本专利技术所述的一种雾无线接入网中基于强化学习的边缘缓存方法,包括如下步骤:S1:根据全局文件流行度初始化节点的本地缓存动作向量a(0),并随机初始化系统状态s(0)和权重向量w0;S2:在第t个时隙,记录上一时刻的缓存动作向量a(t-1),其中,缓存动作向量也称为节点的缓存决策向量。当前时刻的缓存动作向量a(t)=[a1(t),...,af(t),...,aF(t)]T,其中af(t)=1表示在第t个时隙第f个文件已缓存至本地,若af(t)=0则反之;S3:本地节点各自计算周期内的内容流行度p(t)和收集自身覆盖区域用户偏好向量q(t),并结合步骤(2)中得到的上一时刻缓存动作向量a(t-1),确认当前的系统状态s(t)。具体包括:;S3-1:收集在第t个时隙内的所有用户请求,以对第f个内容为例子,df(t)为其被区域用户请求的总次数,则第f个文件的内容流行度:内容流行度向量p(t)=[p1(t),...,pf(t),...,pF(t)]T;S3-2:收集在第t个时隙内的所有用户偏好标记xn(t)∈[0,1]L,并根据文件特征标记yn(t)∈[0,1]L,得出来自用户集中每个用户与每个文件之间的关联性函数:g[xn(t),yf(t)]=(1-<xn(t),yf(t)>)log(1-α)(3)其中,L为标记向量的维度,α为相关性参数;S3-3:用户偏好向量q(t)=[q1(t),...,qf(t),...,qF(t)]T,其中S4:在第t个时隙结束时刻,确定贪婪选择中的贪婪因子∈t,并根据下面公式进行缓存向量的选择:其中,为近似值函数,s(t)为系统状态,由前一时刻的缓存动作a(t-1)、当前时刻的内容流行度p(t)和区域用户偏好q(t)组成,为缓存动作集合;将求使得当前时隙近似函数最小时的缓存动作向量问题转化为整数规划问题,具体包括:本文档来自技高网...

【技术保护点】
1.一种雾无线接入网中基于强化学习的边缘缓存方法,其特征在于:包括以下步骤:S1:根据全局文件流行度初始化节点的本地缓存动作向量a(0),并随机初始化系统状态s(0)和权重向量w0;S2:在第t个时隙,记录上一时刻的缓存动作向量a(t‑1),当前时刻的缓存动作向量a(t)=[a1(t),...,af(t),...,aF(t)]

【技术特征摘要】
1.一种雾无线接入网中基于强化学习的边缘缓存方法,其特征在于:包括以下步骤:S1:根据全局文件流行度初始化节点的本地缓存动作向量a(0),并随机初始化系统状态s(0)和权重向量w0;S2:在第t个时隙,记录上一时刻的缓存动作向量a(t-1),当前时刻的缓存动作向量a(t)=[a1(t),...,af(t),...,aF(t)]T,其中af(t)=1表示在第t个时隙第f个文件已缓存至本地,af(t)=0表示在第t个时隙第f个文件未缓存至本地;S3:本地节点各自计算周期内的内容流行度p(t)和收集自身覆盖区域用户偏好q(t),并结合S2中记录的上一时刻缓存动作向量a(t-1),确认当前的系统状态s(t);S4:在第t个时隙结束时刻,根据事先设定的贪婪选择中的贪婪因子∈t,进行缓存动作向量的选择:其中,为近似值函数,s(t)为系统状态,为缓存动作集合,wt为权重向量;S5:收集用户对各个文件的请求次数,计算得到即时回报函数r(t),并以此计算即时误差函数S6:更新权重向量wt,并令t=t+1,开始下一个时隙的缓存优化。2.根据权利要求1所述的一种雾无线接入网中基于强化学习的边缘缓存方法,其特征在于:所述S3具体包括以下步骤:S3-1:收集在第t个时隙内的所有用户请求,以对第f个内容为例子,df(t)为其被区域用户请求的总次数,则第f个文件的内容流行度:内容流行度向量p(t)=[p1(t),...,pf(t),...,pF(t)]T;S3-2:收集在第t个时隙内的所有用户偏好标记xn(t)∈[0,1]L,并根据文件特征标记yn(t)∈[0,1]L,得出来自用户集中每个用户与每个文件之间的关联性函数:g[xn(t),yf(t)]=(1-&l...

【专利技术属性】
技术研发人员:蒋雁翔陆镠央尤肖虎
申请(专利权)人:东南大学
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1