当前位置: 首页 > 专利查询>天津大学专利>正文

一种基于注意力机制强化学习的边缘网络设备缓存方法技术

技术编号:30087307 阅读:21 留言:0更新日期:2021-09-18 08:47
本发明专利技术公开了一种基于注意力机制强化学习的边缘网络设备缓存方法,包括如下步骤:建立蜂窝网络模型,蜂窝网络模型包括用户设备、边缘网络设备和核心网络,每个边缘网络设备中均设有行动网络模块和评价网络模块;边缘网络设备接收所在区域内的用户设备发出的请求;每个边缘网络设备获取其它边缘网络设备的观测值;每个边缘网络设备依据缓存替换策略和观测值选取动作;边缘网络设备发送动作和更新后的状态到邻接边缘网络设备;根据动作更新后的观测值和动作价值函数对行动网络模块和评价网络模块的参数进行更新;根据目标函数对缓存替换策略进行优化。本发明专利技术可以减少从云数据中心重复下载文件的次数,降低延迟,提升网络服务质量与用户体验质量。质量与用户体验质量。质量与用户体验质量。

【技术实现步骤摘要】
一种基于注意力机制强化学习的边缘网络设备缓存方法


[0001]本专利技术涉及边缘缓存与深度强化学习
,特别是涉及一种基于注意力机制强化学习的边缘网络设备缓存方法。

技术介绍

[0002]随着网络技术的发展和需求的激增,数据、应用程序的速度和吞吐量正在导致流量的飞速增长,这项挑战也促进了网络架构和先进通信技术的紧迫革命。移动边缘缓存(Mobile EdgeComputing,MEC)技术可以有效缓解移动网络运营商的流量压力,通过将内容存储在接近用户的基站或本地设备上,可以有效减少应用服务中的冗余数据传输延迟并提高服务质量。
[0003]在现实生活中,用户所处的场景多种多样。由于不同场景所提供的服务不同,因此各个基站缓存的内容存在很大差异。MEC技术可以有效地应对不同类型的边缘节点通信的高容量需求,但是,将所有的内容都存储在异构边缘网络中是不切实际的。因此,构建适当的边缘缓存策略以充分利用网络架构似乎是必然趋势。传统的高速缓存替换策略,例如最近最少使用算法(LRU)和先输入先输出算法(FIFO),都是基于静态规则,这类算法忽略了与整体的动态交互。随着人工智能的实质性突破,越来越多的研究人员利用动态自适应方法来设计边缘缓存方案,以期实现网络系统的整体意识,因此将缓存算法部署到位于互联网最末端的边缘系统非常重要。

技术实现思路

[0004]针对传统缓存替换策略未考量动态交互的技术问题,本专利技术提出一种基于注意力机制强化学习的边缘网络设备缓存方法,通过在行动者

评价者算法中引入注意力机制解决了多智能体边缘缓存问题。
[0005]一种基于注意力机制强化学习的边缘网络设备缓存方法,包括以下步骤:
[0006]S1,建立蜂窝网络模型,所述蜂窝网络模型包括用户设备、边缘网络设备和核心网络,每个边缘网络设备中均设有行动网络模块和评价网络模块,所述行动网络模块用于观察边缘网络设备的观测值,并根据观测值和缓存替换策略选取动作,所述评价网络模块利用注意力机制评估动作价值函数;
[0007]S2,边缘网络设备接收所在区域内的用户设备发出的请求;
[0008]S3,每个边缘网络设备获取其它边缘网络设备的观测值;
[0009]S4,每个边缘网络设备依据缓存替换策略和观测值选取动作;
[0010]S5,边缘网络设备发送动作和更新后的状态到邻接边缘网络设备;
[0011]S6,根据动作更新后的观测值和动作价值函数对行动网络模块和评价网络模块的参数进行更新;
[0012]S7,根据目标函数对缓存替换策略进行优化。
[0013]在步骤S4中,所述缓存替换策略为其中,a
i
表示第i个边缘网络设备的动
作值,o
i
表示第i个边缘网络设备的观测值,θ
i
表示第i个边缘网络设备的行动网络模块的参数。
[0014]在步骤S5中,所述动作是指缓存替换内容的编号,所述更新后的状态是指采取步骤S4的动作后边缘网络设备的缓存列表。
[0015]所述根据动作更新后的观测值和动作价值函数对行动网络模块和评价网络模块的参数进行更新,包括如下步骤:
[0016]S6.1,根据动作更新后的观测值和动作价值函数计算所有边缘网络设备的已采取动作的价值其中,o
1...e
表示所有边缘网络设备的观测值,a
1...e
表示所有边缘网络设备的动作值,Ψ
i
表示第i个边缘网络设备的评价网络模块的参数;
[0017]S6.2,基于每个边缘网络设备的当前缓存替换策略计算边缘网络设备的第一预采取动作值其中,o'
i
表示边缘网络设备若采取第一预采取动作所对应的观测值,θ
i
表示第i个边缘网络设备的行动网络模块的参数;
[0018]S6.3,利用动作价值函数计算所有边缘网络设备的第一预采取动作的价值其中,o'
1...e
表示所有边缘网络设备若采取第一预动作对应的观测值,a'
1...e
表示所有边缘网络设备的第一预动作值;
[0019]S6.4,根据第一损失函数利用梯度下降更新评价网络模块;
[0020]S6.5,基于每个边缘网络设备的当前缓存替换策略重新计算每个边缘网络设备的第二预采取动作值其中,o”i
表示所有边缘网络设备若采取第二预动作对应的观测值;
[0021]S6.6,利用动作价值函数计算所有边缘网络设备的第二预采取动作的价值其中,o”1...e
表示所有边缘网络设备若采取第二预动作对应的观测值,a”1...e
表示所有边缘网络设备的第二预动作值,表示更新后的评价网络模块的参数;
[0022]S6.7,对行动网络模块的梯度进行更新以更新行动网络模块。
[0023]在步骤S6.1中,所述动作价值函数的计算公式为:
[0024][0025]式中,o表示当前边缘网络设备与其邻接边缘网络设备的观测值,a表示当前边缘网络设备与其邻接边缘网络设备的动作值,σ
i
为多层感知器,e
i
表示嵌入向量,Att
i
表示合作单元;
[0026]所述合作单元Att
i
的计算公式为:
[0027][0028]式中,ζ
j
表示具有嵌入向量e
i
和嵌入向量e
j
输入的影响单元,υ
j
是通过嵌入向量e
j
线性变换得到。
[0029]在步骤S6.4中,所述第一损失函数的计算公式为:
[0030][0031]式中,y
i
表示第一预采取动作的价值,L(ψ
i
)表示第一损失函数,表示当前
边缘网络设备的已采取动作的价值;
[0032]所述预采取动作的价值y
i
的计算公式为:
[0033][0034]式中,r
i
表示当前已获得的行动奖励,γ表示折扣率,ρ表示平衡系数。
[0035]在步骤S6.7中,所述对行动网络模块的梯度进行更新的公式为:
[0036][0037]式中,表示缓存替换策略,表示优势函数,为整体损失函数。
[0038]在步骤S7中,所述目标函数的公式为:
[0039]maxG;
[0040]目标函数的约束条件:
[0041][0042]x
req(u)i
∈{0,1};
[0043]h(E
i
,E
j
)≥0;
[0044]υ,μ,δ≥0;
[0045]式中,G表示整个模型的奖励,υ、μ、δ均为参数,h(E
i
,E
j
)表示边缘网络设备E
i
与边缘网络设备E
j
之间的距离,且i本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于注意力机制强化学习的边缘网络设备缓存方法,其特征在于,包括如下步骤:S1,建立蜂窝网络模型,所述蜂窝网络模型包括用户设备、边缘网络设备和核心网络,每个边缘网络设备中均设有行动网络模块和评价网络模块,所述行动网络模块用于观察边缘网络设备的观测值,并根据观测值和缓存替换策略选取动作,所述评价网络模块利用注意力机制评估动作价值函数;S2,边缘网络设备接收所在区域内的用户设备发出的请求;S3,每个边缘网络设备获取其它边缘网络设备的观测值;S4,每个边缘网络设备依据缓存替换策略和观测值选取动作;S5,边缘网络设备发送动作和更新后的状态到邻接边缘网络设备;S6,根据动作更新后的观测值和动作价值函数对行动网络模块和评价网络模块的参数进行更新;S7,根据目标函数对缓存替换策略进行优化。2.根据权利要求1所述的基于注意力机制强化学习的边缘网络设备缓存方法,其特征在于,在步骤S4中,所述缓存替换策略为其中,a
i
表示第i个边缘网络设备的动作值,o
i
表示第i个边缘网络设备的观测值,θ
i
表示第i个边缘网络设备的行动网络模块的参数。3.根据权利要求1所述的基于注意力机制强化学习的边缘网络设备缓存方法,其特征在于,在步骤S5中,所述动作是指缓存替换内容的编号,所述更新后的状态是指采取步骤S4的动作后边缘网络设备的缓存列表。4.根据权利要求1所述的基于注意力机制强化学习的边缘网络设备缓存方法,其特征在于,所述根据动作更新后的观测值和动作价值函数对行动网络模块和评价网络模块的参数进行更新,包括如下步骤:S6.1,根据动作更新后的观测值和动作价值函数计算所有边缘网络设备的已采取动作的价值其中,o
1...e
表示所有边缘网络设备的观测值,a
1...e
表示所有边缘网络设备的动作值,Ψ
i
表示第i个边缘网络设备的评价网络模块的参数;S6.2,基于每个边缘网络设备的当前缓存替换策略计算边缘网络设备的第一预采取动作值其中,o

i
表示边缘网络设备若采取第一预采取动作所对应的观测值,θ
i
表示第i个边缘网络设备的行动网络模块的参数;S6.3,利用动作价值函数计算所有边缘网络设备的第一预采取动作的价值其中,o

1...e
表示所有边缘网络设备若采取第一预动作对应的观测值,a

1...e
表示所有边缘网络设备的第一预动作值;S6.4,根据第一损失函数利用梯度下降更新评价网络模块;S6.5,基于每个边缘网络设备的当前缓存替换策略重新计算每个边缘网络设备的第二预采取动作值其中,o

i
表示所有边缘网络设备若采取第二预动作对应的观测值;S6.6,利用动作价值函数计算所有边缘网络设备的第二预采取动作的价值
其中,o

1...e
表示所有边缘网络设备若采取第二预动作对应的观测值,a

1...e
表示所有边缘网络设备的第二预动作值,表示更新后的评价网络模块的参数;S6.7,对行动网络模块的梯度进行更新以更新行动网络模块。5.根据权利要求4所述的基于注意力机制强化学习的边缘网络设备缓存方法,其特征在于,在步骤S6.1中,所述动作价值函数的计算公式为:式中,o表示当前边缘网络设备与其邻接边缘网络设备的观测值,a表示当前边缘网络设备与其邻接边缘网络设备的动作值,σ
i
为多层感知器,e
i
表示嵌入向量,Att
i
表示合作单元;所述合作单元Att
i
的计算公式为:式中,ζ
j
表示具有嵌入向量e
i
和嵌入向量e
j
输入的影响单元,υ
j
是通过嵌入向量e
j
线性变换得到。6.根据权利要求4所述的基...

【专利技术属性】
技术研发人员:王晓飞贾博森赵益尉李瑞斌王晨阳
申请(专利权)人:天津大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1