一种基于深度强化学习的D2D网络中的缓存策略方法技术

技术编号:20875581 阅读:25 留言:0更新日期:2019-04-17 11:24
本发明专利技术公开了一种基于深度强化学习的D2D网络缓存策略方法,以缓存使能的D2D网络中的每个用户的历史位置信息为输入数据,通过回声状态网络算法,得出每个用户下一时刻的位置信息;根据每个用户下一时刻的位置信息,结合每个用户的当前时刻的上下文信息,通过回声状态网络算法,得出每个用户下一时刻的内容请求信息;将内容请求信息缓存在对应用户的缓存空间中;通过深度强化学习算法,以发射内容请求信息用户的发射功率最小和接收内容请求信息用户的延时最短为目标,得出缓存使能的D2D网络中各用户之间传递内容请求信息的最优策略;本发明专利技术解决了缓存使能的D2D网络中缓存内容放置命中率低以及缓存传递过程中耗能大延迟长的问题。

【技术实现步骤摘要】
一种基于深度强化学习的D2D网络中的缓存策略方法
本专利技术属于缓存使能的D2D网络缓存传输
,具体涉及一种基于深度强化学习的D2D网络中的缓存策略方法。
技术介绍
近年来,设备到设备(D2D)通信在5G无线网络中引起了广泛的关注,这种技术能够使用户在一定距离内不需要基站的辅助,达到直接通信的效果,能够有效地提高能量效率以及频谱效率。然而,随着无线设备用户的数量呈指数级增长,导致了高流量负载,这大大增加了回程链路成本和传输延迟。而缓存技术能够消除流行内容的重复数据传输,减少回程流量和提高网络吞吐量,已经成为5G发展中一个有力的候选者。考虑到有限的可用内容存储容量和用户移动性模式,在设备中缓存什么内容对于D2D用户的无缝切换和内容下载起着重要的作用。一方面,内容放置策略直接决定了D2D通信可以卸载的总流量的一部分;另一方面,支持缓存的D2D网络中用户的缓存内容可以由多个用户同时请求,或者一个用户请求的缓存内容可以被多个D2D用户满足。因此,如何设计内容放置策略以及如何执行内容交付是非常重要的。现有技术中,存在缓存使能的小蜂窝网络中基于强化学习(RL)的移动用户资源分配方法,该方法采用长短时序记忆(LSTM)神经网络算法来预测用户的移动性。还存在假定内容流行度完全已知的情况下,为每个基站都提出了缓存策略以最小化平均下载延迟。然而,尽管现有的这些缓存策略在一定程度上提高了系统性能,但是这些方案都存在一定的局限性,比如如果没有对内容流行度进行预测,缓存命中率会受到了很大的限制;如果不考虑内容交付,缓存传递过程中耗能大延迟长,资源利用率就无法很好地执行
技术实现思路
本专利技术的目的是提供一种基于深度强化学习的D2D网络缓存策略方法,解决了缓存使能的D2D网络中缓存内容放置命中率低以及缓存传递过程中耗能大延迟长的问题。本专利技术采用以下技术方案:一种基于深度强化学习的D2D网络缓存策略方法,包括以下步骤:以缓存使能的D2D网络中的每个用户的历史位置信息作为输入数据,通过回声状态网络算法,得出每个用户下一时刻的位置信息;根据每个用户下一时刻的位置信息,结合其当前时刻的上下文信息,通过回声状态网络算法,得出每个用户下一时刻的内容请求信息;将内容请求信息缓存在对应用户的缓存空间中;以发射内容请求信息的用户功耗最小以及请求内容信息的用户接收延迟最短为优化目标,基于深度强化学习算法,通过神经网络的不断训练更新控制,得出传递缓存内容的最优策略。进一步的,在深度强化学习算法中:以每个用户和其他所有用户之间可能建立的D2D通信链路的传输功率、信道增益和距离为网络状态空间;以每个用户和其他用户之间建立的D2D链路连接为网络动作空间;以发射内容请求信息用户的发射功率最小和接收内容请求信息用户的延时最短为奖励函数。进一步的,最优策略为π*,且有其中,V(s,π)为深度强化学习算法中的长期效用函数,进一步的,长期效用函数其中,γ∈[0,1)是折扣因子,(γ)(t-1)表示t-1时刻的功率的折扣因子,表示在深度强化学习算法中t时刻,状态为s、策略为π、执行动作为a时得到的即时奖励。进一步的,即时奖励其中,ξ和η分别是权重系数,为t时刻用户k和用户n之间的距离,为t时刻用户n向用户k发射内容请求信息的传输功率,为t时刻用户k和用户n之间的信道增益,为t时刻用户n和用户k之间的路径损耗,δ2是t时刻高斯白噪声的功率,P为在理想信道条件下成功发射内容请求信息所需的单位距离功率。进一步的,通过回声状态网络算法计算每个用户下一时刻的位置信息时,得出每个用户下一时刻的位置信息状态分布,选择每个位置信息状态分布中概率最高的位置信息作为对应用户的下一时刻位置信息;通过回声状态网络算法计算每个用户下一时刻的内容请求信息时,得出每个用户下一时刻的内容请求信息状态分布,选择每个内容请求信息状态分布中概率最高的内容请求信息作为对应用户的下一时刻内容请求信息。进一步的,将内容请求信息缓存在对应用户的缓存空间中具体方法为:每个用户根据对应的下一时刻内容请求信息向内容服务器发出缓存请求,并接受内容服务器发出的内容请求信息对应的缓存文件,存储在每个用户的缓存空间。进一步的,上下文信息包括用户内容请求的时间、设备类型、性别、年龄和/或职业。本专利技术的有益效果是:本专利技术通过制定了一个新的缓存框架,可以准确预测内容流行度和用户的移动性,通过基于深度强化学习(DQN)的缓存传递的动态决策优化,以传输能耗和内容传输延时为指标,确定最优传递策略,本专利技术同时考虑合适的缓存位置以及最优的缓存传递策略,以使缓存在缓存使能D2D网络中传递时的能耗最小且延时最短。【附图说明】图1为本专利技术实施例中基于深度强化学习在不同学习率下的收敛性示意图;图2为本专利技术实施例中在不同缓存策略下的缓存成本对比示意图;图3为本专利技术实施例中基于最优缓存策略在实现延时和能耗所占不同权重的目标函数下的系统性能对比示意图。【具体实施方式】下面结合附图和具体实施方式对本专利技术进行详细说明。本专利技术公开了一种基于深度强化学习的D2D网络缓存策略方法,考虑一个缓存使能的D2D网络,有个用户,组成集合假设每个用户都有一个本地存储空间来缓存具有不同内容流行度的Q文件,并且每个文件的大小都相同。当用户与缓存用户的距离小于在一定干扰范围内的某一通信阈值距离dth时,此时用户更易从该缓存用户处获取缓存内容。然而,用户k的请求内容有可能被个邻近用户同时满足,表示为且用户i缓存的内容有可能同时被个用户请求,表示为本专利技术的优化目标可以归纳为以下几点:首先,通过预测内容流行度和用户的移动性来确定提高缓存命中率的缓存策略;其次,基于深度强化学习算法实现缓存传递的动态决策,降低整个系统的传输延迟和传输能耗。对于D2D通信链路,缓存可通过无线信道传递,由于信道增益和信道衰落的差异,不同信道的传输速率是不同的,可以由下式表示:其中,pk,n(t)是带有缓存内容的用户n对用户k的发射功率,gk,n(t)和dk,n(t)分别是用户n和用户k之间的信道增益以及距离,是路径损耗,δ2是高斯白噪声的功率。因此,由用户k对D2D用户n发送请求以获取请求内容的延时可以被表示为:其中,本专利技术只考虑内容传输过程中的延迟,从D2D用户n到用户k的请求内容传递的能耗可以被表示为:其中,P为在理想信道条件下成功传输所请求内容所需的单位距离功率。为了使系统的内容请求延迟和功耗最小化,我们将公式定义为:Ψk,n(t)=ξTk,n(t)+ηpk,n(t)(4),其中ξ和η分别是权重系数。从用户的角度来看,传输时延Tk,n(t)应该越小越好;对于D2D发送端用户,发射功率pk,n(t)也是越小越好。因此,本专利技术的目标函数可以被表示为:其中,表示在t时刻满足用户k请求的D2D用户数。本方法具体包括以下步骤:考虑到用户移动性和内容请求的规律性,采用回声状态网络进行预测。回声状态网络是一种特殊的带有动态储层的递归神经网络。一般而言,回声状态网络系统模型由三层组成:输入层、储层和输出层。这三层依次由输入权重矩阵Win和输出权重矩阵Wout连接,动态储层的节点由循环矩阵W连接。在训练阶段,只需要更改输出权重矩阵Wout使回声状态网络的训练过程更加简单和高效。本专利技术中假设输入层、储本文档来自技高网
...

【技术保护点】
1.一种基于深度强化学习的D2D网络缓存策略方法,其特征在于,包括以下步骤:以缓存使能的D2D网络中的每个用户的历史位置信息作为输入数据,通过回声状态网络算法,得出所述每个用户下一时刻的位置信息;根据所述每个用户下一时刻的位置信息,结合其当前时刻的上下文信息,通过所述回声状态网络算法,得出所述每个用户下一时刻的内容请求信息;将所述内容请求信息缓存在对应用户的缓存空间中;以发射内容请求信息的用户功耗最小以及请求内容信息的用户接收延迟最短为优化目标,基于深度强化学习算法,通过神经网络的不断训练更新控制,得出传递缓存内容的最优策略。

【技术特征摘要】
1.一种基于深度强化学习的D2D网络缓存策略方法,其特征在于,包括以下步骤:以缓存使能的D2D网络中的每个用户的历史位置信息作为输入数据,通过回声状态网络算法,得出所述每个用户下一时刻的位置信息;根据所述每个用户下一时刻的位置信息,结合其当前时刻的上下文信息,通过所述回声状态网络算法,得出所述每个用户下一时刻的内容请求信息;将所述内容请求信息缓存在对应用户的缓存空间中;以发射内容请求信息的用户功耗最小以及请求内容信息的用户接收延迟最短为优化目标,基于深度强化学习算法,通过神经网络的不断训练更新控制,得出传递缓存内容的最优策略。2.如权利要求1所述的一种基于深度强化学习的D2D网络缓存策略方法,其特征在于,在所述深度强化学习算法中:以每个用户和其他所有用户之间建立的D2D通信链路的传输功率、信道增益和距离为网络状态空间;以每个用户和其他用户之间建立的D2D链路连接为网络动作空间;以发射所述内容请求信息用户的发射功率最小和接收所述内容请求信息用户的延时最短为奖励函数。3.如权利要求1或2所述的一种基于深度强化学习的D2D网络缓存策略方法,其特征在于,所述最优策略为π*,且有其中,V(s,π)为深度强化学习算法中的长期效用函数,4.如权利要求3所述的一种基于深度强化学习的D2D网络缓存策略方法,其特征在于,所述长期效用函数其中,γ∈[0,1)是折扣因子,(γ)(t-1)表示t-1时刻的功率的折扣因子,表示在深度强化学习算法中t时刻,状态为s、策略为π、执行动作为a时得到的即时奖励。5....

【专利技术属性】
技术研发人员:李立欣徐洋李旭高昂梁微殷家应
申请(专利权)人:西北工业大学
类型:发明
国别省市:陕西,61

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1