一种基于深度强化学习的D2D网络中的缓存策略方法技术

技术编号:20875581 阅读:36 留言:0更新日期:2019-04-17 11:24
本发明专利技术公开了一种基于深度强化学习的D2D网络缓存策略方法,以缓存使能的D2D网络中的每个用户的历史位置信息为输入数据,通过回声状态网络算法,得出每个用户下一时刻的位置信息;根据每个用户下一时刻的位置信息,结合每个用户的当前时刻的上下文信息,通过回声状态网络算法,得出每个用户下一时刻的内容请求信息;将内容请求信息缓存在对应用户的缓存空间中;通过深度强化学习算法,以发射内容请求信息用户的发射功率最小和接收内容请求信息用户的延时最短为目标,得出缓存使能的D2D网络中各用户之间传递内容请求信息的最优策略;本发明专利技术解决了缓存使能的D2D网络中缓存内容放置命中率低以及缓存传递过程中耗能大延迟长的问题。

【技术实现步骤摘要】
一种基于深度强化学习的D2D网络中的缓存策略方法
本专利技术属于缓存使能的D2D网络缓存传输
,具体涉及一种基于深度强化学习的D2D网络中的缓存策略方法。
技术介绍
近年来,设备到设备(D2D)通信在5G无线网络中引起了广泛的关注,这种技术能够使用户在一定距离内不需要基站的辅助,达到直接通信的效果,能够有效地提高能量效率以及频谱效率。然而,随着无线设备用户的数量呈指数级增长,导致了高流量负载,这大大增加了回程链路成本和传输延迟。而缓存技术能够消除流行内容的重复数据传输,减少回程流量和提高网络吞吐量,已经成为5G发展中一个有力的候选者。考虑到有限的可用内容存储容量和用户移动性模式,在设备中缓存什么内容对于D2D用户的无缝切换和内容下载起着重要的作用。一方面,内容放置策略直接决定了D2D通信可以卸载的总流量的一部分;另一方面,支持缓存的D2D网络中用户的缓存内容可以由多个用户同时请求,或者一个用户请求的缓存内容可以被多个D2D用户满足。因此,如何设计内容放置策略以及如何执行内容交付是非常重要的。现有技术中,存在缓存使能的小蜂窝网络中基于强化学习(RL)的移动用户资源分配方法本文档来自技高网...

【技术保护点】
1.一种基于深度强化学习的D2D网络缓存策略方法,其特征在于,包括以下步骤:以缓存使能的D2D网络中的每个用户的历史位置信息作为输入数据,通过回声状态网络算法,得出所述每个用户下一时刻的位置信息;根据所述每个用户下一时刻的位置信息,结合其当前时刻的上下文信息,通过所述回声状态网络算法,得出所述每个用户下一时刻的内容请求信息;将所述内容请求信息缓存在对应用户的缓存空间中;以发射内容请求信息的用户功耗最小以及请求内容信息的用户接收延迟最短为优化目标,基于深度强化学习算法,通过神经网络的不断训练更新控制,得出传递缓存内容的最优策略。

【技术特征摘要】
1.一种基于深度强化学习的D2D网络缓存策略方法,其特征在于,包括以下步骤:以缓存使能的D2D网络中的每个用户的历史位置信息作为输入数据,通过回声状态网络算法,得出所述每个用户下一时刻的位置信息;根据所述每个用户下一时刻的位置信息,结合其当前时刻的上下文信息,通过所述回声状态网络算法,得出所述每个用户下一时刻的内容请求信息;将所述内容请求信息缓存在对应用户的缓存空间中;以发射内容请求信息的用户功耗最小以及请求内容信息的用户接收延迟最短为优化目标,基于深度强化学习算法,通过神经网络的不断训练更新控制,得出传递缓存内容的最优策略。2.如权利要求1所述的一种基于深度强化学习的D2D网络缓存策略方法,其特征在于,在所述深度强化学习算法中:以每个用户和其他所有用户之间建立的D2D通信链路的传输功率、信道增益和距离为网络状态空间;以每个用户和其他用户之间建立的D2D链路连接为网络动作空间;以发射所述内容请求信息用户的发射功率最小和接收所述内容请求信息用户的延时最短为奖励函数。3.如权利要求1或2所述的一种基于深度强化学习的D2D网络缓存策略方法,其特征在于,所述最优策略为π*,且有其中,V(s,π)为深度强化学习算法中的长期效用函数,4.如权利要求3所述的一种基于深度强化学习的D2D网络缓存策略方法,其特征在于,所述长期效用函数其中,γ∈[0,1)是折扣因子,(γ)(t-1)表示t-1时刻的功率的折扣因子,表示在深度强化学习算法中t时刻,状态为s、策略为π、执行动作为a时得到的即时奖励。5....

【专利技术属性】
技术研发人员:李立欣徐洋李旭高昂梁微殷家应
申请(专利权)人:西北工业大学
类型:发明
国别省市:陕西,61

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1