一种基于异构智能体强化学习的认知缓存优化方法技术

技术编号:35000969 阅读:20 留言:0更新日期:2022-09-21 14:50
本发明专利技术公开了一种基于异构智能体强化学习的认知缓存优化方法,包括以下步骤:步骤S101:将用户和SBS作为异构智能体,两类异构智能体同时参与学习;获取N个SBS和K个用户中每一个SBS n和用户k在当前时间帧开始时的环境参数;步骤S102:将每个SBSn和每个用户在当前时间帧开始时的环境参数输入异构MADDPG模型;步骤S103:获取异构MADDPG模型输出的对应每个用户在当前时间帧的内容获取策略和每个SBS的缓存存储策略;步骤S104:按照步骤S101至步骤S103运行得到将放到用户

【技术实现步骤摘要】
一种基于异构智能体强化学习的认知缓存优化方法


[0001]本专利技术属于物联网通信
,尤其涉及一种基于异构智能体强化学习的认知缓存优化方法。

技术介绍

[0002]近年来,随着智能移动设备的急剧增长,导致移动数据流量呈现爆炸性增长,海量设备的接入和千倍级流量的增长使无线网络面临着从频谱资源到网络架构的多重挑战。与此同时用户对无线服务的需求也经历了根本的转变,从传统的以连接为中心的通信到现在以内容为中心的通信。无线网络在吞吐量、网络负载、传输时延和服务质量(QoS)等方面都面临着巨大的挑战。
[0003]为了提高频谱利用率,通过认知无线电(CR)实现对授权频带的复用,是一种提升网络容量,降低网络负载的有效手段之一。CR技术具有三种基本功能,分别是频谱感知与分析,频谱分配与管理和频谱切换与移动。在CRNs中有两种类型的网络,一种是拥有授权带宽的PU组成的主网络,另一种是机会性接入SU所在的次级网络,其中SU优先级较低,其频谱复用不会对PU造成干扰,CRNs提供了一个通信范式,即允许未授权的次级网络可以机会性地访问主网络的授权频谱,从而提高了频谱效率。
[0004]随着当前移动通信业务流量的爆炸式增长,而内容站点分布时空不均衡,导致网络传输不堪重负,服务质量难以保证。边缘缓存(Edge

caching)技术作为一种可以显著改善用户体验(QoE)的技术,已经成为学术界和工业界的研究热点,同时也是促使网络模型从“以连接为中心”到“以内容为中心”转变的关键技术之一。
[0005]在多智能体系统中,每个智能体通过与环境进行交互获取奖励值来学习改善自己的策略,从而获得该环境下最优策略的过程就多智能体强化学习。在单智能体强化学习中,智能体所在的环境是稳定不变的,但是在多智能体强化学习中,环境是复杂的、动态的。
[0006]在多智能体系统中,至少存在两个以上的智能体,智能体之间存在一定的关系,如合作关系、竞争关系或者同时存在合作与竞争关系。本专利技术实例中两类智能体之间既相互合作又相互竞争,从而使自身利益最大化的同时又兼顾了整体利益。在多智能体系统中,每个智能体获得的回报不仅与自身动作有关,还与其他智能体的动作有关系,即智能体之间相互影响。

技术实现思路

[0007]本专利技术的目的是提供一种基于异构智能体强化学习的认知缓存优化方法,以解决现有认知缓存优化方法用户延迟高、SBS缓存利用率低的技术问题。
[0008]本专利技术采用以下技术方案:一种基于异构智能体强化学习的认知缓存优化方法,基于一种多用户多缓存的CRNs系统,该系统中包括1个主基站,N个具有缓存能力的服务器SBS,K个用户,以及F个文件,每个用户和基站都配备一个全向天线;
[0009]包括以下步骤:
[0010]步骤S101:将用户和SBS作为异构智能体,两类异构智能体同时参与学习;获取N个SBS和K个用户中每一个SBS n和用户k在当前时间帧开始时的环境参数,其中n代表中一个的索引,k代表中的一个索引,SBS n是SBS中的每个元素;环境参数包括每个用户的观测和每个SBS n的观测
[0011]步骤S102:将每个SBSn和每个用户在当前时间帧开始时的环境参数输入异构MADDPG模型;
[0012]步骤S103:获取异构MADDPG模型输出的对应每个用户在当前时间帧的内容获取策略和每个SBS的缓存存储策略;其中内容获取策略描述为每个用户请求内容所对应的索引,缓存存储策略描述为每个SBS为获取最大收益所选择存储内容的比例;
[0013]步骤S104:按照步骤S101至步骤S103运行得到将放到用户

智能体的经验重放缓冲区,将放到SBS

智能体的经验重放缓冲区;
[0014]其中,是用户

智能体和SBS

智能体所对应的观测状态融合成的全局状态,是全局动作;表示每个智能体的状态、动作、奖励和下一个状态。
[0015]进一步的,在步骤104完成之后,根据每个用户

智能体和每个SBS

智能体在当前时间帧所对应的用户访问策略和SBS缓存存储策略及其所对应的奖励来确定每个用户

智能体和每个SBS

智能体在下一时间帧开始时的环境参数;以及根据其下一时间帧开始时的环境参数,重复执行步骤S101至步骤S104,直到每个用户

智能体和SBS

智能体的奖励值均达到最大且收敛。
[0016]进一步的,步骤S104得到下一个状态后,继续用由状态、动作和奖励组成的元组和对异构MADDPG模型进行训练,的共享需要2(N+K)套信息协同,其中每个智能体的动作和状态均为F维;在执行过程中,Actor网络在不需要参考其他智能体的动作和状态的情况下独立的执行最佳动作或其中奖励和是分别根据每一个用户

智能体和SBS

智能体所采取的动作获得的奖励。
[0017]本专利技术采用的第二种技术方案是,一种缓存系统装置,包括获取模块、异构MADDPG模块和控制模块,其中:
[0018]获取模块,用于获取N个SBS和K个用户中每一个SBS n和用户k在当前时间帧开始时的环境参数,其中n=1,2,

,N,k=1,2,

,K,环境参数包括每一个用户k的观测和SBS n的观测
[0019]异构MADDPG模块,用于将每个SBS n和用户k在当前时间帧开始时的环境参数输入异构MADDPG模型;还用于获取异构MADDPG模型输出的对应每个用户在当前时间帧的内容获取策略和每个SBS的缓存存储策略;其中内容获取策略描述为每个用户请求内容所对应的索引,缓存存储策略描述为每个SBS为获取最大收益所选择存储内容的比例;
[0020]控制模块,用于根据模块所对应的用户访问策略和SBS协作缓存策略判断是否实现系统中用户传输延迟最小化和SBS缓存利用率最大化,用于控制学习进程。
[0021]本专利技术采用的第三种技术方案是,一种频谱感知装置,包括通过总线互连的缓存器、MADDPG模型、以及处理器,其中:
[0022]存储器,用于存储程序指令、SU的环境参数以及频谱感知策略,环境参数包括每一个用户k的观测和SBS n的观测
[0023]MADDPG模型,用于根据环境参数确定多用户访问策略和多SBS协作缓存策略;
[0024]处理器,用于调用程序代码和MADDPG模型。
[0025]本专利技术的有益效果是:本专利技术提供一种基于异构智能体强化学习的认知缓存优化方法,其中对边缘二级缓存而言,通过优化缓存内容以提高中率;对用户而言,通过自主选择边缘二级缓存以降低传输延迟。本专利技术将每个用户和边缘二级缓存均建模为异构智能体,通过分布式MADDPG方法与环境进行动态交互并分别学习对应的访问策略和缓存策略。通过将每一个智能体在当前时间帧开始本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于异构智能体强化学习的认知缓存优化方法,其特征在于,基于一种多用户多缓存的CRNs系统,该系统中包括1个主基站,N个具有缓存能力的服务器SBS,K个用户,以及F个文件,每个用户和基站都配备一个全向天线;包括以下步骤:步骤S101:将用户和SBS作为异构智能体,两类异构智能体同时参与学习;获取N个SBS和K个用户中每一个SBSn和用户k在当前时间帧开始时的环境参数,其中n代表中一个的索引,k代表中的一个索引,SBSn是SBS中的每个元素;所述环境参数包括所述每个用户的观测和每个SBSn的观测步骤S102:将所述每个SBSn和每个用户在当前时间帧开始时的所述环境参数输入异构MADDPG模型;步骤S103:获取所述异构MADDPG模型输出的对应每个用户在当前时间帧的内容获取策略和每个SBS的缓存存储策略;其中所述内容获取策略描述为每个用户请求内容所对应的索引,所述缓存存储策略描述为每个SBS为获取最大收益所选择存储内容的比例;步骤S104:按照步骤S101至步骤S103运行得到将放到用户

智能体的经验重放缓冲区,将放到SBS

智能体的经验重放缓冲区;其中,是用户

智能体和SBS

智能体所对应的观测状态融合成的全局状态,是全局动作;表示每个智能体的状态、动作、奖励和下一个状态。2.如权利要求1所述的一种基于异构智能体强化学习的认知缓存优化方法,其特征在于,在步骤104完成之后,根据每个用户

智能体和每个SBS

智能体在当前时间帧所对应的用户访问策略和SBS缓存存储策略及其所对应的奖励来确定每个用户

智能体和每个SBS

智能体在下一时间帧开始时的环境参数;以及根据其下一时间帧开始时的环境参数,重复执行步骤S101至步骤S104,直到所述每个用户

智能体和SBS

智能体的奖励值均达到最大且收敛。3.如权利要...

【专利技术属性】
技术研发人员:高昂刘恒同季岑楠段渭军
申请(专利权)人:西北工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1