当前位置: 首页 > 专利查询>郑州大学专利>正文

基于深度强化学习的多用户无线信道资源分配优化方法技术

技术编号:40821632 阅读:31 留言:0更新日期:2024-04-01 14:41
本发明专利技术提供一种基于深度强化学习的多用户无线信道资源分配优化方法,在为用户分配信道资源时,考虑了用户交互的体验以及体验的时效性,提高了整个用户群体的体验质量;在模拟场景方面,考虑了存在多用户交互的实际的动态场景,同时更加注重多个用户之间交互的时效性;考虑到巨大的系统状态空间和未知的系统动态等系统不确定性因素,提出了一种求解马尔可夫过程(MDP)最优控制策略的DRL方法,利用DRL中的神经网络解决传统RL面临巨大状态空间所面临的窘境;采用了PPO算法,针对要解决的实际问题,对其内部网络结构进行改进和适当的参数调整,保证了交互的时效性和用户整体的体验质量,即奖励值优于其他方案。

【技术实现步骤摘要】

本专利技术涉及一种无线信道优化方法,具体的说,涉及了一种基于深度强化学习的多用户无线信道资源分配优化方法


技术介绍

1、在无线网络中,由于频谱资源有限,多个用户需要通过有限的频谱资源进行通信。这时就需要对有限的频率资源进行合理分配,避免发生资源浪费和信道冲突等问题。因此,信道分配问题成为无线网络中最基本的问题之一。

2、传统上,通信网络中的信道分配问题主要有两个方向,即固定频率信道分配问题和动态频率信道分配问题。这两个问题的基本假设是:每个用户或应用程序需要分配一个独立的无线信道,以便进行通信。

3、深度强化学习(drl,deep reinforcement learning)技术是近年来兴起的一种新型的机器学习技术,是深度学习(dl,deep learning)与强化学习(rl,reinforcementlearning)的结合。以deepmind团队推出的alpha go围棋ai战胜人类顶尖棋手为标志,深度强化学习越来越受到人们的重视。其与传统的深度学习方法——有监督与无监督的学习方法不同,深度强化学习是在与环境的实时交互中学本文档来自技高网...

【技术保护点】

1.一种基于深度强化学习的多用户无线信道资源分配优化方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的一种基于深度强化学习的多用户无线信道资源分配优化方法,其特征在于:所述非代表性交互用户在t+1时隙的容忍度Kn-,t+1为:

3.根据权利要求2所述的一种基于深度强化学习的多用户无线信道资源分配优化方法,其特征在于:时隙t开始时,中心云感知所有代表性交互用户在该时隙下的交互数据量、场景更新信息以及容忍度值Kn,t以及所有非代表性交互用户的容忍度值Kn-,t;

4.一种计算机设备,其特征在于,所述计算机设备包括存储器,处理器,所述存储器存储有计算...

【技术特征摘要】

1.一种基于深度强化学习的多用户无线信道资源分配优化方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的一种基于深度强化学习的多用户无线信道资源分配优化方法,其特征在于:所述非代表性交互用户在t+1时隙的容忍度kn-,t+1为:

3.根据权利要求2所述的一种基于深度强化学习的多用户无线信道资源分配优化方法,其特征在于:时隙t开始时,中心云感知所有代表性交互用户在该时隙下的交互数据量、场景更新信息以及容忍度值kn...

【专利技术属性】
技术研发人员:张博曹忠信张文倩
申请(专利权)人:郑州大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1