一种基于深度强化学习的全双工认知通信功率控制方法技术

技术编号:29595275 阅读:19 留言:0更新日期:2021-08-06 19:57
本发明专利技术提供一种基于深度强化学习的全双工认知通信功率控制方法,包括:步骤1,建立全双工认知通信系统;步骤2,初始化所述全双工认知通信系统的系统参数;步骤3,基于发射机的某发射功率,计算接收机相应的信干噪比;步骤4,初始化发射机的发射功率以及动作集合,构建次用户发射机功率控制的马尔可夫决策模型;步骤5,基于次用户发射机功率控制的马尔可夫决策模型,运用深度强化学习中的DQN算法训练优化目标函数,得到最优的次用户发射机的功率控制策略;步骤6,进行次用户发射机的功率控制。本发明专利技术能够实现根据无线电环境调整发射功率,满足通信系统中所有用户服务质量要求,并且计算量及参数量较少,适合在硬件设备上部署。

【技术实现步骤摘要】
一种基于深度强化学习的全双工认知通信功率控制方法
本专利技术涉及机器学习以及无线通信
,具体而言,涉及一种基于深度强化学习的全双工认知通信功率控制方法。
技术介绍
随着第五代(5G)移动通信和物联网(IoT)技术的迅速发展,海量的设备链接和各种新兴业务不断涌入,无线频谱资源变得愈加紧缺。传统的频谱分配方法导致频谱资源无法充分使用,难以满足未来一段时间内无线通信的需求。日益增长的频谱需求以及有限的频谱资源之间的矛盾必将成为限制未来无线通信技术发展的重要因素之一。认知无线电技术和全双工技术均被认为是提高频谱资源利用效率的关键技术。全双工(即同时同频全双工)技术的特点是用户可以在同一时间以相同的频率进行信号的接收和发送,该技术近年来备受关注,逐渐成为当前信息领域的研究热点和重要发展方向。全双工无线通信面临的主要技术难点是“自干扰问题”,现有的基于天线域、射频域以及数字域的自干扰消除技术已经比较成熟,可将自干扰信号强度有效衰减70~120dB,从而保证了这一技术在实际通信系统中的有效应用。认识无线电技术的基本思想是当授权用户(主用户,PU)不使用该频段或非授权用户(次用户,SU)对主用户的干扰低于一定阈值时,非授权用户可以使用该频段,进而提高频谱使用效率。功率控制技术是认知无线电网络中实现主、次用户共享频谱资源的关键技术之一。传统的功率控制算法主要分为两种:静态功率控制算法和动态功率控制算法。静态功率控制算法需要知道通信系统的准确的数学模型并假设系统的参数精确已知,通过优化具有一系列约束条件的能够描述通信系统性能的目标函数来求解最优的功率。即将无线电网络功率控制描述为一个约束优化问题,通过求解一个或多个优化目标来获得各次用户最优的发射功率。针对不同网络功率控制需求,功率分配优化的目标在各个网络中也有所不同,常见的优化目标有:最大化认知无线电网络能量有效性以及最大化次用户的传输效率。这些方案均假设通信系统的信道状态是理想已知的,由于实际中无线信道的复杂性和时变性,这一假设是十分不合理的。考虑到通信系统参数的不确定性,采用鲁棒性优化理论的功率控制算法将参数的随机特性假设为一个不确定性集合并通过Bayesian等方法进行最优功率的求解。在认知无线电网络中,各用户的离开和加入都是随机的,通信系统时变性较高的特点使得这一基于概率统计模型的功率分配方案不能很好地满足系统的性能要求。动态功率控制算法考虑到了通信系统的时变特性,如测量误差以及延迟反馈,主要包括分布式受限的功率控制算法(DCPC)和基于效用的功率控制算法(UBPC)。DCPC算法基于信干噪比以及接收端信干噪比的要求,迭代调整发射机功率以满足全部用户的服务质量(QoS)要求。UBPC算法则是基于“软”信噪比(SIR),所谓“软”信噪比,指的是当用户感知到网络流量拥塞时,用户将自动减少其目标SIR。然而认知无线电网络信道变化迅速,这使得动态功率控制算法参数调整存在滞后效应,难以满足认知无线电网络功率控制算法所要求的适应性和灵活性。深度强化学习技术是机器学习的一个分支,其目的是在复杂的动态环境中寻找最优决策,深度强化学习通过一个智能体不断地探索周围的环境,每做一个决策,都会得到一个相应的奖励值,如果智能体当前选择的策略是正确的,则得到一个正反馈信号,否则得到一个负反馈信号,利用深度神经网络(DNN)对历史数据进行分析并学习环境变化规律,最终根据学习到的规律得到最优的控制策略。由于信道的时变等原因,无线通信网络的功率控制问题实际上是一个在动态环境中的最优决策问题,这与深度强化学习技术的设计的目标相吻合。深度强化学习技术强大的学习与决策能力可以对认知无线电网络进行智能管理,使其在复杂的通信环境中能够精准地匹配用户需求,最终提升网络的实际承载能力和用户通信体验。文献(X.Li,J.Fang,W.Cheng,H.Duan,Z.ChenandH.Li,“IntelligentPowerControlforSpectrumSharinginCognitiveRadios:ADeepReinforcementLearningApproach,”IEEEAccess,vol.6,pp.25463-25473,2018.)提出的半双工模式下基于深度强化学习的认知无线电网络次用户发射机功率控制算法采用了一个deepneuralnetwork(DNN)网络作为Q网络,该网络包括3个全连接层,分别具有256,256,512个神经元,这使得该算法的每秒钟浮点数运算量(FLOPs)以及参数量十分庞大,算法实际的硬件部署实现较为困难。鉴于以上问题,有必要设计一种适合在硬件设备上部署的基于深度强化学习的次用户发射机功率控制方法。
技术实现思路
本专利技术旨在提供一种基于深度强化学习的全双工认知通信功率控制方法,以解决上述技术问题。本专利技术提供的一种基于深度强化学习的全双工认知通信功率控制方法,包括如下步骤:步骤1,建立全双工认知通信系统;所述全双工认知通信系统包括一对下行链路模式下工作在半双工模式下的主用户发射机TX1和主用户接收机RX1,一个工作在全双工模式下的次用户发射机TX2,以及一个工作在半双工模式下的次用户接收机RX2;步骤2,初始化所述全双工认知通信系统的系统参数;步骤3,基于主用户发射机TX1和次用户发射机TX2的某发射功率,计算主用户接收机RX1和次用户接收机RX2相应的信干噪比;步骤4,初始化主用户发射机TX1,次用户发射机TX2的发射功率以及动作集合,构建次用户发射机TX2功率控制的马尔可夫决策模型;步骤5,基于所述次用户发射机TX2功率控制的马尔可夫决策模型,运用深度强化学习中的DQN算法训练优化目标函数,得到最优的次用户发射机TX2的功率控制策略;步骤6,采用所述最优的次用户发射机TX2的功率控制策略进行次用户发射机TX2的功率控制。进一步的,步骤1中所述全双工认知通信系统中的主用户发射机TX1、主用户接收机RX1、次用户发射机TX2和次用户接收机RX2设置如下:(1)次用户发射机TX2具有自干扰消除能力,并能够在同一时间和频率上进行信号的发送和接收;(2)主用户发射机TX1、主用户接收机RX1和次用户接收机RX2不具备自干扰消除能力,在同一时间和频率上进行信号的发送或者接收;(3)主用户发射机TX1与次用户发射机TX2采用不同的功率控制方法,即主用户发射机TX1采用预先定义的功率控制算法,次用户发射机TX2采用所述基于深度强化学习的全双工认知通信功率控制方法;(4)主用户发射机TX1与次用户发射机TX2彼此不知道对方的功率控制方法;(5)主用户发射机TX1、主用户接收机RX1、次用户发射机TX2和次用户接收机RX2均工作在相同频段上。进一步的,步骤2中所述初始化所述全双工认知通信系统的系统参数包括初始化所述全双工认知通信系统中的所有信道增益,次用户发射机的自干扰消除系数,噪声功率,发射功率集合,以及接收机的服务质量要求;其中:主用户发射机本文档来自技高网
...

【技术保护点】
1.一种基于深度强化学习的全双工认知通信功率控制方法,其特征在于,包括如下步骤:/n步骤1,建立全双工认知通信系统;所述全双工认知通信系统包括一对下行链路模式下工作在半双工模式下的主用户发射机TX

【技术特征摘要】
1.一种基于深度强化学习的全双工认知通信功率控制方法,其特征在于,包括如下步骤:
步骤1,建立全双工认知通信系统;所述全双工认知通信系统包括一对下行链路模式下工作在半双工模式下的主用户发射机TX1和主用户接收机RX1,一个工作在全双工模式下的次用户发射机TX2,以及一个工作在半双工模式下的次用户接收机RX2;
步骤2,初始化所述全双工认知通信系统的系统参数;
步骤3,基于主用户发射机TX1和次用户发射机TX2的某发射功率,计算主用户接收机RX1和次用户接收机RX2相应的信干噪比;
步骤4,初始化主用户发射机TX1,次用户发射机TX2的发射功率以及动作集合,构建次用户发射机TX2功率控制的马尔可夫决策模型;
步骤5,基于所述次用户发射机TX2功率控制的马尔可夫决策模型,运用深度强化学习中的DQN算法训练优化目标函数,得到最优的次用户发射机TX2的功率控制策略;
步骤6,采用所述最优的次用户发射机TX2的功率控制策略进行次用户发射机TX2的功率控制。


2.根据权利要求1所述的基于深度强化学习的全双工认知通信功率控制方法,其特征在于,步骤1中所述全双工认知通信系统中的主用户发射机TX1、主用户接收机RX1、次用户发射机TX2和次用户接收机RX2设置如下:
(1)次用户发射机TX2具有自干扰消除能力,并能够在同一时间和频率上进行信号的发送和接收;
(2)主用户发射机TX1、主用户接收机RX1和次用户接收机RX2不具备自干扰消除能力,在同一时间和频率上进行信号的发送或者接收;
(3)主用户发射机TX1与次用户发射机TX2采用不同的功率控制方法,即主用户发射机TX1采用预先定义的功率控制算法,次用户发射机TX2采用所述基于深度强化学习的全双工认知通信功率控制方法;
(4)主用户发射机TX1与次用户发射机TX2彼此不知道对方的功率控制方法;
(5)主用户发射机TX1、主用户接收机RX1、次用户发射机TX2和次用户接收机RX2均工作在相同频段上。


3.根据权利要求2所述的基于深度强化学习的全双工认知通信功率控制方法,其特征在于,步骤2中所述初始化所述全双工认知通信系统的系统参数包括初始化所述全双工认知通信系统中的所有信道增益,次用户发射机的自干扰消除系数,噪声功率,发射功率集合,以及接收机的服务质量要求;其中:
主用户发射机TX1与主用户接收机RX1的信道增益为h11,主用户发射机TX1与次用户接收机RX2的信道增益为h12、次用户发射机TX2与次用户接收机RX2的信道增益为h22、次用户发射机TX2与主用户接收机RX1的信道增益为h21;主用户发射机TX1与次用户发射机TX2的信道增益为hps;
次用户发射机TX2的自干扰消除系数χ,χ∈[0,1];
噪声功率为Pn;
发射功率共有k档,发射功率集合为PT,,PT={p1,p2,......,pk},其中p1<p2<......<pk;
主用户接收机RX1满足服务质量要求的最小信干噪比为τ1∈[0,1],次用户接收机RX2满足服务质量要求的最小信干噪比为τ2∈[0.5,1.5],且τ1<τ2。<...

【专利技术属性】
技术研发人员:卜智勇鲁敏周斌
申请(专利权)人:成都中科微信息技术研究院有限公司
类型:发明
国别省市:四川;51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1