信道选择和传输时间联合优化的分层强化学习抗干扰算法制造技术

技术编号：21096709 阅读：63 留言：0更新日期：2019-05-11 12:44

本发明专利技术公开了一种信道选择和传输时间联合优化的分层强化学习抗干扰算法。该算法为：包括一个由发射机、接收机和干扰机组成的无线通信网络，所述干扰机按照扫频、梳状、随机三种模式中任意一种产生干扰信号；在数据信道上，发射机与接收机以动态频谱接入的方式进行数据通信，以对抗干扰机释放的干扰信号对发射机‑接收机造成的通信干扰；在控制信道上，发射机与接收机通过信息交互，实现收发端动态频谱的协调。在动态干扰场景中，以较小的时间粒度进行基于快速强化学习的信道选择优化，以较大的时间粒度进行基于随机自动学习机的传输时间长度优化，循环执行直到数据传输时间长度收敛或达到最大迭代次数。本发明专利技术提高了无线通信网络系统的吞吐量。

全部详细技术资料下载

【技术实现步骤摘要】
信道选择和传输时间联合优化的分层强化学习抗干扰算法
本专利技术属于无线通信
，特别是一种信道选择和传输时间联合优化的分层强化学习抗干扰算法。
技术介绍
基于认知无线电理论，以动态频谱接入的方式进行抗干扰通信，是抗干扰领域的一大研究热点。而在实际抗干扰通信过程中，数据传输时间长度对抗干扰系统的吞吐量具有不可忽视的作用。当传输时间长度远大于干扰时间长度时，一次数据传输时间内容易遭受多次干扰，将严重降低通信的质量。反之，当传输时间长度远小于干扰时间长度时，会导致用户频繁切换工作信道，消耗较多的切换时间，同样也会严重降低通信的质量。所以，在动态频谱抗干扰系统中，信道选择与传输时间的优化都有非常重要的研究意义。在现有研究中，大多数只聚焦于信道选择的优化问题，并提出了很多算法。单用户场景下，有研究工作(参考文献SlimeniF,SchaeersB,ChtourouZ,etal,JammingmitigationincognitiveradionetworksusingamodifiedQ-learningalgorithm[J],InternationalConferenceonMilitaryCommunications&InformationSystems,2015:1-7.MachuzakSandJayaweeraSK.Reinforcementlearningbasedanti-jammingwithwidebandautonomouscognitiveradios[C].IEEEInternationalConferenceonCommunic...

【技术保护点】
1.一种信道选择和传输时间联合优化的分层强化学习抗干扰算法，其特征在于，包括一个由1个发射机、1个接收机和1个干扰机组成的无线通信网络，所述干扰机按照扫频、梳状、随机三种模式中任意一种模式产生干扰信号；在数据信道上，发射机与接收机以动态频谱接入的方式进行数据通信，以对抗干扰机释放的干扰信号对发射机‑接收机造成的通信干扰；在控制信道上，发射机与接收机通过信息交互，实现收发端动态频谱的协调。

【技术特征摘要】
1.一种信道选择和传输时间联合优化的分层强化学习抗干扰算法，其特征在于，包括一个由1个发射机、1个接收机和1个干扰机组成的无线通信网络，所述干扰机按照扫频、梳状、随机三种模式中任意一种模式产生干扰信号；在数据信道上，发射机与接收机以动态频谱接入的方式进行数据通信，以对抗干扰机释放的干扰信号对发射机-接收机造成的通信干扰；在控制信道上，发射机与接收机通过信息交互，实现收发端动态频谱的协调。2.根据权利要求1所述的信道选择和传输时间联合优化的分层强化学习抗干扰算法，其特征在于，包括以下步骤：步骤1，设定在实际通信过程中，有M个可用信道，N个传输时间长度等级，其中可用信道集合记为传输时间长度集合记为信道序号集合为ε＝{1,...,M}，传输时间长度序号集合为定义k时隙传输时间长度选择概率向量ψn(k)，随机自动学习机学习步长为b，随机自动学习机学习时隙数为K＞0，单个随机自动学习机学习时隙中的强化学习时隙数为D，设置初始随机自动学习机学习时隙k＝0，令所有传输时间长度的选择概率向量为初始传输时间长度为Td(0)；步骤2，根据传输时间长度的选择概率向量ψn(k)选择传输时间长度Td(k)，执行D次基于快速强化学习的信道选择，获得当前传输时隙长度Td(k)下的最优吞吐量性能R＝r；步骤3，更新传输时间长度选择向量ψn(k)，并根据ψn(k)探索选择随机自动学习机学习周期的传输时间长度Td(k+1)；步骤4，k＝k+1，循环执行步骤2～步骤3，当传输时间长度选择概率向量有一个元素大于0.99，或当k≥K-1时，算法结束。3.根据权利要求2所述的信道选择和传输时间联合优化的分层强化学习抗干扰算法，其特征在于，步骤2所述的根据传输时间长度的选择概率向量选择传输时间长度Td(k)，执行D次基于快速强化学习的信道选择，获得当前传输时隙长度Td(k)下最优的吞吐量性能R＝r，具体如下：步骤2.1，定义d时隙用户状态、决策动作和信道选择概率向量，设置学习速率α，折扣因子γ，玻尔兹曼系数常量β，当前传输时间长度为Td，快速强化学习时隙数为D＞0，设置初始快速强化学习时隙d＝0，初始化Q值表为全零矩阵，初始工作状态为S0(ft,fj)，其中fj为干扰信道，由宽带频谱感知获得；ft为工作信道，从空闲信道中随机选择；步骤2.2，在工作信道ft上传输数据，传输时间长度为Td，计算工作信道ft的回报值r；步骤2.3，通过宽带频谱感知获得干扰信道fj'和各个信道的能量值计算各信道的回报值步骤2.4，根据Q值表更新信道选择概率向量P(d)，并根据P(d)探索选择下一时隙的工作信道ft'；步骤2.5，当d＞0时，用户根据快速强化学习更新维护Q值表；步骤2.6，发送ACK反馈至发射机端，以协调收发端的数据频率；步骤2.7，d＝d+1，循环执行步骤2.2～步骤2.7，当d≥D，算法结束，获得传输时隙...

【专利技术属性】
技术研发人员：徐煜华，孔利君，郭秋菊，徐以涛，江汉，
申请(专利权)人：中国人民解放军陆军工程大学，
类型：发明
国别省市：江苏,32

全部详细技术资料下载我是这个专利的主人