信道选择和传输时间联合优化的分层强化学习抗干扰算法制造技术

技术编号:21096709 阅读:63 留言:0更新日期:2019-05-11 12:44
本发明专利技术公开了一种信道选择和传输时间联合优化的分层强化学习抗干扰算法。该算法为:包括一个由发射机、接收机和干扰机组成的无线通信网络,所述干扰机按照扫频、梳状、随机三种模式中任意一种产生干扰信号;在数据信道上,发射机与接收机以动态频谱接入的方式进行数据通信,以对抗干扰机释放的干扰信号对发射机‑接收机造成的通信干扰;在控制信道上,发射机与接收机通过信息交互,实现收发端动态频谱的协调。在动态干扰场景中,以较小的时间粒度进行基于快速强化学习的信道选择优化,以较大的时间粒度进行基于随机自动学习机的传输时间长度优化,循环执行直到数据传输时间长度收敛或达到最大迭代次数。本发明专利技术提高了无线通信网络系统的吞吐量。

【技术实现步骤摘要】
信道选择和传输时间联合优化的分层强化学习抗干扰算法
本专利技术属于无线通信
,特别是一种信道选择和传输时间联合优化的分层强化学习抗干扰算法。
技术介绍
基于认知无线电理论,以动态频谱接入的方式进行抗干扰通信,是抗干扰领域的一大研究热点。而在实际抗干扰通信过程中,数据传输时间长度对抗干扰系统的吞吐量具有不可忽视的作用。当传输时间长度远大于干扰时间长度时,一次数据传输时间内容易遭受多次干扰,将严重降低通信的质量。反之,当传输时间长度远小于干扰时间长度时,会导致用户频繁切换工作信道,消耗较多的切换时间,同样也会严重降低通信的质量。所以,在动态频谱抗干扰系统中,信道选择与传输时间的优化都有非常重要的研究意义。在现有研究中,大多数只聚焦于信道选择的优化问题,并提出了很多算法。单用户场景下,有研究工作(参考文献SlimeniF,SchaeersB,ChtourouZ,etal,JammingmitigationincognitiveradionetworksusingamodifiedQ-learningalgorithm[J],InternationalConferenceonMilitaryCommunications&InformationSystems,2015:1-7.MachuzakSandJayaweeraSK.Reinforcementlearningbasedanti-jammingwithwidebandautonomouscognitiveradios[C].IEEEInternationalConferenceonCommunicationsinChina,2016:1-5.)将信道选择问题建模为Markov决策过程,并用强化学习算法来解决;在多用户场景下,有研究工作(参考文献ArefMAandJayaweeraSK.Anovelcognitiveanti-jammingstochasticgame.CognitiveCommunicationsforAerospaceApplicationsWorkshop,2017:1-4.ChenC,SongM,XinC,etal.Agame-theoreticalanti-jammingschemeforcognitiveradionetworks[J].IEEENetwork,2013,27(3):22-27.)将其建模为Markov博弈问题,并用多智能体强化学习算法来解决。以上文献中针对单用户与多用户场景下的信道选择问题提出了比较好的解决方案,并通过仿真验证了其所提算法的性能,但是实际通信受信道、传输时间等因素的联合制约,上述文献中只考虑了单一因素的影响。目前在抗干扰领域,主要研究了信道选择对抗干扰性能的影响,并未考虑抗干扰质量受到实际通信的各种因素影响,研究的抗干扰影响因素比较单一,没有综合考虑其他因素对抗干扰通信性能的影响。
技术实现思路
本专利技术的目的在于提供一种信道选择和传输时间联合优化的分层强化学习抗干扰算法。从而提高无线通信网络系统吞吐量。实现本专利技术目的的技术解决方案为:一种信道选择和传输时间联合优化的分层强化学习抗干扰算法,包括一个由1个发射机、1个接收机和1个干扰机组成的无线通信网络,所述干扰机按照扫频、梳状、随机三种模式中任意一种模式产生干扰信号;在数据信道上,发射机与接收机以动态频谱接入的方式进行数据通信,以对抗干扰机释放的干扰信号对发射机-接收机造成的通信干扰;在控制信道上,发射机与接收机通过信息交互,实现收发端动态频谱的协调。进一步地,所述的信道选择和传输时间联合优化的分层强化学习抗干扰算法,包括以下步骤:步骤1,设定在实际通信过程中,有M个可用信道,N个传输时间长度等级,其中可用信道集合记为传输时间长度集合记为信道序号集合为ε={1,...,M},传输时间长度序号集合为定义k时隙传输时间长度选择概率向量ψn(k),随机自动学习机学习步长为b,随机自动学习机学习时隙数为K>0,单个随机自动学习机学习时隙中的强化学习时隙数为D,设置初始随机自动学习机学习时隙k=0,令所有传输时间长度的选择概率向量为初始传输时间长度为Td(0);步骤2,根据传输时间长度的选择概率向量ψn(k)选择传输时间长度Td(k),执行D次基于快速强化学习的信道选择,获得当前传输时隙长度Td(k)下的最优吞吐量性能R=r;步骤3,更新传输时间长度选择向量ψn(k),并根据ψn(k)探索选择随机自动学习机学习周期的传输时间长度Td(k+1);步骤4,k=k+1,循环执行步骤2~步骤3,当传输时间长度选择概率向量有一个元素大于0.99,或当k≥K-1时,算法结束。进一步地,步骤2所述的根据传输时间长度的选择概率向量选择传输时间长度Td(k),执行D次基于快速强化学习的信道选择,获得当前传输时隙长度Td(k)下最优的吞吐量性能R=r,具体如下:步骤2.1,定义d时隙用户状态、决策动作和信道选择概率向量,设置学习速率α,折扣因子γ,玻尔兹曼系数常量β,当前传输时间长度为Td,快速强化学习时隙数为D>0,设置初始快速强化学习时隙d=0,初始化Q值表为全零矩阵,初始工作状态为S0(ft,fj),其中fj为干扰信道,由宽带频谱感知获得;ft为工作信道,从空闲信道中随机选择;步骤2.2,在工作信道ft上传输数据,传输时间长度为Td,计算工作信道ft的回报值r;步骤2.3,通过宽带频谱感知获得干扰信道fj'和各个信道的能量值计算各信道的回报值步骤2.4,根据Q值表更新信道选择概率向量P(d),并根据P(d)探索选择下一时隙的工作信道ft';步骤2.5,当d>0时,用户根据快速强化学习更新维护Q值表;步骤2.6,发送ACK反馈至发射机端,以协调收发端的数据频率;步骤2.7,d=d+1,循环执行步骤2.2~步骤2.7,当d≥D,算法结束,获得传输时隙长度Td下的最优吞吐量性能R=r,其中r为回报值。进一步地,步骤2.1中所述的定义d时隙用户状态、决策动作和信道选择概率向量,具体如下:定义d时隙用户状态为S(d)=S(ft(d),fj(d)),状态空间为其中ft(d),fj(d)分别代表d时隙的工作信道和干扰信道,定义d时隙做出的决策动作为下一时隙的工作信道ft(d+1)=a(d+1);定义d时隙用户的信道选择概率向量为进一步地,步骤2.4中所述的根据Q值表更新信道选择概率向量P(d),并根据P(d)探索选择下一时隙的工作信道ft',具体如下:信道选择概率向量P(d)的更新公式为:其中,β为玻尔兹曼系数常量,pm(d+1)为d+1时隙选择信道m的概率,Q(Sd,m)为d时隙用户在Sd状态下执行动作m对应的Q值;下一时隙的工作信道a(d+1)为:a(d+1)=ft'(2)。进一步地,步骤2.5中所述的用户根据快速强化学习更新维护Q值表,具体如下:用户根据快速强化学习维护一张Q(S,a)值表,用于评估不同状态下各个动作的优劣,并随着用户与环境的交互,不断地更新Q值表直至强化学习结束,Q值表中的值将趋于稳定状态;在任意d时隙,Q值表的更新公式为:Qd+1(Sd,ad+1)=Qd(Sd,ad+1)+α(rd+γΦ-Qd(Sd,ad+1))(3)其中,Qd(Sd,ad本文档来自技高网
...

【技术保护点】
1.一种信道选择和传输时间联合优化的分层强化学习抗干扰算法,其特征在于,包括一个由1个发射机、1个接收机和1个干扰机组成的无线通信网络,所述干扰机按照扫频、梳状、随机三种模式中任意一种模式产生干扰信号;在数据信道上,发射机与接收机以动态频谱接入的方式进行数据通信,以对抗干扰机释放的干扰信号对发射机‑接收机造成的通信干扰;在控制信道上,发射机与接收机通过信息交互,实现收发端动态频谱的协调。

【技术特征摘要】
1.一种信道选择和传输时间联合优化的分层强化学习抗干扰算法,其特征在于,包括一个由1个发射机、1个接收机和1个干扰机组成的无线通信网络,所述干扰机按照扫频、梳状、随机三种模式中任意一种模式产生干扰信号;在数据信道上,发射机与接收机以动态频谱接入的方式进行数据通信,以对抗干扰机释放的干扰信号对发射机-接收机造成的通信干扰;在控制信道上,发射机与接收机通过信息交互,实现收发端动态频谱的协调。2.根据权利要求1所述的信道选择和传输时间联合优化的分层强化学习抗干扰算法,其特征在于,包括以下步骤:步骤1,设定在实际通信过程中,有M个可用信道,N个传输时间长度等级,其中可用信道集合记为传输时间长度集合记为信道序号集合为ε={1,...,M},传输时间长度序号集合为定义k时隙传输时间长度选择概率向量ψn(k),随机自动学习机学习步长为b,随机自动学习机学习时隙数为K>0,单个随机自动学习机学习时隙中的强化学习时隙数为D,设置初始随机自动学习机学习时隙k=0,令所有传输时间长度的选择概率向量为初始传输时间长度为Td(0);步骤2,根据传输时间长度的选择概率向量ψn(k)选择传输时间长度Td(k),执行D次基于快速强化学习的信道选择,获得当前传输时隙长度Td(k)下的最优吞吐量性能R=r;步骤3,更新传输时间长度选择向量ψn(k),并根据ψn(k)探索选择随机自动学习机学习周期的传输时间长度Td(k+1);步骤4,k=k+1,循环执行步骤2~步骤3,当传输时间长度选择概率向量有一个元素大于0.99,或当k≥K-1时,算法结束。3.根据权利要求2所述的信道选择和传输时间联合优化的分层强化学习抗干扰算法,其特征在于,步骤2所述的根据传输时间长度的选择概率向量选择传输时间长度Td(k),执行D次基于快速强化学习的信道选择,获得当前传输时隙长度Td(k)下最优的吞吐量性能R=r,具体如下:步骤2.1,定义d时隙用户状态、决策动作和信道选择概率向量,设置学习速率α,折扣因子γ,玻尔兹曼系数常量β,当前传输时间长度为Td,快速强化学习时隙数为D>0,设置初始快速强化学习时隙d=0,初始化Q值表为全零矩阵,初始工作状态为S0(ft,fj),其中fj为干扰信道,由宽带频谱感知获得;ft为工作信道,从空闲信道中随机选择;步骤2.2,在工作信道ft上传输数据,传输时间长度为Td,计算工作信道ft的回报值r;步骤2.3,通过宽带频谱感知获得干扰信道fj'和各个信道的能量值计算各信道的回报值步骤2.4,根据Q值表更新信道选择概率向量P(d),并根据P(d)探索选择下一时隙的工作信道ft';步骤2.5,当d>0时,用户根据快速强化学习更新维护Q值表;步骤2.6,发送ACK反馈至发射机端,以协调收发端的数据频率;步骤2.7,d=d+1,循环执行步骤2.2~步骤2.7,当d≥D,算法结束,获得传输时隙...

【专利技术属性】
技术研发人员:徐煜华孔利君郭秋菊徐以涛江汉
申请(专利权)人:中国人民解放军陆军工程大学
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1