一种基于深度确定梯度强化学习的通信抗干扰方法技术

技术编号:20278495 阅读:24 留言:0更新日期:2019-02-02 05:55
本发明专利技术属于无线通信技术领域,涉及一种基于深度确定梯度强化学习的通信抗干扰方法。本发明专利技术首先根据干扰源数量和无线信道模型构造干扰环境模型;根据合法用户通信质量指标构造效用函数,并把该效用函数作为学习中的回报;将不同时隙采样的频谱信息构建成频谱时隙矩阵,用该矩阵描述干扰环境状态。然后根据深度确定梯度强化学习机制,构造卷积神经网络,在进行抗干扰决策时,环境状态矩阵通过目标演员卷积神经网络实现对应状态在连续空间上的抗干扰策略选择。本发明专利技术基。于深度确定梯度策略的强化学习机制完成通信中连续抗干扰策略选择。克服了量化离散处理策略空间带来的量化误差,降低了神经网络输出单元格数和网络复杂度,提高了抗干扰算法性能。

【技术实现步骤摘要】
一种基于深度确定梯度强化学习的通信抗干扰方法
本专利技术属于无线通信
,涉及一种基于深度确定策略梯度强化学习的通信抗干扰方法。
技术介绍
随着无线通信技术的发展,无线通信系统面临的电磁环境日益复杂恶劣,既可能会遭受来自己方通信的非故意干扰,也可能会受到敌方故意释放的干扰信号影响。传统的抗干扰手段均针对干扰源的静态干扰方式,采取固定抗干扰策略。随着干扰手段的智能化,干扰源可以根据合法用户通信状态的改变动态调整干扰策略,使得传统抗干扰方法无法保证合法用户在动态干扰环境下的正常通信。因此有必要针对干扰源的动态干扰策略采取相应的智能抗干扰策略,保证合法用户在动态干扰环境下的正常通信。目前,针对干扰源的动态干扰手段主要采用基于强化学习的方式进行抗干扰策略动态调整。该方法首先对抗干扰策略空间进行离散化处理,构造抗干扰策略集;其次构造与合法用户通信质量相关的效用函数;通过频谱采样和预处理获取环境状态矩阵,并将环境状态矩阵通过深度神经网络实现离散策略选择;最后把选择策略作用于环境并估计环境状态转移。通过多次学习,得到在动态干扰策略下的最优通信策略。具体可参考:XinLiu,etc.,“Anti-jammingCommunicationsUsingSpectrumWaterfall:ADeepReinforcementLearningApproach”,IEEECommunicationLetters,vol.22,no.5,May.2018。该方法通过对功率选择策略进行量化离散处理,构成功率选择集合。然后构造深度神经网络,并将从无线干扰环境中采样的频谱时隙矩阵通过该神经网络输出对应每个离散功率策略的状态行为函数值。最后通过∈-greedy贪心策略进行功率策略的选择。然而,该方法对功率进行量化离散处理时会引入量化误差,使得功率选择结果无法达到最优。不仅如此,在离散化功率时对于不同子信道上的发射功率,根据量化离散处理规则,构造的策略集合有需要包含N×L个元素,其中N是信道数,是量化级数,对应深度神经网络需要个LN输出。当系统信道数和量化级数过多时,神经网络输出个数成指数增长,增加神经网络的训练和基于∈-greedy贪心策略进行策略选择的复杂度。
技术实现思路
针对以上技术问题,本专利技术提出一种基于深度确定策略梯度策略强化学习机制(DeepDeterministicPolicyGradient,DDPG)的通信抗干扰功率选择方法。在对功率策略空间进行离散化的情况下,完成确定抗干扰功率策略的选择,提高抗干扰性能,降低策略选择复杂度。本专利技术首先根据干扰源数量和无线信道模型构造干扰环境。根据合法用户通信质量指标构造效用函数,并把该效用函数作为学习中的回报。将不同时隙采样的频谱信息构建成频谱时隙矩阵,用该矩阵描述干扰环境状态。本专利技术中构造了包括目标演员(target_actor)、估计演员(evaluate_actor)、目标评论家(target_critic)和估计评论家(evaluate_critic)的四个深度神经网络,分别用于基于环境状态矩阵的策略选择、策略选择网络训练、策略选择评价和评价网络训练等操作。其中,目标演员神经网络和估计演员神经网络具有相同的网络结构,目标评论家神经网络和估计评论家神经网络具有相同的网络结构。环境状态矩阵通过目标演员神经网络输出抗干扰策略。合法用户对发射功率调整和信道选择,实现智能抗干扰策略调整。根据无线干扰环境模型和抗干扰策略计算回报函数值和转移环境状态矩阵。当前环境状态、当前抗干扰策略、回报函数值、和转移环境状态构成经验组,存储在经验池中。最后抽取经验池中的经验组完成对估计演员神经网络和估计评论家神经网络的训练。当学习步数达到一定数量时,通过估计演员神经网络和估计评论家神经网络的参数分别完成对目标演员神经网络和目标评论家神经网络的更新。该学习机制一直持续,直到学习结果收敛。利用本专利技术所提合法用户智能抗干扰方案实现包括以下步骤:S1,智能抗干扰方案各个算法模块定义:干扰环境定义、干扰环境状态定义、回报函数定义、抗干扰策略定义、经验存储池定义。S2,构造目标演员神经网络(target_actor)、估计演员神经网络(evaluate_actor)、目标评论家神经网络(target_critic)和估计评论家神经网络(evaluate_critic)四个深度神经网络。其中目标演员神经网络和估计演员神经网络具有相同的网络结构、目标评论家神经网络和估计评论家神经网络具有相同的结构。S3,将环境状态信息,即频谱时序矩阵通过目标演员神经网络得到抗干扰策略,该策略作用于干扰环境,计算抗干扰策略在当前干扰环境下的回报值和转移状态矩阵,并进行存储。S4,从经验池中抽样经验组对估计演员神经网络和估计评论家神经网络进行训练和参数跟新。S5,判断学习机制是否满足停止条件,若满足,则停止学习得到最后抗干扰策略;否则回到S2继续学习。根据本专利技术的实施例,上述步骤S1包括以下步骤:S1.1,干扰环境定义:根据干扰者数量、干扰方式和无线信道模型定义干扰环境。S1.2,干扰环境状态定义:将不同时隙测得的频谱信息构成频谱时隙矩阵,频谱时隙矩阵大小由观测频谱范围和观测时隙长度决定。S1.3,回报函数定义:根据合法用户的通信质量指标构造反馈回报函数。S1.4,抗干扰策略定义:将不同子信道上的发射功率组合定义为抗干扰策略集。每个子信道上的发射功率可以是连续区间上的任何值。S1.5,经验存储池定义:预设一个固定大小的经验存储池,用于存储由当前环境状态矩阵、抗干扰策略、回报函数值和转移环境状态矩阵组成的经验组。根据本专利技术实施例,上述步骤S2包括以下步骤:S2.1,采用相同结构的卷积神经网络构造目标演员神经网络和估计演员神经网络。卷积神经网络包括多个卷积层、多个池化层和多个全连接层。目标演员神经网络根据输入频谱时隙状态矩阵完成抗干扰策略的选择。估计演员神经网络根据抽样经验组完成网络训练和参数更新。当训练步数达到预设值时,用估计演员神经网络参数覆盖目标演员神经网络参数,从而完成目标演员神经网络的参数更新。S2.2,采用相同结构的常规深度神经网络构造目标评论家神经网络和估计评论家神经网络。该深度神经网络包括多个神经网络层,每个神经网络层中包括多个神经元、激活函数。目标评论家神经网络的输出用于帮助评价演员神经网络的策略选择优劣。估计评论家神经网络根据抽样经验信息进行网络训练和参数更新。当训练步数达到预设值时,用估计评论家神经网络参数覆盖目标评论家神经网络完成参数更新。根据本专利技术的实施例,上述步骤S3包括以下步骤:S3.1,根据步骤S1.2中环境状态的定义,将环境状态矩阵通过步骤S2.1中构造的目标演员神经网络得到抗干扰策略。并将抗干扰策略作用于步骤S1.1定义的干扰环境,计算回报函数值和下一步转移后的状态矩阵。S3.2,定义一个容量为M的经验池,并将S3.1中的当前环境状态、选择的策略行为、得到的回报函数值和下一步环境状态构成经验组{S,A,R,S_}存储在经验池中。根据本专利技术的实施例,上述步骤S4包括以下步骤:S4.1,从S3.2得到的经验池中随机抽取一定数量的经验组用于卷积神经网络参数的训练和更新。S4.2,通过步骤S4.1抽取的经本文档来自技高网
...

【技术保护点】
1.一种基于深度确定梯度强化学习的通信抗干扰方法,其特征在于,包括以下步骤:S1、初始化定义,包括:干扰环境:根据干扰者数量、干扰方式和无线信道模型定义干扰环境;干扰环境状态:将不同时隙测得的频谱信息构成频谱时隙矩阵,频谱时隙矩阵大小由观测频谱范围和观测时隙长度决定;回报函数:根据合法用户的通信质量指标构造反馈回报函数;抗干扰策略:将不同子信道上的发射功率组合定义为抗干扰策略集;深度神经网络:构造目标演员、估计演员、目标评论家和估计评论家四个深度神经网络,其中,目标演员神经网络和估计演员神经网络具有相同的网络结构,目标评论家神经网络和估计评论家神经网络具有相同的网络结构;经验存储池:预设一个固定大小的经验存储池,用于存储由当前干扰抑制策略、环境状态、当前干扰抑制策略和环境回报组成的经验组;S2、将干扰环境状态,即频谱时序矩阵通过目标演员卷积神经网络得到抗干扰策略,并将该策略作用于干扰环境,根据回报函数观测当前抗干扰策略下在干扰环境的回报值和下一步转移后的状态矩阵;所述目标评论家神经网络的输出用于帮助评价演员神经网络的策略选择优劣;S3、将当前抗干扰策略、干扰环境状态、抗干扰策略下的回报值和转移环境状态构成经验组存储到经验池;S4、从经验池中抽样经验组对估计演员神经网络和估计评论家神经网络进行训练,当训练步数达到预设值时,用估计演员神经网络参数覆盖目标演员神经网络参数,用估计评论家神经网络参数覆盖目标评论家神经网络参数,从而完成目标演员神经网络的参数更新;S5、判断学习机制是否满足预设的停止条件,若满足,则停止学习得到最后抗干扰策略;否则回到S2继续学习。...

【技术特征摘要】
1.一种基于深度确定梯度强化学习的通信抗干扰方法,其特征在于,包括以下步骤:S1、初始化定义,包括:干扰环境:根据干扰者数量、干扰方式和无线信道模型定义干扰环境;干扰环境状态:将不同时隙测得的频谱信息构成频谱时隙矩阵,频谱时隙矩阵大小由观测频谱范围和观测时隙长度决定;回报函数:根据合法用户的通信质量指标构造反馈回报函数;抗干扰策略:将不同子信道上的发射功率组合定义为抗干扰策略集;深度神经网络:构造目标演员、估计演员、目标评论家和估计评论家四个深度神经网络,其中,目标演员神经网络和估计演员神经网络具有相同的网络结构,目标评论家神经网络和估计评论家神经网络具有相同的网络结构;经验存储池:预设一个固定大小的经验存储池,用于存储由当前干扰抑制策略、环境状态、当前干扰抑制策略和环境回报组成的经验组;S2、将干扰环境状态,即频谱时序矩阵通过目标演员卷积神经网络得到抗干扰策略,并将该策略作用于干扰环境,根据回报函数观测当前抗干扰策略下在干扰环境的回报值和下一步转移后的状态矩阵;所述目标评论家神经网络的输出用于帮助评价演员神经网络的策略选择优劣;S3、将当前抗干扰策略、干扰环境状态、抗干扰策略下的回报值和转移环...

【专利技术属性】
技术研发人员:黎伟王军李黎党泽王杨
申请(专利权)人:电子科技大学中国电子科技集团公司第五十四研究所
类型:发明
国别省市:四川,51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1