一种竞争双深度Q网络智能信道决策方法技术

技术编号：34395963 阅读：23 留言：0更新日期：2022-08-03 21:29

本发明专利技术公开了一种竞争双深度Q网络智能信道决策方法，属于抗干扰通信领域，包括以下步骤：信道选择过程建模为SVN决策过程，由四元组（S,A,R,λ）来描述，其中，S为状态空间，A为动作空间，R为累计奖励函数，为有损因子；定义奖励函数；定义观测状态空间与行动空间；基于竞争双深度Q网络模型的频率抗干扰处理。与现有技术相比，本发明专利技术将可用信道探索问题转化为序贯决策问题，由感知到的环境频谱状态进行信道选择，根据设定的干扰容忍双阈值将信道干扰程度分为严重、中度与轻微3个等级，并对处于中度干扰等级的信道建立竞争双深度Q网络智能信道决策模型，通过求解得到最佳传输功率，以提高网络整体感知环境的准确性与干扰信道决策成功率。策成功率。策成功率。

全部详细技术资料下载

【技术实现步骤摘要】
一种竞争双深度Q网络智能信道决策方法

[0001]本专利技术属于抗干扰通信领域，具体涉及一种竞争双深度Q网络智能信道决策方法。

技术介绍

[0002]近年来，如何有效对抗智能性干扰与提高通信安全已成为研究热点。在抗干扰技术研究中，认知抗干扰算法已成为研究热点方向之一，该算法可归纳为如下两类：一类是基于强化学习理论进行可用信道的选择，主动规避干扰信道，从而实现频域抗干扰。一些学者提出基于协作Q学习(Q
‑
Learning，QL)的信道选择算法，该算法可提高数据传输成功率，但当状态空间规模较大时，其面临维数灾难的问题。针对该问题，研究人员提出将深度Q网络(DQN)在线学习算法应用于信道选择。当信道数量较多时，一些研究利用演员
‑
评论家(Actor
‑
Critic，AC)算法进行信道选择，但是该算法存在方差较大以及稳定性较差的问题。另一类是基于博弈论的方法，根据敌我双方的竞争关系，建立功率域抗干扰博弈模型，通过求解博弈均衡得到最佳传输功率，实现从功率上压制干扰信号以达到抗干扰的目的。以上算法均是仅从单个频域或者功率域角度考虑，针对智能性干扰攻击的灵活性较差。

技术实现思路

[0003]专利技术目的：针对现有技术中存在的问题，本专利技术公开了一种竞争双深度Q网络智能信道决策方法，在充满各种干扰的工厂环境下实时采集数据，利用信号频率在不同维度下的特性，基于SVN机器学习理论，构建信号频率自识别与自主决策的理论模型，形成动态抗干扰方法。
[0004]技...

【技术保护点】

【技术特征摘要】
1.一种竞争双深度Q网络智能信道决策方法，其特征在于，包括如下步骤：步骤1：信道选择过程建模为SVN决策过程，由四元组(S，A，R，λ)来描述，其中，S为状态空间，A为动作空间，累计奖励函数λ∈[0，1]为有损因子；步骤2：定义奖励函数R
t
，获得即时奖励步骤3：定义观测状态空间与行动空间；步骤4：构建竞争双深度Q网络模型，基于竞争双深度Q网络模型的频率抗干扰处理。2.根据权利要求1所述的竞争双深度Q网络智能信道决策方法，其特征在于，所述步骤1中SVN的决策过程是序贯决策问题，最终目标是找到最优决策序列π(s，a)：S
×
A
→
R
+
，以得到最大期望奖励Q
*
(s，a)，即给定状态s∈S和动作a∈A下，选择最优策略π(s，a)获得最大期望奖励Q
*
(s，a)＝max
π
Q(s，a)＝E[R
t
|s
t
＝s，a
t
＝a]。3.根据权利要求1所述的竞争双深度Q网络智能信道决策方法，其特征在于，所述步骤S2中将奖励函数R
t
定义为通信安全容量可表示为：其中，[
·
]
+
＝max{0，
·
}，奖励函数}，奖励函数为无干扰情况下，在时间步t内，认知节点i的信息传输速率，为存在干扰情况下，在时间步t内，认知节点i的信息传输速率；表示为：表示为：其中，设网络当前通信总带宽为W，将其均分为K个子信道，并记为b，则有其中，设网络当前通信总带宽为W，将其均分为K个子信道，并记为b，则有为时间步t内的通信信道，γ
NJ
(t)为在时间步t，无干扰时，节点i的接收信号干燥比为γ
NJ
(t)，γ
YJ
(t)为在时间步t，有干扰时，节点i的接收信号干燥比为γ
NJ
(t)，分别表示为：(t)，分别表示为：其中，为认知节点i的传输功率，...

【专利技术属性】
技术研发人员：李浩，王敏，刘宝龙，
申请(专利权)人：淮安欧特科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人