基于宽度强化学习的多域通信抗干扰方法、系统及介质技术方案

技术编号：41279103 阅读：7 留言：0更新日期：2024-05-11 09:30

本发明专利技术公开了一种基于宽度强化学习的多域通信抗干扰方法、系统及介质，所述方法包括：将多域通信抗干扰问题建模为马尔科夫决策过程；构建宽度策略网络和宽度目标网络；计算上一时隙的环境状态和传输动作的奖励，得到一组完整经验并存入经验池；基于经验池中的样本，分别计算宽度策略网络输入层输出矩阵的伪逆以及宽度目标网络的输出矩阵，并结合计算得到的奖励构建目标矩阵；利用伪逆和目标矩阵更新宽度策略网络的权重；利用更新后的宽度策略网络选择传输动作。本发明专利技术通过与干扰环境不断交互，持续优化宽度策略网络，使网络输出以较低的运算复杂度和较快的收敛速度逼近最优传输策略，提高复杂未知干扰下通信的可靠性和有效性。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及通信抗干扰，特别是涉及一种基于宽度强化学习的多域通信抗干扰方法、系统及存储介质。

技术介绍

1、无线通信以电磁波作为传播载体，具有开放、共享的传输信道，因此易遭受各类恶意或非恶意干扰的破坏。为应对这一威胁，有必要采用通信抗干扰技术提高通信质量。

2、近年来，随着人工智能相关理论和方法的深入研究和广泛应用，具备学习、决策能力的智能通信抗干扰技术发展迅速，能在复杂、未知的干扰环境下学习通信抗干扰策略，确保可靠有效通信。目前，结合了深度学习技术的深度强化学习算法因具备突出的环境学习和策略优化能力，能够解决复杂的多域通信抗干扰问题，已成为智能抗干扰技术的主流决策算法。但这类算法计算复杂度高、收敛速度慢，严重制约了无线通信可靠性和有效性的提高。因此，如何进一步提高基于强化学习的多域通信抗干扰算法的收敛速度、降低运算复杂度，是本领域继续解决的研究课题，具有重要意义。

技术实现思路

1、本专利技术的目的是提供一种基于宽度强化学习的多域通信抗干扰方法、系统及介质，通过与干扰环境的不断交互，持续优化宽度策略网络，能够以较低的运算复杂度和较快的收敛速度，使网络输出逼近最优传输策略，提高复杂未知干扰环境下通信的可靠性和有效性。

2、为实现上述目的，本专利技术提供了如下方案：

3、一种基于宽度强化学习的多域通信抗干扰方法，应用于无线通信系统，所述无线通信系统包括发射机和接收机，所述发射机和接收机按时隙同步，该方法包括以下步骤：

4、s1，将多域

5、s2，构建宽度网络并初始化参数，其中，所述宽度网络包括宽度策略网络和宽度目标网络；

6、s3，计算上一时隙的环境状态和传输动作的奖励，结合上一时隙的环境状态、传输动作以及当前时隙的环境状态，得到一组完整经验并存入经验池；

7、s4，利用经验池中所有上一时隙的环境状态作为样本，计算宽度策略网络输入层输出矩阵的伪逆；

8、s5，利用经验池中所有当前时隙的环境状态作为样本，计算宽度目标网络的输出矩阵，并结合所有上一时隙的环境状态和传输动作的奖励构建目标矩阵；

9、s6，利用s4计算出的宽度策略网络输入层输出矩阵的伪逆和s5计算出的目标矩阵更新宽度策略网络的权重；

10、s7，利用更新后的宽度策略网络选择当前时隙的传输动作；

11、s8，若通信未结束，则返回s3，直到通信结束。

12、进一步地，所述步骤s1，将多域通信抗干扰问题建模为马尔科夫决策过程，具体包括：

13、环境状态是指无线通信系统面临的电磁环境状态，定义第t个时隙的环境状态为：

14、

15、其中，表示t时隙接收机在第m个传输信道上观测到的瞬时信号功率，st是1×m维的数组，s表示状态空间；

16、定义在第t个时隙无线通信系统选择的传输动作为：

17、at＝(ft+1,pt+1,vt+1)∈a (2)

18、其中，ft+1，pt+1，vt+1分别表示系统在第t个时隙选择用于t+1时隙执行的传输信道、发射功率和传输速率；a表示状态空间，其中包含na＝m·d·e个不同的动作，m为可选传输信道数，d为可选发射功率数，e为可选传输速率数。

19、进一步地，所述步骤s2，构建宽度网络并初始化参数，其中，所述宽度网络包括宽度策略网络和宽度目标网络，具体包括：

20、构建的宽度网络包含输入层与输出层，输入层与输出层之间由权重矩阵w连接，输入层由n组特征映射节点和m组增强节点组成，其中每组特征映射节点的个数为c1个，每组增强节点的个数为c2个；

21、宽度策略网络第i∈[1,n]组特征映射节点具有维度为m×c1的权重矩阵，第j∈[1,m]组增强节点具有维度为nc1×c2的权重矩阵whj，用均值为0、方差为1的正态分布随机生成的元素构建所有的和whj；随机生成输入层与输出层之间的权重矩阵wold，其维度为(nc1+mc2)×na，其中na是状态空间的动作数，即输出矩阵q的列数；

22、宽度目标网络通过复制宽度策略网络的参数完成初始化。

23、进一步地，所述步骤s3，计算上一时隙的环境状态和传输动作的奖励，结合上一时隙的环境状态、传输动作以及当前时隙的环境状态，得到一组完整经验并存入经验池，具体包括：

24、无线通信系统在t时隙执行接收机在t-1时隙决策的传输动作at-1，同时感知到环境状态st，然后按下式计算上一时隙的环境状态st-1和传输动作at-1的奖励：

25、

26、其中，θt表示t时隙的接收端信干噪比；表示t时隙的解调阈值；为t时隙传输速率相较于t时隙能选择的最低传输速率的奖励权重；为t时隙发射功率相较于t时隙能选择的最小基准功率的代价因子；δ(·)为指示函数，如果成立，其值为1，否则为0；计算出r(st-1,at-1)后，结合上一时隙的环境状态st-1、传输动作at-1以及第t个时隙的环境状态st，得到一组完整的经验(st-1,rt-1,at-1,st)，将其存入经验池p，其中，rt-1代表r(st-1,at-1)。

27、进一步地，所述步骤s4，利用经验池中所有上一时隙的环境状态作为样本，计算宽度策略网络输入层输出矩阵的伪逆，具体步骤如下：

28、无线通信系统从经验池p取出当前所有经验(st-1,rt-1,at-1,st)p，其中p表示经验个数；利用所有上一时隙的环境状态构成的样本(st-1)p构建一个维度为np×m的输入状态矩阵st，其中np表示所有经验中不同(st-1,st)p组合的个数，m为可选传输信道数，st经特征映射节点完成以下运算，得到n个特征映射矩阵：

29、

30、其中，φ(·)为任意非线性映射函数，是维度为np×c1的随机偏置矩阵；

31、所有特征映射矩阵合并后得到zn＝[z1,...,zn]，其维度为np×nc1，然后经增强节点完成以下运算，得到m个增强矩阵：

32、

33、其中，ξ(·)为任意非线性映射函数，是维度为np×c2的随机偏置矩阵；所有增强矩阵合并后得到hm＝[h1,...,hm]，其维度为np×mc2；

34、增强矩阵与特征映射矩阵合并后得到维度为np×(nc1+mc2)的输入层输出矩阵at＝[zn|hm]，对at按下式计算moore-penrose伪逆：

35、

36、其中，i是单位矩阵；λ是一个趋近于0的数；表示采用lu分解法计算的逆矩阵；表示at的转置。

37、进一步地，所述步骤s5，利用经验池中所有当前时隙的环境状本文档来自技高网...

【技术保护点】

1.一种基于宽度强化学习的多域通信抗干扰方法，应用于无线通信系统，所述无线通信系统包括发射机和接收机，所述发射机和接收机按时隙同步，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于宽度强化学习的多域通信抗干扰方法，其特征在于，所述步骤S1，将多域通信抗干扰问题建模为马尔科夫决策过程，具体包括：

3.根据权利要求2所述的基于宽度强化学习的多域通信抗干扰方法，其特征在于，所述步骤S2，构建宽度网络并初始化参数，其中，所述宽度网络包括宽度策略网络和宽度目标网络，具体包括：

4.根据权利要求3所述的基于宽度强化学习的多域通信抗干扰方法，其特征在于，所述步骤S3，计算上一时隙的环境状态和传输动作的奖励，结合上一时隙的环境状态、传输动作以及当前时隙的环境状态，得到一组完整经验并存入经验池，具体包括：

5.根据权利要求4所述的基于宽度强化学习的多域通信抗干扰方法，其特征在于，所述步骤S4，利用经验池中所有上一时隙的环境状态作为样本，计算宽度策略网络输入层输出矩阵的伪逆，具体步骤如下：

6.根据权利要求5所述的基于宽度强化学习的

7.根据权利要求6所述的基于宽度强化学习的多域通信抗干扰方法，其特征在于，所述步骤S6，利用S4计算出的宽度策略网络输入层输出矩阵的伪逆和S5计算出的目标矩阵更新宽度策略网络的权重，具体步骤如下：

8.根据权利要求7所述的基于宽度强化学习的多域通信抗干扰方法，其特征在于，所述步骤S7，利用更新后的宽度策略网络选择当前时隙的传输动作，具体包括：

9.一种基于宽度强化学习的多域通信抗干扰系统，应用于权利要求1-8任一所述的基于宽度强化学习的多域通信抗干扰方法，其特征在于，包括：

10.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至8任一项所述的一种基于宽度强化学习的多域通信抗干扰方法。

...

【技术特征摘要】

2.根据权利要求1所述的基于宽度强化学习的多域通信抗干扰方法，其特征在于，所述步骤s1，将多域通信抗干扰问题建模为马尔科夫决策过程，具体包括：

3.根据权利要求2所述的基于宽度强化学习的多域通信抗干扰方法，其特征在于，所述步骤s2，构建宽度网络并初始化参数，其中，所述宽度网络包括宽度策略网络和宽度目标网络，具体包括：

4.根据权利要求3所述的基于宽度强化学习的多域通信抗干扰方法，其特征在于，所述步骤s3，计算上一时隙的环境状态和传输动作的奖励，结合上一时隙的环境状态、传输动作以及当前时隙的环境状态，得到一组完整经验并存入经验池，具体包括：

5.根据权利要求4所述的基于宽度强化学习的多域通信抗干扰方法，其特征在于，所述步骤s4，利用经验池中所有上一时隙的环境状态作为样本，计算宽度策略网络输入层输出矩阵的伪逆，具体步骤如下：

【专利技术属性】
技术研发人员：牛英滔，周权，张凯，
申请(专利权)人：中国人民解放军国防科技大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人