一种基于深度强化学习的水声通信自适应调制方法及装置制造方法及图纸

技术编号：39316486 阅读：27 留言：0更新日期：2023-11-12 15:59

本发明专利技术公开了一种基于深度强化学习的水声通信自适应调制方法及装置。所述方法包括：利用深度强化学习算法中的评估网络，基于通信系统所处环境的初始信道状态s求得各个动作对应的Q值，根据Q值选择动作a，基于仿真得到误码率，根据强化学习奖励函数计算奖励值r并获取新的信道状态s1，生成训练数据；进行Q网络训练，使用“预测Q值”和“目标Q值”以及样本数据中的奖励r根据更新公式来计算损失函数并更新评估网络参数；将训练好的Q网络模型应用于通信传输过程中，实现自适应调制模式。本发明专利技术将深度学习和强化学习结合起来，能有效降低水声通信中的误码率并提高信号的吞吐量，保证了水声通信时的稳定性和可靠性。通信时的稳定性和可靠性。通信时的稳定性和可靠性。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于深度强化学习的水声通信自适应调制方法及装置

[0001]本专利技术涉及水声通信
，具体涉及一种基于深度强化学习的水声通信自适应调制方法及装置。

技术介绍

[0002]由于水声信道复杂多变，固定制式的水声通信技术效果较差。因此，自适应调制技术在水声通信中得到了广泛使用。它的核心思想是在接收端获取信道状态信息并将其反馈给发送端，发送端根据信息进行调整，选择当前信道状态下最合适的通信方式。传统的自适应算法通常根据理论经验值进行阈值划分，但是面对复杂多变的水声信道以及水声通信传播的高延迟导致信息反馈时间过长，难以有效降低水声通信中的误码率及提高信号吞吐量，使其很难用于实际的水声通信中。随着强化学习研究的深入，它也逐渐被应用在一些领域中，特别是强化学习可以作为一种选择策略，被广泛应用于自适应系统中，但是传统的强化学习算法用于水声通信中只能输入低维的信号，否则容易出现“维度爆炸”问题，使通信的可靠性和稳定性不足。

技术实现思路

[0003]本专利技术的目的是提供一种基于深度强化学习的水声通信自适应调制方法及...

【技术保护点】

【技术特征摘要】
1.一种基于深度强化学习的水声通信自适应调制方法，其特征在于，包括以下步骤：步骤1：生成训练数据，具体步骤为：(1
‑
1)构建状态空间、动作空间以及奖励函数；构建深度强化学习算法中的评估网络和目标网络；初始化经验池；设置强化学习算法的参数；(1
‑
2)设定通信系统所处环境的初始信道状态s，s＝[h,SNR]，h为信道响应函数，SNR为信噪比；(1
‑
3)将状态s输入到评估网络中求得各个动作对应的Q值，根据贪婪策略来选择动作a，即调制模式；(1
‑
4)根据选择的动作a进行通信仿真，处理后得到误码率，计算奖励值r并且记录信道变化后新的信道状态s1，判断是否到达终止态；(1
‑
5)将(1
‑
4)中所得到的(s,a,r,s1)存入经验池中，若到达终止态，则结束迭代，否则令s1→
s并转到(1
‑
3)继续循环；步骤2：进行Q网络训练，具体步骤为：(2
‑
1)用评估网络进行Q值预测：当经验池中样本数大于每次训练所需样本数后，后续每经过n1次迭代进行一次网络训练，从经验池中随机抽取m个样本，Q网络从数据样本中抽取当前状态和动作，进行Q值的预测，得到“预测Q值”。(2
‑
2)用目标网络进行Q值预测：目标网络从样本数据中获取下一状态，并从该状态下可执行的所有动作中对最佳Q值进行预测，即“目标Q值”。(2
‑
3)使用“预测Q值”和“目标Q值”以及样本数据中的奖励r根据更新公式来计算损失函数L(θ)，更新评估网络参数θ，每隔n2次迭代令目标网络权重参数θ1＝θ，经过所有轮次的迭代后形成迭代完成后的Q网络模型；步骤3：将训练好的Q网络模型应用于通信传输过程中，实现自适应调制模式。2.根据权利要求1所述的方法，其特征在于，构建状态空间、动作空间以及奖励函数包括：以接收端所估计出来的信道响应函数和信噪比构成网络的输入状态向量，由状态向量构成状态空间S，以载波调制方式作为动作空间A，以当环境状态为s时采取动作a所达到的吞吐量奖励R
TP
和误码率奖励R
BE
构成的函数值作为奖励函数R。3.根据权利要求2所述的方法，其特征在于，吞吐量奖励计算公式为：误码率奖励计算公式为：奖励函数R计算公式为：其中BER为误码率，φ为吞吐量，V
t
为传输速率。4.根据权利要求1所述的方法，其特征在于，构建的评估网络和目标网络的结构一致，使用的神经网络为前馈神经网络，网络的结构包括一层输入层，三层隐藏层和一层输出层，输入层的神经元数为状态s的维度；三层隐藏层中每层隐藏层的神经元数为10；输出层的神
经元数为动作空间A中动作值的数目，网络的输入为信道状态向量，网络的输出为状态s下各个动作对应的Q值。5.根据权利要求1所述的方法，其特征在于，损失函数计算公式为：L(θ)＝E[(Target Q
‑
Q(s,a；θ))2]其中，目标Q值计算公式为：r
i
是当前状态下的奖励，γ是指折扣因子。6.根据权利要求1所述的方法，其特征在于，在应用模型之前，利用测试集数据验证模型的性能，包括以下步骤：(3
‑
1)设定好...

【专利技术属性】
技术研发人员：李理，李琛熙，付一凡，韩笑，
申请(专利权)人：哈尔滨工程大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人