基于约束学习的多节点通信感知优化方法、系统、设备和介质技术方案

技术编号：41404082 阅读：6 留言：0更新日期：2024-05-20 19:29

本发明专利技术公开了一种基于约束深度强化学习的多节点通信感知优化方法及系统，步骤如下：收集联合通信感知节点、感知目标、通信接收机的信息与参数、信道信息；为每个联合通信感知节点构建约束深度强化学习神经网络模型；使用收集的信息建立虚拟仿真环境，并进行联合训练和学习；将训练好的每个联合通信感知节点的约束深度强化学习模型部署到相应的真实节点，每个联合通信感知节点根据自身的观测进行资源分配。本发明专利技术采用多智能体的约束深度强化学习算法，综合各联合通信感知节点间的影响，实现合理资源分配，在满足各联合通信感知节点平均功耗约束的同时最小化平均估计信息年龄。本发明专利技术采用估计信息年龄作为优化指标，保证传输及时性和估计准确性。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及通信感知联合技，具体涉及一种基于约束深度强化学习的多节点通信感知优化方法、系统、计算机设备和存储介质。

技术介绍

1、近年来，随着科技的不断进步，各种新兴应用不断涌现，它们不仅需要可靠的无线连接，还需要高精度的感知能力。可预见的是，面向新的应用，感知功能将作为一种基本的服务，成为通信网络的原生能力，与通信功能互惠互利，赋能未来网络以及各种新兴应用。另一方面，无线频谱资源有限，随着无线通信技术的不断演进，其频段逐渐与传统雷达频段重叠，下一代无线通信希望复用雷达频段。幸运的是，雷达和通信系统并非完全独立，二者在硬件架构、信号处理等方面均有共通之处，这为通信网络融入感知功能提供了可能，因此，通信感知一体化成为6g十大潜在关键技术方向之一。该技术通过同时实现感知与通信功能来提高频谱效率和硬件效率，然而两者的融合不可避免地导致不同功能对有限资源的竞争，因此，需要进一步研究通信与感知的联合优化问题。事实上，目前已有许多工作开展了相关的研究，但现有工作在优化问题时大多考虑可靠性和有效性，而忽略了及时性的问题。再者，现有工作并没有考虑到系统所处环境往往具有高度动态性和不确定性，特别地，当环境中存在有多个联合通信感知节点需要同时进行资源分配时，会引入联合通信感知节点间的相互干扰，问题将变得更加复杂难解。传统的优化技术将变得非常不灵活和低效，因此，亟需一种高效的方法和系统来以无模型的方式进行相应的资源分配。

技术实现思路

1、本专利技术的目的是为了解决现有技术中的上述缺陷，提供一种基于约

2、本专利技术的第一个目的可以通过采取如下技术方案达到：

3、一种基于约束深度强化学习的多节点通信感知优化方法，所述多节点通信感知优化方法包括以下步骤：

4、s1、收集联合通信感知节点、感知目标、通信接收机的信息与参数，收集联合通信感知节点和感知目标之间以及联合通信感知节点和通信接收机之间的信道信息；

5、s2、分别为每个联合通信感知节点构建约束深度强化学习神经网络模型；

6、s3、使用收集的信息建立虚拟仿真环境，在虚拟仿真环境中对所述每个联合通信感知节点的约束深度强化学习模型进行联合训练和学习；

7、s4、将经过训练的每个联合通信感知节点的约束深度强化学习模型部署到相应的真实节点，每个联合通信感知节点根据自身的观测进行资源分配。

8、进一步地，所述步骤s1具体为：

9、收集联合通信感知节点、感知目标、通信接收机的位置信息，收集联合通信感知节点、通信接收机的历史信息以及配置参数，最后收集联合通信感知节点和感知目标之间以及联合通信感知节点和通信接收机之间的信道信息，用以构建后续的虚拟仿真环境。仿真环境为强化学习提供了一个安全、高效且控制精确的实验平台，允许智能体在没有真实世界后果的情况下进行试错学习，大大降低训练成本，并允许智能体以超过现实世界可能的速度进行学习，大大加速训练过程。

10、进一步地，所述步骤s2中将每个联合通信感知节点都视为一个智能体，分别为每个联合通信感知节点构建策略网络、值网络、成本值网络以及拉格朗日乘子，具体过程如下：

11、s2.1、为每个联合通信感知节点构建策略网络。策略网络包括均值网络和标准差网络，其中，均值网络的基本结构为：输入层-隐藏层-输出层，标准差网络是一列可训练参数。策略网络模型以联合通信感知节点的观测oi,t为输入，以联合通信感知节点的动作ai,t为输出，均值网络的输入层单元数与观测元素数相同，均值网络的输出层单元数和标准差网络的单元数都与动作元素数相同。策略采用高斯策略，则策略网络输出动作的流程为：将观测oi,t输入均值网络得到动作均值，标准差网络直接形成动作标准差，基于动作均值和动作标准差构建高斯分布，对高斯分布进行采样即为相应的输出动作。使用θi表示联合通信感知节点ui的策略网络参数，则策略表示输入为oi,t时输出ai,t的概率。

12、策略网络是分为两部分。一部分就是各层连接而成的均值网络，该部分根据输入状态输出动作的均值；另一部分是标准差网络(就是一列可训练的参数)，每次状态输入到均值网络时，标准差网络就会对应输出一次动作标准差(标准差网络不需要输入)，进而与均值一起构成高斯分布。策略网络提供了从状态到动作概率分布的直接映射，无需先评估所有可能动作的价值再选择价值最高的动作，这特别适合于本方案中考虑的连续动作空间，并且，通过适当的训练，策略网络可以适应复杂环境，学习到难以直观定义的较优策略。

13、特别地，定义联合通信感知节点ui在时隙t的观测oi,t为通信接收机在时隙t的信息年龄δi,t以及其在时隙t开始时成功接收到的最新数据包的大小其中，ui,t表示通信接收机在时隙t开始时接收到的最新数据包的生成时隙，因此观测oi,t表示为

14、定义联合通信感知节点ui在时隙t的动作ai,t为联合通信感知节点ui在时隙t的时间分配比例ηi,t和功率分配即

15、因此，联合通信感知节点ui在时隙t通过感知功能获得的雷达互信息也即其在本时隙生成的数据包大小可计算如下，

16、

17、其中，[η(1),t,η(2),t,…,η(m),t]是各个联合通信感知节点的时间分配比例的升序排列，特别地，η(0),t＝0和η(m+1),t＝1，m是联合通信感知节点个数，li,t表示时隙t内的时间分配比例升序排列后联合通信感知节点ui的时间分配比例的次序，表示时隙t内时间分配比例大于等于η(q),t的联合通信感知节点集合，表示时隙t内时间分配比例小于η(q),t的联合通信感知节点集合，ts表示时隙持续时间，nc是子载波数量，δf是子载波间隔，n是背景噪声的功率谱密度。表示时隙t内联合通信感知节点uj到感知目标到联合通信感知节点ui路径的整体信道增益，具体表示如下，

18、

19、其中，是联合通信感知节点的发射天线增益，是联合通信感知节点的接收天线增益，σrcs是感知目标的雷达截面积，λ是波长，是联合通信感知节点ui与感知目标之间的距离，是时隙t内联合通信感知节点uj到感知目标到联合通信感知节点ui路径的第n个子载波上的归一化信道频率响应，fn＝fc+nδf是第n个子载波频率，fc是载波频率。gj,i,t表示时隙t内联合通信感知节点uj到联合通信感知节点ui路径的整体信道增益，具体表示如下，

20、

21、其中，dj,i是两个联合通信感知节点uj与ui之间的距离，hj,i,t(fn)是时隙t内联合通信感知节点uj到联合通信感知节点ui路径的第n个子载波上的归一化信道频率响应。

22、联合通信感知节点ui在时隙t通过通信功能可以传输的数据总量可计算如下，

23、

24、其中，表示时隙t内时间分配比例大于η(q),t的联合通信感知节本文档来自技高网...

【技术保护点】

1.一种基于约束深度强化学习的多节点通信感知优化方法，其特征在于，所述多节点通信感知优化方法包括以下步骤：

2.根据权利要求1所述的基于约束深度强化学习的多节点通信感知优化方法，其特征在于，所述步骤S1过程如下：

3.根据权利要求1所述的基于约束深度强化学习的多节点通信感知优化方法，其特征在于，所述步骤S2中将每个联合通信感知节点都视为一个智能体，分别为每个联合通信感知节点构建策略网络、值网络、成本值网络以及拉格朗日乘子，过程如下：

4.根据权利要求3所述的基于约束深度强化学习的多节点通信感知优化方法，其特征在于，所述步骤S3中

5.根据权利要求4所述的基于约束深度强化学习的多节点通信感知优化方法，其特征在于，所述步骤S3.3中每一条经验数据的交互采集过程具体为：

6.根据权利要求5所述的基于约束深度强化学习的多节点通信感知优化方法，其特征在于，所述步骤S4过程如下：

7.一种基于约束深度强化学习的多节点通信感知优化系统，用于执行权利要求1至6任一所述的基于约束深度强化学习的多节点通信感知优化方法，其特征在于

8.一种计算机设备，包括处理器以及用于存储处理器可执行程序的存储器，其特征在于，所述处理器执行存储器存储的程序时，实现权利要求1至6任一所述的基于约束深度强化学习的多节点通信感知优化方法。

9.一种存储介质，存储有程序，其特征在于，所述程序被处理器执行时，实现权利要求1至6任一所述的基于约束深度强化学习的多节点通信感知优化方法。

...

【技术特征摘要】

1.一种基于约束深度强化学习的多节点通信感知优化方法，其特征在于，所述多节点通信感知优化方法包括以下步骤：

2.根据权利要求1所述的基于约束深度强化学习的多节点通信感知优化方法，其特征在于，所述步骤s1过程如下：

3.根据权利要求1所述的基于约束深度强化学习的多节点通信感知优化方法，其特征在于，所述步骤s2中将每个联合通信感知节点都视为一个智能体，分别为每个联合通信感知节点构建策略网络、值网络、成本值网络以及拉格朗日乘子，过程如下：

4.根据权利要求3所述的基于约束深度强化学习的多节点通信感知优化方法，其特征在于，所述步骤s3中

5.根据权利要求4所述的基于约束深度强化学习的多节点通信感知优化方法，其特征在于，所述步骤s3.3中每一条经...

【专利技术属性】
技术研发人员：王玺钧，马力斐，陈翔，
申请(专利权)人：中山大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人