一种基于在线学习的抗干扰频点分配方法组成比例

技术编号：28118727 阅读：14 留言：0更新日期：2021-04-19 11:21

本发明专利技术公开了一种基于在线学习的抗干扰频点分配方法，包括：用频用户在每个时隙开始时分配一个频点作为工作频点，同时用频设备开始学习外部干扰源的干扰规律，至用频设备处基于核函数的强化学习方法的频点分配算法收敛，用频用户习得最优策略并按此策略进行频点选择、数据传输；若在算法收敛之后，当前频段干扰发生变化，用频设备继续按照之前的频点分配策略选择频点，根据被干扰的频点时的瞬时回报，启动频点分配算法重新进行学习，至用频设备处的频点分配算法重新收敛，习得干扰改变后的最优频点分配策略并按此策略进行数据传输。本发明专利技术能够动态监测环境信息，在未知干扰源的系统中，实时分析环境的干扰情况，做出最优的抗干扰频点分配决策。扰频点分配决策。扰频点分配决策。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于在线学习的抗干扰频点分配方法

[0001]本专利技术涉及无线通信
，具体而言涉及一种基于在线学习的抗干扰频点分配方法。

技术介绍

[0002]近年来，随着无线设备和服务的数量爆炸式增长，无线通信系统中的用户数与业务种类大幅增加，通信设备的频谱资源分配问题成为一大难点。同时，面对越发复杂的电磁环境，具有开放性的无线通信系统相比有线通信系统更易受到电磁环境中的干扰攻击，抗干扰技术的研究在构建更加稳健，高效的无线通信系统中的重要性日益凸显。
[0003]当下，主流的传统抗干扰技术包括跳频扩频（Frequency Hopping Spread Spectrum，FHSS）和直接序列扩频（direct
‑
sequence spread spectrum，DSSS），传统的抗干扰技术需要有大量的可用频谱资源作为抗干扰技术的支持，在无法提供大量频谱资源时抗干扰效果会下降，并且传统的抗干扰技术无法应对网络频谱动态变化的场景。
[0004]近年兴起的强化学习技术提供了一种通用方法来解决复杂的不确定性决策问题。Q学习算法是一种无模型的强化学习算法，被广泛地应用于无线通信系统的抗干扰问题中。然而，由于电磁环境的复杂性，基于传统强化学习技术对抗干扰频点分配问题进行求解时会面临巨大的状态和动作空间，由此会陷入维度诅咒等问题。为解决此类问题所提出的基于神经网络或隐马尔可夫模型等的预测模型需要大量的计算资源来进行训练，并且需要定期重新训练，同时需要大量参数来获取相关的通信环境信息，在具有业务延迟要求...

【技术保护点】

【技术特征摘要】
1.一种基于在线学习的抗干扰频点分配方法，其特征在于，所述分配方法包括：用频用户在每个时隙开始时分配一个频点作为工作频点，不同用频用户使用不同频点作为工作频点；同时用频设备开始学习外部干扰源的干扰规律，至用频设备处的频点分配算法收敛，用频用户习得最优策略并按此策略进行频点选择、数据传输；若在算法收敛之后，当前频段干扰发生变化，用频设备继续按照之前的频点分配策略选择频点，用频用户得到接入被干扰的频点时的瞬时回报，启动频点分配算法重新进行学习，至用频设备处的频点分配算法重新收敛，用频用户习得干扰改变后的最优频点分配策略并按此策略进行数据传输；其中，所述频点分配算法基于核函数的强化学习方法，对干扰环境下的频点分配问题进行马尔可夫建模，以最大化通信网络中用频设备处的累计折扣回报的期望为目标函数，对每一时隙的状态、动作选择及回报情况进行计算，得到状态
‑
动作值函数，直至算法收敛，将收敛后的动作选择决策作为抗干扰频点分配最优决策；用频设备在某一时隙的状态是指用频设备的各个可用频点在该时隙过去一预设时间范围内的频谱态势，用频设备的动作选择是指用频设备在所有可用频点中选择用于进行数据传输的频点，用频设备的回报情况是指当前时隙用频设备是否接入未被干扰的频点作为工作频点。2.根据权利要求1所述的基于在线学习的抗干扰频点分配方法，其特征在于，所述频点分配算法包括以下步骤：S1，在线获取用频设备的各个可用频点在过去一预设时间范围内的频谱态势作为用频设备当前的状态，并以此构建频谱池；S2，用频设备采用改进的贪心算法，以最大化访问的状态
‑
动作对类型为目标，进行动作选择，在所有可用频点中选择用于进行数据传输的频点；S3，发射机发送数据包，在接收机处获取接收到的信号，得到动作选择的瞬时回报值，瞬时回报值是指某一时隙用频设备是否接入未被干扰的频点作为工作频点；S4，基于步骤S1至S3中所获取的当前时隙的状态、动作选择及回报情况，计算状态
‑
动作值函数，即Q值；S5，在下一时隙重复上述步骤S1至S4，直至算法收敛，将收敛后的动作选择决策作为抗干扰频点分配最优决策。3.根据权利要求2所述的基于在线学习的抗干扰频点分配方法，其特征在于，步骤S1中，所述在线获取用频设备的各个可用频点在过去一预设时间范围内的频谱态势作为用频设备当前的状态，并以此构建频谱池的过程包括以下步骤：S11，在某一时隙t，对每个用频用户创建该用户的频谱态势向量：对每个可用频点，用1表示该频点受到干扰，用0表示该频点未受到干扰；S12，对于每个用频用户，感知环境中若干时隙的频谱态势，由这若干个频谱态势向量构建包含时域和频域信息的二维矩阵，作为频谱池。4.根据权利要求2所述的基于在线学习的抗干扰频点分配方法，其特征在于，步骤S2中，所述用频设备采用改进的贪心算法，以最大化访问的状态
‑
动作对类型为目标，进行动作选择，在所有可用频点中选择用于进行数据传输的频点的过程包括以下步骤：S21，建立一个集合M以存放...

【专利技术属性】
技术研发人员：黄洋，唐煊，江志炜，吴启晖，千雪映，谢子心，朱鑫昱，
申请(专利权)人：南京航空航天大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人