一种基于在线学习的抗干扰频点分配方法组成比例

技术编号:28118727 阅读:14 留言:0更新日期:2021-04-19 11:21
本发明专利技术公开了一种基于在线学习的抗干扰频点分配方法,包括:用频用户在每个时隙开始时分配一个频点作为工作频点,同时用频设备开始学习外部干扰源的干扰规律,至用频设备处基于核函数的强化学习方法的频点分配算法收敛,用频用户习得最优策略并按此策略进行频点选择、数据传输;若在算法收敛之后,当前频段干扰发生变化,用频设备继续按照之前的频点分配策略选择频点,根据被干扰的频点时的瞬时回报,启动频点分配算法重新进行学习,至用频设备处的频点分配算法重新收敛,习得干扰改变后的最优频点分配策略并按此策略进行数据传输。本发明专利技术能够动态监测环境信息,在未知干扰源的系统中,实时分析环境的干扰情况,做出最优的抗干扰频点分配决策。扰频点分配决策。扰频点分配决策。

【技术实现步骤摘要】
一种基于在线学习的抗干扰频点分配方法


[0001]本专利技术涉及无线通信
,具体而言涉及一种基于在线学习的抗干扰频点分配方法。

技术介绍

[0002]近年来,随着无线设备和服务的数量爆炸式增长,无线通信系统中的用户数与业务种类大幅增加,通信设备的频谱资源分配问题成为一大难点。同时,面对越发复杂的电磁环境,具有开放性的无线通信系统相比有线通信系统更易受到电磁环境中的干扰攻击,抗干扰技术的研究在构建更加稳健,高效的无线通信系统中的重要性日益凸显。
[0003]当下,主流的传统抗干扰技术包括跳频扩频(Frequency Hopping Spread Spectrum,FHSS)和直接序列扩频(direct

sequence spread spectrum,DSSS),传统的抗干扰技术需要有大量的可用频谱资源作为抗干扰技术的支持,在无法提供大量频谱资源时抗干扰效果会下降,并且传统的抗干扰技术无法应对网络频谱动态变化的场景。
[0004]近年兴起的强化学习技术提供了一种通用方法来解决复杂的不确定性决策问题。Q学习算法是一种无模型的强化学习算法,被广泛地应用于无线通信系统的抗干扰问题中。然而,由于电磁环境的复杂性,基于传统强化学习技术对抗干扰频点分配问题进行求解时会面临巨大的状态和动作空间,由此会陷入维度诅咒等问题。为解决此类问题所提出的基于神经网络或隐马尔可夫模型等的预测模型需要大量的计算资源来进行训练,并且需要定期重新训练,同时需要大量参数来获取相关的通信环境信息,在具有业务延迟要求等的实际无线通信网络中具有一定的局限性。因此,需要更先进的技术方法,来动态监测环境信息,实时分析相关数据,做出频点资源分配的最优决策。

技术实现思路

[0005]本专利技术针对现有技术中的不足,提供一种基于在线学习的抗干扰频点分配方法,利用了基于核函数的强化学习方法,能够动态监测环境信息,在未知干扰源的系统中,实时分析环境的干扰情况,做出最优的抗干扰频点分配决策。
[0006]为实现上述目的,本专利技术采用以下技术方案:一种基于在线学习的抗干扰频点分配方法,所述分配方法包括:用频用户在每个时隙开始时分配一个频点作为工作频点,不同用频用户使用不同频点作为工作频点;同时用频设备开始学习外部干扰源的干扰规律,至用频设备处的频点分配算法收敛,用频用户习得最优策略并按此策略进行频点选择、数据传输;若在算法收敛之后,当前频段干扰发生变化,用频设备继续按照之前的频点分配策略选择频点,用频用户得到接入被干扰的频点时的瞬时回报,启动频点分配算法重新进行学习,至用频设备处的频点分配算法重新收敛,用频用户习得干扰改变后的最优频点分配策略并按此策略进行数据传输;其中,所述频点分配算法基于核函数的强化学习方法,对干扰环境下的频点分配
问题进行马尔可夫建模,以最大化通信网络中用频设备处的累计折扣回报的期望为目标函数,对每一时隙的状态、动作选择及回报情况进行计算,得到状态

动作值函数,直至算法收敛,将收敛后的动作选择决策作为抗干扰频点分配最优决策;用频设备在某一时隙的状态是指用频设备的各个可用频点在该时隙过去一预设时间范围内的频谱态势,用频设备的动作选择是指用频设备在所有可用频点中选择用于进行数据传输的频点,用频设备的回报情况是指当前时隙用频设备是否接入未被干扰的频点作为工作频点。
[0007]为优化上述技术方案,采取的具体措施还包括:进一步地,所述频点分配算法包括以下步骤:S1,在线获取用频设备的各个可用频点在过去一预设时间范围内的频谱态势作为用频设备当前的状态,并以此构建频谱池;S2,用频设备采用改进的贪心算法,以最大化访问的状态

动作对类型为目标,进行动作选择,在所有可用频点中选择用于进行数据传输的频点;S3,发射机发送数据包,在接收机处获取接收到的信号,得到动作选择的瞬时回报值,瞬时回报值是指某一时隙用频设备是否接入未被干扰的频点作为工作频点;S4,基于步骤S1至S3中所获取的当前时隙的状态、动作选择及回报情况,计算状态

动作值函数,即Q值;S5,在下一时隙重复上述步骤S1至S4,直至算法收敛,将收敛后的动作选择决策作为抗干扰频点分配最优决策。
[0008]进一步地,步骤S1中,所述在线获取用频设备的各个可用频点在过去一预设时间范围内的频谱态势作为用频设备当前的状态,并以此构建频谱池的过程包括以下步骤:S11,在某一时隙t,对每个用频用户创建该用户的频谱态势向量:对每个可用频点,用1表示该频点受到干扰,用0表示该频点未受到干扰;S12,对于每个用频用户,感知环境中若干时隙的频谱态势,由这若干个频谱态势向量构建包含时域和频域信息的二维矩阵,作为频谱池。
[0009]进一步地,步骤S2中,所述用频设备采用改进的贪心算法,以最大化访问的状态

动作对类型为目标,进行动作选择,在所有可用频点中选择用于进行数据传输的频点的过程包括以下步骤:S21,建立一个集合M以存放已被访问过的状态

动作对,若状态

动作对在之前的时隙被访问,则将该状态

动作对添加到集合M中;S22,在任一时隙,用频设备以概率ε根据Q表选取当前状态下Q值最大的动作作为当前时隙接入的频点,以概率1
ꢀ‑ꢀ
ε随机选取一个动作,与当前用频设备所处的状态构成状态

动作对;其中,当随机选取的动作构成的状态

动作对不包含于集合M中时,用频设备选择随机动作作为当前时隙接入的频点;当该状态

动作对包含于集合M中时,则根据Q表选取当前状态下,Q值最大的动作作为当前时隙接入的频点。
[0010]进一步地,步骤S4中,所述计算状态

动作值函数的过程包括以下步骤:S41,创建字典集合用以存放当前环境的特征信息,即获取状态

动作对样本数据存入字典中;
S42,采用基于近似线性相关性分析(Approximate Linear Dependence,ALD)的在线内核稀疏方法对字典进行更新;S43,求解当前时隙的数据样本特征关于字典中每一个元素的核函数,核函数计算结果为当前时隙用频设备观察到的状态和选择的动作分别关于当前时隙字典中存储的状态和动作的数据样本特征的高斯核函数的乘积;S44,根据当前时隙的状态、动作、瞬时回报更新字典中每一个元素的权重系数;S45,将步骤S43所求得的核函数和步骤S44所求得的对应元素的权重系数相乘并求和得到当前时隙状态

动作值函数。
[0011]进一步地,步骤S42中,所述采用基于近似线性相关性分析的在线内核稀疏方法对字典进行更新的过程包括以下步骤:S421,定义任一时隙时的差值函数为当前样本的特征向量与当前字典中样本特征向量的期望之间的差值,针对当前时隙的数据样本计算对应的差值;S422,定义当前数据样本与字典内元素的差值函数阈值μ;S423,判断步骤S421中本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于在线学习的抗干扰频点分配方法,其特征在于,所述分配方法包括:用频用户在每个时隙开始时分配一个频点作为工作频点,不同用频用户使用不同频点作为工作频点;同时用频设备开始学习外部干扰源的干扰规律,至用频设备处的频点分配算法收敛,用频用户习得最优策略并按此策略进行频点选择、数据传输;若在算法收敛之后,当前频段干扰发生变化,用频设备继续按照之前的频点分配策略选择频点,用频用户得到接入被干扰的频点时的瞬时回报,启动频点分配算法重新进行学习,至用频设备处的频点分配算法重新收敛,用频用户习得干扰改变后的最优频点分配策略并按此策略进行数据传输;其中,所述频点分配算法基于核函数的强化学习方法,对干扰环境下的频点分配问题进行马尔可夫建模,以最大化通信网络中用频设备处的累计折扣回报的期望为目标函数,对每一时隙的状态、动作选择及回报情况进行计算,得到状态

动作值函数,直至算法收敛,将收敛后的动作选择决策作为抗干扰频点分配最优决策;用频设备在某一时隙的状态是指用频设备的各个可用频点在该时隙过去一预设时间范围内的频谱态势,用频设备的动作选择是指用频设备在所有可用频点中选择用于进行数据传输的频点,用频设备的回报情况是指当前时隙用频设备是否接入未被干扰的频点作为工作频点。2.根据权利要求1所述的基于在线学习的抗干扰频点分配方法,其特征在于,所述频点分配算法包括以下步骤:S1,在线获取用频设备的各个可用频点在过去一预设时间范围内的频谱态势作为用频设备当前的状态,并以此构建频谱池;S2,用频设备采用改进的贪心算法,以最大化访问的状态

动作对类型为目标,进行动作选择,在所有可用频点中选择用于进行数据传输的频点;S3,发射机发送数据包,在接收机处获取接收到的信号,得到动作选择的瞬时回报值,瞬时回报值是指某一时隙用频设备是否接入未被干扰的频点作为工作频点;S4,基于步骤S1至S3中所获取的当前时隙的状态、动作选择及回报情况,计算状态

动作值函数,即Q值;S5,在下一时隙重复上述步骤S1至S4,直至算法收敛,将收敛后的动作选择决策作为抗干扰频点分配最优决策。3.根据权利要求2所述的基于在线学习的抗干扰频点分配方法,其特征在于,步骤S1中,所述在线获取用频设备的各个可用频点在过去一预设时间范围内的频谱态势作为用频设备当前的状态,并以此构建频谱池的过程包括以下步骤:S11,在某一时隙t,对每个用频用户创建该用户的频谱态势向量:对每个可用频点,用1表示该频点受到干扰,用0表示该频点未受到干扰;S12,对于每个用频用户,感知环境中若干时隙的频谱态势,由这若干个频谱态势向量构建包含时域和频域信息的二维矩阵,作为频谱池。4.根据权利要求2所述的基于在线学习的抗干扰频点分配方法,其特征在于,步骤S2中,所述用频设备采用改进的贪心算法,以最大化访问的状态

动作对类型为目标,进行动作选择,在所有可用频点中选择用于进行数据传输的频点的过程包括以下步骤:S21,建立一个集合M以存放...

【专利技术属性】
技术研发人员:黄洋唐煊江志炜吴启晖千雪映谢子心朱鑫昱
申请(专利权)人:南京航空航天大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1