卫星通信系统强化学习自适应编码调制方法、系统及装置制造方法及图纸

技术编号:32729023 阅读:18 留言:0更新日期:2022-03-20 08:34
本发明专利技术提供一种卫星通信系统强化学习自适应编码调制方法、系统及装置,所述方法基于强化学习的方式在每个状态下选择价值最高的调制编码方式,能够实现对动作的最优。同时,在强化学习过程中,设置了直接学习和虚拟学习两部分,直接学习是直接通过真实数据进行学习并选择调制编码方式进行通信,虚拟学习则基于虚拟环境模型对状态和奖励值的更新进行仿真,并通过虚拟学习更新Q值表至各信道收敛,引入虚拟学习过程可以减少与真实环境的交互,提高收敛速度和通信质量。进一步地,通过对状态动作对设置优先级数值,并在虚拟学习过程中专注于采用优先级数值较高的对状态动作,减少智能体无意义的查找,提高效率。提高效率。提高效率。

【技术实现步骤摘要】
卫星通信系统强化学习自适应编码调制方法、系统及装置


[0001]本专利技术涉及卫星通信
,尤其涉及一种卫星通信系统强化学习自适应编码调制方法、系统及装置。

技术介绍

[0002]卫星通信系统实际上是一种微波通信,它以卫星作为中继站转发微波信号,在多个地面站之间通信,卫星通信的主要目的是实现对地面的“无缝隙”覆盖,由于卫星工作于几百、几千、甚至上万公里的轨道上,因此覆盖范围远大于一般的移动通信系统。卫星通信系统通常分为卫星和地面两部分,每一部分在通信过程中都不可或缺。地面部分一般包括地面信关站和用户,地面信关站的主要功能为连接卫星与地面通信网。地面用户有两种方式接入,第一种是用户终端与卫星直连,第二种是通过地面信关站接入。
[0003]卫星通信过程中,需要根据实际通信条件和信道状态选择相应的调制编码方式,以保证通信质量。现有方法中有采用自适应编码进调制技术,其中常用的MCS(Modulation and Coding Scheme,调制编码方式)选择算法是查表法。
[0004]自适应编码调制技术是当前地面通信系统中常用的抗衰减技术之一,其算法思想就是在接收端进行信道估计得到当前的信道状态信息(Channel State Information,CSI),再将CSI反馈给发射端,最后发射端根据收到的CSI选择当前最优的调制编码方式MCS。自适应编码调制技术的目的就是为了捕获持续改变的信道状态,并且在满足系统通信质量的同时充分利用系统资源。MCS选择算法就是根据每个SNR(Signal to noise ratio,信噪比)选择当下信道状态最优的调制编码方式MCS。自适应编码调制技术中调制编码方式的切换阈值的合理设置是影响系统性能的关键之一。目前切换阈值的选择标准按照有效性和可靠性划分,主要分为两种:基于系统吞吐量最大和基于系统目标误码率的MCS选择算法。基于系统吞吐量最大的MCS选择算法主要考虑能达到最大吞吐量的信噪比,而不考虑系统通信的质量。基于目标误码率的选择算法通过配置系统目标误码率以确定信号传送的可靠性。固定的SNR

MCS映射表是在某个固定信道环境中通过不断试验解调门限获得的,无法根据信道情况灵活调整。当通信环境波动较大时,固定的SNR

MCS映射表与当前通信环境不再匹配,即使发送端收到的CSI是及时准确的,查表法得到的MCS往往是次优解。因此,亟需一种卫星通信的编码调制方法以实现高质量通信。

技术实现思路

[0005]本专利技术实施例提供了一种卫星通信系统强化学习自适应编码调制方法、系统及装置,以消除或改善现有技术中存在的一个或更多个缺陷,解决现有自适应编码调制技术无法准确获得最优解并保证通信质量和传输效率的问题。
[0006]本专利技术的技术方案如下:
[0007]一方面,本专利技术提供一种卫星通信系统强化学习自适应编码调制方法,用于在发送端信关站运行,所述方法包括:
[0008]初始化强化学习算法的状态空间、动作空间和Q值表,并预设优先级阈值、优先级队列、虚拟环境模型和探索概率;所述状态空间为接收端信关站对信道估计得到的信噪比进行离散后得到的各信噪比区间的集合,所述动作空间为调制编码方式的集合,每一种调制编码方式为一种动作;所述Q值表中记载衡量给定状态下各调制编码方式的价值,将频谱效率作为奖励回报,所述虚拟环境模型以当前时刻状态和动作为输入以下一时刻状态和奖励回报为输出;所述优先级队列用于按照从高到低的顺序存储优先级数值大于所述预设优先级阈值的状态动作对,初始状态为空;
[0009]基于初始调制编码方式发送信号,并获取所述接收端信关站返回的初始信道状态和初始频谱效率,更新所述Q值表,计算所述初始信道状态下各状态动作对的优先级数值并更新所述优先级队列;
[0010]在基于实际信道数据的直接学习过程中,按照所述探索概率ε选择Q值表中Q值最大的状态动作对的调制编码方式发送信号,或按照1

ε的概率在所述动作空间中随机选择一种调制编码方式发送信号;接受所述接收端信关站返回的当前时刻对应的实际频谱效率和下一时刻的实际信道状态,更新所述Q值表,计算当前时刻采用的状态动作对的优先级数值并更新所述优先级队列;重复所述直接学习过程,动态选择编码调制方法;
[0011]在所述直接学习过程中,若所述接收端信关站某一时刻返回的实际信道状态是首次出现或所述优先级队列为非空,则在进入下一时刻直接学习过程之前采用虚拟环境模型进行虚拟状态和虚拟奖励回报的更新,并进行虚拟学习直至优先级队列为空且各信道状态收敛,在收敛状态下将虚拟学习得到的Q值表中Q值最大的状态动作对的调制编码方式用于下一时刻直接学习过程的信号发送;在虚拟学习过程中,每一个时刻都优先采用所述优先级队列首位的状态动作对的调制编码方式模拟发送信息,并对Q值表进行更新。
[0012]在一些实施例中,所述奖励回报的计算式为:
[0013][0014]其中,M是调制阶数,ber是当前系统的误码率。
[0015]在一些实施例中,所述状态动作对的优先级数值P(s
t
,a
t
)的计算式为:
[0016][0017]其中,s
t
为t时刻的状态,a
t
为t时刻的动作,r
t
为t时刻状态s
t
下动作a
t
的观测奖励回报,γ为折扣因子;s
t+1
为t+1时刻的状态,a
t+1
为t+1时刻选择的Q值最大的动作,表示t+1时刻状态s
t+1
下动作a
t+1
的Q值;Q(s
t
,a
t
)表示t时刻状态s
t
下动作a
t
的Q值。
[0018]在一些实施例中所述Q值表的更新公式为:
[0019][0020]其中,s
t
为t时刻的状态,a
t
为t时刻的动作,r
t
为t时刻状态s
t
下动作a
t
的观测奖励回报,γ为折扣因子;s
t+1
为t+1时刻的状态,a
t+1
为t+1时刻选择的Q值最大的动作,
表示t+1时刻状态s
t+1
下动作a
t+1
的Q值;Q(s
t
,a
t
)表示t时刻状态s
t
下动作a
t
的Q值;α为学习速率。
[0021]在一些实施例中,所述方法设置多个所述虚拟环境模型,每个所述虚拟环境模型分别与一个信噪比区间对应,在虚拟学习过程中,根据当前的虚拟状态选择相应信噪比区间对应的虚拟环境模型计算下一时刻的虚拟状态和虚拟奖励回报。
[0022]在一些实施例中,所述学习速率为0.7~0.9,所述折扣因子为0.9~0.95,所述优先级阈值为0.03~本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种卫星通信系统强化学习自适应编码调制方法,其特征在于,用于在发送端信关站运行,所述方法包括:初始化强化学习算法的状态空间、动作空间和Q值表,并预设优先级阈值、优先级队列、虚拟环境模型和探索概率;所述状态空间为接收端信关站对信道估计得到的信噪比进行离散后得到的各信噪比区间的集合,所述动作空间为调制编码方式的集合,每一种调制编码方式为一种动作;所述Q值表中记载衡量给定状态下各调制编码方式的价值,将频谱效率作为奖励回报,所述虚拟环境模型以当前时刻状态和动作为输入以下一时刻状态和奖励回报为输出;所述优先级队列用于按照从高到低的顺序存储优先级数值大于所述预设优先级阈值的状态动作对,初始状态为空;基于初始调制编码方式发送信号,并获取所述接收端信关站返回的初始信道状态和初始频谱效率,更新所述Q值表,计算所述初始信道状态下各状态动作对的优先级数值并更新所述优先级队列;在基于实际信道数据的直接学习过程中,按照所述探索概率ε选择Q值表中Q值最大的状态动作对的调制编码方式发送信号,或按照1

ε的概率在所述动作空间中随机选择一种调制编码方式发送信号;接受所述接收端信关站返回的当前时刻对应的实际频谱效率和下一时刻的实际信道状态,更新所述Q值表,计算当前时刻采用的状态动作对的优先级数值并更新所述优先级队列;重复所述直接学习过程,动态选择编码调制方法;在所述直接学习过程中,若所述接收端信关站某一时刻返回的实际信道状态是首次出现或所述优先级队列为非空,则在进入下一时刻直接学习过程之前采用虚拟环境模型进行虚拟状态和虚拟奖励回报的更新,并进行虚拟学习直至优先级队列为空且各信道状态收敛,在收敛状态下将虚拟学习得到的Q值表中Q值最大的状态动作对的调制编码方式用于下一时刻直接学习过程的信号发送;在虚拟学习过程中,每一个时刻都优先采用所述优先级队列首位的状态动作对的调制编码方式模拟发送信息,并对Q值表进行更新。2.根据权利要求1所述的卫星通信系统强化学习自适应编码调制方法,其特征在于,所述奖励回报的计算式为:其中,M是调制阶数,ber是当前系统的误码率。3.根据权利要求2所述的卫星通信系统强化学习自适应编码调制方法,其特征在于,所述状态动作对的优先级数值P(s
t
,a
t
)的计算式为:其中,s
t
为t时刻的状态,a
t
为t时刻的动作,r
t
为t时刻状态s
t
下动作a
t
的观测奖励回报,γ为折扣因子;s
t+1
为t+1时刻的状态,a
t+1
为t+1时刻选择的Q值最大的动作,表示t+1...

【专利技术属性】
技术研发人员:邓中亮王珂林文亮郭荣雪刘允张海鹏张艺博
申请(专利权)人:中国电子科技集团公司第五十四研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1