【技术实现步骤摘要】
卫星通信系统强化学习自适应编码调制方法、系统及装置
[0001]本专利技术涉及卫星通信
,尤其涉及一种卫星通信系统强化学习自适应编码调制方法、系统及装置。
技术介绍
[0002]卫星通信系统实际上是一种微波通信,它以卫星作为中继站转发微波信号,在多个地面站之间通信,卫星通信的主要目的是实现对地面的“无缝隙”覆盖,由于卫星工作于几百、几千、甚至上万公里的轨道上,因此覆盖范围远大于一般的移动通信系统。卫星通信系统通常分为卫星和地面两部分,每一部分在通信过程中都不可或缺。地面部分一般包括地面信关站和用户,地面信关站的主要功能为连接卫星与地面通信网。地面用户有两种方式接入,第一种是用户终端与卫星直连,第二种是通过地面信关站接入。
[0003]卫星通信过程中,需要根据实际通信条件和信道状态选择相应的调制编码方式,以保证通信质量。现有方法中有采用自适应编码进调制技术,其中常用的MCS(Modulation and Coding Scheme,调制编码方式)选择算法是查表法。
[0004]自适应编码调制技术是当前地面通信系统中常用的抗衰减技术之一,其算法思想就是在接收端进行信道估计得到当前的信道状态信息(Channel State Information,CSI),再将CSI反馈给发射端,最后发射端根据收到的CSI选择当前最优的调制编码方式MCS。自适应编码调制技术的目的就是为了捕获持续改变的信道状态,并且在满足系统通信质量的同时充分利用系统资源。MCS选择算法就是根据每个SNR(Signal to nois ...
【技术保护点】
【技术特征摘要】
1.一种卫星通信系统强化学习自适应编码调制方法,其特征在于,用于在发送端信关站运行,所述方法包括:初始化强化学习算法的状态空间、动作空间和Q值表,并预设优先级阈值、优先级队列、虚拟环境模型和探索概率;所述状态空间为接收端信关站对信道估计得到的信噪比进行离散后得到的各信噪比区间的集合,所述动作空间为调制编码方式的集合,每一种调制编码方式为一种动作;所述Q值表中记载衡量给定状态下各调制编码方式的价值,将频谱效率作为奖励回报,所述虚拟环境模型以当前时刻状态和动作为输入以下一时刻状态和奖励回报为输出;所述优先级队列用于按照从高到低的顺序存储优先级数值大于所述预设优先级阈值的状态动作对,初始状态为空;基于初始调制编码方式发送信号,并获取所述接收端信关站返回的初始信道状态和初始频谱效率,更新所述Q值表,计算所述初始信道状态下各状态动作对的优先级数值并更新所述优先级队列;在基于实际信道数据的直接学习过程中,按照所述探索概率ε选择Q值表中Q值最大的状态动作对的调制编码方式发送信号,或按照1
‑
ε的概率在所述动作空间中随机选择一种调制编码方式发送信号;接受所述接收端信关站返回的当前时刻对应的实际频谱效率和下一时刻的实际信道状态,更新所述Q值表,计算当前时刻采用的状态动作对的优先级数值并更新所述优先级队列;重复所述直接学习过程,动态选择编码调制方法;在所述直接学习过程中,若所述接收端信关站某一时刻返回的实际信道状态是首次出现或所述优先级队列为非空,则在进入下一时刻直接学习过程之前采用虚拟环境模型进行虚拟状态和虚拟奖励回报的更新,并进行虚拟学习直至优先级队列为空且各信道状态收敛,在收敛状态下将虚拟学习得到的Q值表中Q值最大的状态动作对的调制编码方式用于下一时刻直接学习过程的信号发送;在虚拟学习过程中,每一个时刻都优先采用所述优先级队列首位的状态动作对的调制编码方式模拟发送信息,并对Q值表进行更新。2.根据权利要求1所述的卫星通信系统强化学习自适应编码调制方法,其特征在于,所述奖励回报的计算式为:其中,M是调制阶数,ber是当前系统的误码率。3.根据权利要求2所述的卫星通信系统强化学习自适应编码调制方法,其特征在于,所述状态动作对的优先级数值P(s
t
,a
t
)的计算式为:其中,s
t
为t时刻的状态,a
t
为t时刻的动作,r
t
为t时刻状态s
t
下动作a
t
的观测奖励回报,γ为折扣因子;s
t+1
为t+1时刻的状态,a
t+1
为t+1时刻选择的Q值最大的动作,表示t+1...
【专利技术属性】
技术研发人员:邓中亮,王珂,林文亮,郭荣雪,刘允,张海鹏,张艺博,
申请(专利权)人:中国电子科技集团公司第五十四研究所,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。