基于强化学习执行波束训练的方法和执行该方法的无线通信设备技术

技术编号：35433366 阅读：34 留言：0更新日期：2022-11-03 11:39

可以提供一种执行波束训练的方法，包括：获得用于选择用于执行波束成形的多个波束中的一个波束的概率分布和值函数中的至少一个；基于概率分布和值函数中的至少一个从多个波束中选择候选波束，该候选波束预期是多个波束中的最佳波束；基于候选波束和由至少一个先前训练操作选择的先前波束执行当前训练操作；以及基于当前训练操作的结果选择候选波束和先前波束中较好的一个作为当前波束。前波束中较好的一个作为当前波束。前波束中较好的一个作为当前波束。

全部详细技术资料下载

【技术实现步骤摘要】
基于强化学习执行波束训练的方法和执行该方法的无线通信设备
[0001]相关申请的交叉引用
[0002]本申请要求于2021年4月30日在韩国知识产权局(KIPO)递交的韩国专利申请No.10
‑
2021
‑
0056571的优先权，其全部内容通过引用合并于此。

[0003]示例实施例总体上涉及半导体集成电路，并且更具体地涉及基于用于波束成形的强化学习执行波束训练的方法和执行该方法的无线通信设备。

技术介绍

[0004]最近关于第五代(5G)通信系统(5G无线电接入技术)的提案旨在通过使用100MHz或更大的超宽带带宽提供几Gbps的超高速数据服务来提高广泛商用的长期演进(LTE)和高级LTE(LTE
‑
A)的性能。考虑到在LTE和LTE
‑
A中使用的几百MHz或几GHz的频段上实现超宽带通信的技术挑战，5G通信系统正在考虑6GHz或更高的频率。例如，5G正在考虑使用毫米(mm)波段提高传输速率的技术，潜在波段包括28GHz波段(26.5GHz
‑
29.5GHz)和60GHz波段(57GHz
‑
71GHz)。然而，由于无线电波的路径损耗与频率成正比，mm波发生的相对较高的路径损耗可以减小用于与给定基站通信的服务区域。
[0005]为了减少或防止这种服务区域减小，已经针对5G通信系统提出了用于通过使用多个天线生成定向波束来增大无线电波的范围的波束成形技术。波束成形技术可以应用于发射机(例如，基...

【技术保护点】

【技术特征摘要】
1.一种执行波束训练的方法，所述方法包括：获得用于选择用于执行波束成形的多个波束中的一个波束的概率分布和值函数中的至少一个；基于所述概率分布和所述值函数中的所述至少一个从所述多个波束中选择候选波束，所述候选波束预期是所述多个波束中的最佳波束；基于所述候选波束和由至少一个先前训练操作选择的先前波束执行当前训练操作；以及基于所述当前训练操作的结果选择所述候选波束和所述先前波束中较好的一个作为当前波束。2.根据权利要求1所述的方法，还包括：基于在所述至少一个先前训练操作中选择至少一个先前候选波束的动作和与所述至少一个先前训练操作的结果相对应的奖励来确定在所述当前训练操作中选择所述候选波束的策略。3.根据权利要求1所述的方法，还包括：使用基于用于探索和开发的指数权重算法EXP3的对抗性强盗模型来确定选择所述候选波束的策略，其中，所述选择基于所述概率分布来选择所述候选波束。4.根据权利要求3所述的方法，其中，所述概率分布由等式1定义如下：[等式1]其中，p
k
(t)表示所述多个波束中的第k波束的概率分布，k表示大于或等于1且小于或等于K的整数，K表示所述多个波束的数量，表示到t轮为止所述第k波束的累积奖励的估计值，γ表示用于调整所述探索和所述开发之间的比率的参数，并且ρ>0表示训练率。5.根据权利要求3所述的方法，还包括：更新所述概率分布。6.根据权利要求5所述的方法，其中，所述更新包括：更新所述当前波束的第一奖励；更新与所述当前波束相邻的相邻波束的第二奖励；以及基于更新的第一奖励和更新的第二奖励来更新累积奖励。7.根据权利要求6所述的方法，其中，所述第一奖励和所述第二奖励分别基于等式2和等式3获得，如下所示：[等式2]
[等式3]且其中，在等式2中，表示所述第一奖励，p
k
(t)表示所述当前波束的概率分布，k表示大于或等于1且小于或等于K的整数，K表示所述多个波束的数量，α>0和β>0中的每一个表示训练率，SINR
k
表示信干噪比，并且τ表示执行标准，并且在等式3中，和表示所述第二奖励，并且w1和w2表示用于更新所述第二奖励的权重。8.根据权利要求3所述的方法，还包括：基于优先训练与所述当前波束相邻的相邻波束的不平等机会方案，确定包括所述至少一个先前训练操作和所述当前训练操作的训练序列。9.根据权利要求8所述的方法，其中，响应于所述当前波束与变化点相对应，所述确定训练序列的操作基于自适应不平等机会方案确定所述训练序列，在所述自适应不平等机会方案中，首先执行探索，并且在完成所述探索之后执行开发。10.根据权利要求9所述的方法，还包括：基于所述当前波束的参考信号接收功率RSRP和所述先前波束的RSRP确定所述当前波束是否对应于所述变化点。11.根据权利要求10所述的方法，其中，所述确定所述当前波束是否对应于所述变化点的操作是使用与所述当前波束相邻的所述相邻波束中的每个的RSRP附加地执行的。12.根据权利要求1所述的方法，还包括：使用基于置信上限UCB算法的统计强盗模型来确定选择所述候选波束的策略；以及所述选择基于与所述值函数相对应的置信上限指数来选择所述候选波束。13.根据权利要求12所述的方法，其中，所述置信上限指数由等式4定义如下：[等式4]其中，UCB
k
(t)表示所述多个波束中的第k波束的置信...

【专利技术属性】
技术研发人员：李俊镐，金在仁，文钟建，李赫渊，崔胜镇，诸喜元，崔振元，
申请(专利权)人：三星电子株式会社，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人