基于强化学习执行波束训练的方法和执行该方法的无线通信设备技术

技术编号:35433366 阅读:34 留言:0更新日期:2022-11-03 11:39
可以提供一种执行波束训练的方法,包括:获得用于选择用于执行波束成形的多个波束中的一个波束的概率分布和值函数中的至少一个;基于概率分布和值函数中的至少一个从多个波束中选择候选波束,该候选波束预期是多个波束中的最佳波束;基于候选波束和由至少一个先前训练操作选择的先前波束执行当前训练操作;以及基于当前训练操作的结果选择候选波束和先前波束中较好的一个作为当前波束。前波束中较好的一个作为当前波束。前波束中较好的一个作为当前波束。

【技术实现步骤摘要】
基于强化学习执行波束训练的方法和执行该方法的无线通信设备
[0001]相关申请的交叉引用
[0002]本申请要求于2021年4月30日在韩国知识产权局(KIPO)递交的韩国专利申请No.10

2021

0056571的优先权,其全部内容通过引用合并于此。


[0003]示例实施例总体上涉及半导体集成电路,并且更具体地涉及基于用于波束成形的强化学习执行波束训练的方法和执行该方法的无线通信设备。

技术介绍

[0004]最近关于第五代(5G)通信系统(5G无线电接入技术)的提案旨在通过使用100MHz或更大的超宽带带宽提供几Gbps的超高速数据服务来提高广泛商用的长期演进(LTE)和高级LTE(LTE

A)的性能。考虑到在LTE和LTE

A中使用的几百MHz或几GHz的频段上实现超宽带通信的技术挑战,5G通信系统正在考虑6GHz或更高的频率。例如,5G正在考虑使用毫米(mm)波段提高传输速率的技术,潜在波段包括28GHz波段(26.5GHz

29.5GHz)和60GHz波段(57GHz

71GHz)。然而,由于无线电波的路径损耗与频率成正比,mm波发生的相对较高的路径损耗可以减小用于与给定基站通信的服务区域。
[0005]为了减少或防止这种服务区域减小,已经针对5G通信系统提出了用于通过使用多个天线生成定向波束来增大无线电波的范围的波束成形技术。波束成形技术可以应用于发射机(例如,基站)和接收机(例如,终端)中的每一个。波束成形技术不仅可以扩大服务区域,而且可以减少由于物理光束向目标聚焦而造成的干扰。
[0006]在5G通信系统中,发射设备的发射波束的指向应该与接收设备的接收波束的指向对齐,以优化波束成形技术的有益效果。因此,已经对形成这种最佳指向波束的波束成形技术进行了研究。例如,可以执行波束训练以使发射机的波束与接收机的波束对齐,并且可以由于可变的无线通信环境而重复,并且无线通信的质量可以取决于波束训练的准确性和效率。

技术实现思路

[0007]本公开的一些示例实施例提供了基于用于无线通信中的波束成形的强化学习有效地执行波束训练的方法。
[0008]本公开的一些示例实施例提供了执行该方法的无线通信设备。
[0009]根据一些示例实施例,执行波束训练的方法可以包括:获得用于选择用于执行波束成形的多个波束中的一个波束的概率分布和值函数中的至少一个;基于概率分布和值函数中的至少一个从多个波束中选择候选波束,该候选波束预期是多个波束中的最佳波束;基于候选波束和由至少一个先前训练操作选择的先前波束执行当前训练操作;以及基于当前训练操作的结果选择候选波束和先前波束中较好的一个作为当前波束。
[0010]根据一些示例实施例,无线通信设备可以包括:多个天线阵列;多个射频RF链,连接到多个天线阵列;以及信号处理器,处理从多个天线阵列接收到的信号。信号处理器可以被配置为使无线通信设备:获得用于选择用于执行波束成形的多个波束中的一个波束的概率分布和值函数中的至少一个;基于概率分布和值函数中的至少一个从多个波束中选择候选波束,该候选波束预期是多个波束中的最佳波束;基于候选波束和由至少一个先前训练操作选择的先前波束执行当前训练操作;以及基于当前训练操作的结果选择候选波束和先前波束中较好的一个作为当前波束。
[0011]根据一些示例实施例,执行波束训练的方法可以包括:定义用于选择用于执行波束成形的多个波束中的一个波束的概率分布和值函数中的至少一个;基于概率分布和值函数中的至少一个从多个波束中选择第一候选波束,该第一候选波束预期是多个波束在第一训练阶段中的第一最佳波束;在第一训练阶段中基于第一候选波束和第一当前波束执行第一训练操作;基于第一训练操作的结果选择第二当前波束;基于第一训练操作的结果更新概率分布和值函数中的至少一个;基于更新的概率分布和更新的值函数中的至少一个从多个波束中选择第二候选波束,该第二候选波束预期是多个波束在第一训练阶段之后的第二训练阶段中的第二最佳波束;在第二训练阶段中基于第二候选波束和第二当前波束执行第二训练操作;基于第二训练操作的结果选择第三当前波束;以及基于第二训练操作的结果更新概率分布和值函数中的至少一个。表示选择第一候选波束和第二候选波束的顺序的训练序列可以不固定,并且可以自适应地改变。
[0012]在根据一些示例实施例的执行波束训练的方法和无线通信设备中,可以执行基于强化学习的波束训练操作,以在可变信道下进行有效的波束训练。例如,可以实现高效的基于在线强化学习的框架,从而对更有希望的波束(或更可能的波束)选择性地执行更多训练操作,可以逐步执行最优搜索,并且可以形成代替固定训练序列的自适应(或可变)训练序列。因此,可以有效地执行波束跟踪,可以减少取决于波束变化的训练开销,可以在有限的训练序列内快速地或迅速地检测或搜索最佳波束,并且可以提高或增强通信性能。
附图说明
[0013]根据结合附图的以下详细描述,将更清楚地理解说明性的非限制性示例实施例。
[0014]图1是示出了根据一些示例实施例的执行波束训练的方法的流程图。
[0015]图2是示出了根据一些示例实施例的无线通信设备和无线通信系统的框图。
[0016]图3示出了基于固定训练序列执行的传统波束训练方案。
[0017]图4示出了作为根据一些示例实施例的执行波束训练的方法的基础的强化学习。
[0018]图5示出了根据一些示例实施例的基于强化学习实现的并且基于自适应训练序列执行的波束训练方案。
[0019]图6是示出了图1的执行波束训练的方法的示例的流程图。
[0020]图7是示出了图6中的更新概率分布的示例的流程图。
[0021]图8是示出了图1中的执行当前训练操作的示例的流程图。
[0022]图9是示出了图1中的选择当前波束的示例的流程图。
[0023]图10、图11A、图11B和图12是用于描述图6的执行波束训练的方法的图。
[0024]图13示出了传统波束训练方案中的固定训练序列的示例。
[0025]图14、图15A、图15B和图15C示出了根据一些示例实施例的波束训练方案中的自适应训练序列的示例。
[0026]图16是示出了图1的执行波束训练的方法的另一示例的流程图。
[0027]图17和图18是示出了根据一些示例实施例的包括在无线通信设备中的波束控制器的示例的框图。
[0028]图19是示出了根据一些示例实施例的网络环境中的电子设备的框图。
具体实施方式
[0029]将参考其中示出了一些示例实施例的附图更全面地描述各个示例实施例。然而,本公开可以以许多不同的形式来具体实现,而不应被解释为受限于本文所阐述的示例实施例。贯穿本申请,相同的附图标记指代相同的元件。
[0030]图1是示出了根据一些示例实施例的执行波束训练的方法的流程本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种执行波束训练的方法,所述方法包括:获得用于选择用于执行波束成形的多个波束中的一个波束的概率分布和值函数中的至少一个;基于所述概率分布和所述值函数中的所述至少一个从所述多个波束中选择候选波束,所述候选波束预期是所述多个波束中的最佳波束;基于所述候选波束和由至少一个先前训练操作选择的先前波束执行当前训练操作;以及基于所述当前训练操作的结果选择所述候选波束和所述先前波束中较好的一个作为当前波束。2.根据权利要求1所述的方法,还包括:基于在所述至少一个先前训练操作中选择至少一个先前候选波束的动作和与所述至少一个先前训练操作的结果相对应的奖励来确定在所述当前训练操作中选择所述候选波束的策略。3.根据权利要求1所述的方法,还包括:使用基于用于探索和开发的指数权重算法EXP3的对抗性强盗模型来确定选择所述候选波束的策略,其中,所述选择基于所述概率分布来选择所述候选波束。4.根据权利要求3所述的方法,其中,所述概率分布由等式1定义如下:[等式1]其中,p
k
(t)表示所述多个波束中的第k波束的概率分布,k表示大于或等于1且小于或等于K的整数,K表示所述多个波束的数量,表示到t轮为止所述第k波束的累积奖励的估计值,γ表示用于调整所述探索和所述开发之间的比率的参数,并且ρ>0表示训练率。5.根据权利要求3所述的方法,还包括:更新所述概率分布。6.根据权利要求5所述的方法,其中,所述更新包括:更新所述当前波束的第一奖励;更新与所述当前波束相邻的相邻波束的第二奖励;以及基于更新的第一奖励和更新的第二奖励来更新累积奖励。7.根据权利要求6所述的方法,其中,所述第一奖励和所述第二奖励分别基于等式2和等式3获得,如下所示:[等式2]
[等式3]且其中,在等式2中,表示所述第一奖励,p
k
(t)表示所述当前波束的概率分布,k表示大于或等于1且小于或等于K的整数,K表示所述多个波束的数量,α>0和β>0中的每一个表示训练率,SINR
k
表示信干噪比,并且τ表示执行标准,并且在等式3中,和表示所述第二奖励,并且w1和w2表示用于更新所述第二奖励的权重。8.根据权利要求3所述的方法,还包括:基于优先训练与所述当前波束相邻的相邻波束的不平等机会方案,确定包括所述至少一个先前训练操作和所述当前训练操作的训练序列。9.根据权利要求8所述的方法,其中,响应于所述当前波束与变化点相对应,所述确定训练序列的操作基于自适应不平等机会方案确定所述训练序列,在所述自适应不平等机会方案中,首先执行探索,并且在完成所述探索之后执行开发。10.根据权利要求9所述的方法,还包括:基于所述当前波束的参考信号接收功率RSRP和所述先前波束的RSRP确定所述当前波束是否对应于所述变化点。11.根据权利要求10所述的方法,其中,所述确定所述当前波束是否对应于所述变化点的操作是使用与所述当前波束相邻的所述相邻波束中的每个的RSRP附加地执行的。12.根据权利要求1所述的方法,还包括:使用基于置信上限UCB算法的统计强盗模型来确定选择所述候选波束的策略;以及所述选择基于与所述值函数相对应的置信上限指数来选择所述候选波束。13.根据权利要求12所述的方法,其中,所述置信上限指数由等式4定义如下:[等式4]其中,UCB
k
(t)表示所述多个波束中的第k波束的置信...

【专利技术属性】
技术研发人员:李俊镐金在仁文钟建李赫渊崔胜镇诸喜元崔振元
申请(专利权)人:三星电子株式会社
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1