当前位置: 首页 > 专利查询>东南大学专利>正文

一种基于强化学习的波束训练方法技术

技术编号:29764179 阅读:87 留言:0更新日期:2021-08-20 21:18
本发明专利技术公开了一种基于强化学习的波束训练方法,包括以下步骤,在初始时隙内,基站搜索整个码本找到最佳波束作为发送波束;初始化强化学习Q值估计网络、目标Q值网络和经验池;在每一个时隙内,通过上一时隙内的波束训练结果得到状态,并输入Q值估计网络,得到动作;在时隙内执行动作,计算奖励值,并根据波束训练结果得到状态;在时隙的剩余时间内传输有效数据,并将交互数据存入经验池;在数据传输的后台训练网络,更新Q值估计网络和目标Q值网络的网络参数。本发明专利技术利用强化学习DQN算法进行波束训练,可以自适应地调整待训练的波束集合,从而极大地减小了波束训练的开销,提升了系统的有效可达速率。

【技术实现步骤摘要】
一种基于强化学习的波束训练方法
本专利技术属于毫米波波束训练
,尤其涉及一种基于强化学习的波束训练方法。
技术介绍
在波束形成技术中,信道状态信息往往起着至关重要的作用。目前提出的大部分波束形成算法通常都依赖于完整的信道状态信息,而这在毫米波通信中是很难获得的。由于毫米波信道的稀疏性,波束训练成为了一种有效的获取信道状态信息的方法,从而可以实现高增益的波束赋形。通常在波束训练过程中,会按照某种性能指标,比如接收信号强度最大化,来进行穷举搜索或自适应搜索,在发射机和接收机端的候选波束集合中选取最优的波束进行通信。然而在毫米波大规模天线阵列系统中,基于穷搜和自适应搜索的波束训练算法具有很大的开销。并且,在实际动态场景中,毫米波信道变化非常快,信道相干时间很短,不足以进行频繁精确的波束训练。为了减小波束训练的开销,可以提取和利用训练历史中的有用信息,以此减小其后训练过程中的波束搜索空间。机器学习的发展促进了这一想法的实现,由此产生了基于机器学习的波束训练算法。现有的基于机器学习的波束训练算法中,有一类是基于监督学习设计的,这需要提前收集大量的训练样本。然而收集训练样本的成本往往很高,在动态变化的复杂环境中甚至是无法完成的。并且当场景变化时就需要重新收集新的样本。另一类是基于多臂老虎机模型的波束训练算法,这是一种轻量级的强化学习方法,提取和利用有效历史信息的能力较为有限。因此,需要更高效的智能算法来更好地从环境中学习并且利用提取的信息。
技术实现思路
本专利技术目的在于提供一种基于强化学习的波束训练方法,以解决波束训练的开销大,需要事先收集训练样本,需要动态信道建模的先验知识,不能自适应地调整待训练的波束集合的技术问题。为解决上述技术问题,本专利技术的具体技术方案如下:一种基于强化学习的波束训练方法,包括以下步骤:步骤1、在初始时隙内,基站搜索整个码本C找到波束作为发送波束;步骤2、初始化强化学习Q值估计网络、目标Q值网络和经验池D;步骤3、在每一个时隙t内,通过上一时隙t-1内的波束训练结果得到时隙t的状态信息st,并将st输入Q值估计网络,得到动作价值估计值,选取价值最大的动作at;步骤4、在时隙t内执行动作at,计算奖励值rt,并根据波束训练结果得到下一时隙t+1的状态信息st+1;步骤5、在时隙t的剩余时间内传输有效数据,并将交互数据(st,at,rt,st+1)存入经验池;步骤6、在数据传输的后台训练网络,更新Q值估计网络和目标Q值网络的网络参数。2、根据权利要求1所述的基于强化学习的波束训练方法,其特征在于,所述步骤1还包括以下步骤:步骤1.1、通过对波束空间的均匀采样来构建码本:其中,fi表示每一个波束,M为码本的大小;a(·)代表天线阵列响应向量;a(·)的形式为:其中,Nt为发射天线数量,λ和d分别表示信号的波长和天线单元的间距;步骤1.2、测量码本中每一个波束对应的接收信号强度,选择接收信号强度最大的波束作为发送波束。3、根据权利要求2所述的基于强化学习的波束训练方法,其特征在于,所述步骤2还包括以下步骤:步骤2.1,构建强化学习Q值估计网络,包括一个输入层、四个全连接层和一个输出层,初始化Q值估计网络的参数θ;步骤2.2,构建强化学习目标Q值网络,结构与Q值估计网络相同,初始化目标Q值网络的参数θ′=θ。4、根据权利要求3所述的基于强化学习的波束训练方法,其特征在于,所述步骤4还包括以下步骤:步骤4.1、在时隙t内执行动作at;at是一个二元组,at=(ai,bi);在时隙t内用于波束训练的波束集合为:其中,fc为上一时隙内的最佳波束;步骤4.2,在时隙t内利用波束集合中的波束进行波束训练,测量每一个波束对应的接收信号强度,并估计出等效信道向量其中,hH为信道向量,f1,...,fM代表码本中M个波束;将中的每个元素取模得到向量It,其中:It(i)和表示向量It和的第i个元素,将连续三个时隙内的It进行拼接得到状态st+1=[It-2,It-1,It];步骤4.3,计算动作at的奖励值rt=(1-biT0/TS)log2(1+P|hHfk|2),其中,bi为时隙t内用于波束训练的波束个数,T0为传输一个波束需要的时间,TS为一个时隙的总时长,P为基站的发射功率,fk为时隙t内的最佳波束。5、根据权利要求4所述的基于强化学习的波束训练方法,其特征在于,所述步骤6还包括:步骤6.1、在经验池D中抽取交互数据,计算损失函数为:其中,Q(st,at)代表输入状态信息st时,Q值估计网络输出的动作at的价值估计值,代表输入状态信息st+1时,目标Q值网络输出的最大的动作价值估计值,γ为衰减因子,rt为动作at的奖励值,利用梯度下降法更新Q值估计网络的参数θ;步骤6.2、延迟更新目标Q值网络的参数θ′=θ。本专利技术的一种基于强化学习的波束训练方法,具有以下优点:本专利技术将波束训练问题建立为一个马尔可夫决策过程,利用强化学习DQN算法进行波束训练,不需要事先收集训练样本,不需要动态信道建模的先验知识,可以适用于各种复杂动态的场景,可以感知环境中的动态变化信息,自适应地调整待训练的波束集合,从而极大地减小了波束训练的开销,提升了系统的有效可达速率。附图说明图1为本专利技术的基于强化学习的波束训练方法的整体流程示意图;图2为本专利技术的Q值估计网络和目标Q值网络的结构示意图;具体实施方式为了更好地了解本专利技术的目的、结构及功能,下面结合附图,对本专利技术一种基于强化学习的波束训练方法做进一步详细的描述。如图1所示,为本专利技术提出的一种基于强化学习的波束训练方法的整体流程示意图,该方法具体包括以下步骤:步骤1、在初始时隙内,基站搜索整个码本找到最佳波束作为发送波束;具体的,步骤1还包括:步骤1.1、通过对波束空间的均匀采样来构建码本:其中,fi表示每一个波束,M为码本的大小。a(·)代表天线阵列响应向量,对于均匀线阵,a(·)的形式为:其中,Nt为发射天线数量,λ和d分别表示信号的波长和天线单元的间距;步骤1.2、测量码本中每一个波束对应的接收信号强度,选择接收信号强度最大的波束作为发送波束。步骤2、初始化强化学习Q值估计网络、目标Q值网络和经验池D;具体的,步骤2还包括:步骤2.1、构建强化学习Q值估计网络,包括一个输入层、四个全连接层和一个输出层,随机初始化Q值估计网络的参数θ;步骤2.2、构建强化学习目标Q值网络,结构与Q值估计网络相同,随机初始化目标Q值网络的参数θ′=θ。进一步的,参照图2的示意,为本实施例中Q值估计网络和目标Q值网络的结构示意图,状态信息输入Q值估计网络后,依次通过第一个全连本文档来自技高网...

【技术保护点】
1.一种基于强化学习的波束训练方法,其特征在于,包括以下步骤:/n步骤1、在初始时隙内,基站搜索整个码本C找到波束作为发送波束;/n步骤2、初始化强化学习Q值估计网络、目标Q值网络和经验池D;/n步骤3、在每一个时隙t内,通过上一时隙t-1内的波束训练结果得到时隙t的状态信息s

【技术特征摘要】
1.一种基于强化学习的波束训练方法,其特征在于,包括以下步骤:
步骤1、在初始时隙内,基站搜索整个码本C找到波束作为发送波束;
步骤2、初始化强化学习Q值估计网络、目标Q值网络和经验池D;
步骤3、在每一个时隙t内,通过上一时隙t-1内的波束训练结果得到时隙t的状态信息st,并将st输入Q值估计网络,得到动作价值估计值,选取价值最大的动作at;
步骤4、在时隙t内执行动作at,计算奖励值rt,并根据波束训练结果得到下一时隙t+1的状态信息st+1;
步骤5、在时隙t的剩余时间内传输有效数据,并将交互数据(st,at,rt,st+1)存入经验池;
步骤6、在数据传输的后台训练网络,更新Q值估计网络和目标Q值网络的网络参数。


2.根据权利要求1所述的基于强化学习的波束训练方法,其特征在于,所述步骤1还包括以下步骤:
步骤1.1、通过对波束空间的均匀采样来构建码本:



其中,fi表示每一个波束,M为码本的大小;a(·)代表天线阵列响应向量;
a(·)的形式为:



其中,Nt为发射天线数量,λ和d分别表示信号的波长和天线单元的间距;
步骤1.2、测量码本中每一个波束对应的接收信号强度,选择接收信号强度最大的波束作为发送波束。


3.根据权利要求2所述的基于强化学习的波束训练方法,其特征在于,所述步骤2还包括以下步骤:
步骤2.1,构建强化学习Q值估计网络,包括一个输入层、四个全连接层和一个输出层,初始化Q值估计网络的参数θ;
步骤2.2,构建强化学习目标Q值网络,结构与Q...

【专利技术属性】
技术研发人员:杨绿溪张天怡徐佩钦周京鹏俞菲徐琴珍
申请(专利权)人:东南大学
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1