当前位置: 首页 > 专利查询>东南大学专利>正文

基于深度强化学习的毫米波混合波束成形设计方法技术

技术编号:24215055 阅读:38 留言:0更新日期:2020-05-20 18:42
本发明专利技术公开了一种基于深度强化学习的毫米波混合波束成形设计方法,该方法中基站利用获取的用户信道状态信息,通过计算互相关得到用户的模拟预编码矩阵;构建一个用于联合优化用户数字预编码矩阵和模拟合并矩阵的深度强化学习智能体,将用户信道信息及模拟预编码矩阵输入智能体,输出相应的数字预编码矩阵和模拟合并矩阵;基于最小均方误差准则计算用户的数字合并矩阵;本发明专利技术给出的基于深度强化学习的毫米波混合波束成形设计方法收敛速度快,具有较好的鲁棒性,能有效提高系统频谱效率。

Design method of MMW hybrid beamforming based on deep reinforcement learning

【技术实现步骤摘要】
基于深度强化学习的毫米波混合波束成形设计方法
本专利技术涉及一种基于深度强化学习的毫米波混合波束成形设计方法,属于基站配置均匀线性天线阵的点对点MIMO下行系统自适应传输

技术介绍
毫米波通信作为一种可以提高网络传输速率和缓解频谱资源短缺问题的有效方法被视作新一代无线通信网络的关键技术之一。结合大规模多输入多输出(MIMO)的毫米波通信系统能充分利用空间资源,通过多个天线实现多发多收,在不增加频谱资源和天线发射功率的情况下,成倍的提高系统信道容量,同时有效解决毫米波系穿透力弱,衰减快等问题。然而,在实际应用中,大规模MIMO毫米波无线通信仍面临着诸多挑战。毫米波系统中波束成形矩阵的设计受到昂贵的射频硬件的约束。传统的全数字波束成形结构需要为每一根发射天线和接收天线配备一个射频链路用于模数转换和上下变频,结合大规模MIMO之后,所需射频链路数极大,导致系统复杂度不可接受。已有的混合预编码技术将全数字预编码拆分为高维的模拟预编码和低维的数字预编码,模拟预编码可由简单的相移器实现,数字预编码维数较低,仅使用很少的射频链路即可,可在一定程度上缓解这一问题。但现存混合预编码技术主要基于压缩感知技术和高发射信噪比的假设,将原始系统速率最大问题转化为矩阵间欧氏距离最小问题,导致局部最优解;且算法的时间复杂度较高,会引入较大的通信处理时延,因此需要有新的低复杂度和高性能混合波束成形算法来进一步解决这些问题。现有针对低复杂度毫米波混合预编码算法的研究主要基于对矩阵求逆运算的简化或使用深度监督学习方法。虽然应用这些方法之后时间复杂度有一定下降,但牺牲了一定的系统性能。深度监督学习方法对训练数据量有很高的要求,且对信道衰落变化很敏感,对于穿透力弱,衰减快的毫米波信道来说,实际应用仍有困难。
技术实现思路
本专利技术的目的是为了克服现有技术中存在的不足,本专利技术为基站配置均匀线性天线阵,利用深度强化学习进行毫米波混合波束成形矩阵的设计和自适应传输,基于深度强化学习智能体无需对环境建模的特性和深度神经网络强大的解决非线性优化问题的能力,能够有效抑制干扰,并能以较低的计算复杂度获取较高的系统频谱效率和较低的接收误比特率,且对信道衰落变化具有很好的鲁邦性。为达到上述目的,本专利技术采用的方法是:一种基于深度强化学习的毫米波混合波束成形设计方法,包括以下步骤:步骤一、t=0时刻,基站配置Nt个天线单元的均匀线性天线阵列,发送Ns路独立数据流,用户侧配备Nr个天线单元的均匀线性天线阵列;基站与用户侧分别配备和个射频链路;基站已知其与用户间的信道矩阵其中Ncl为散射簇数目,Nray为每个散射簇的散射与反射径数,αij为第i簇中第j径的路径增益,归一化发射端信道响应向量归一化接收端信道响应向量d为天线阵元间距,λ为载波波长,和分别为第i簇中第j径信号的出发角和到达角;计算发射端信道响应矩阵与信道右酉矩阵的互相关矩阵T=ΩΩH,其中Vopt=SVDright(H),SVDright(·)表示求矩阵奇异值分解后的右酉矩阵,并从互相关矩阵T的对角元T(i,i),i=1,2,…,NclNray,中选出最大的前Ns个对角元,选出的下标集合记作选择中索引属于τ的Ns个列向量组成发射端模拟预编码矩阵VRF;随机初始化由神经网络构成的深度强化学习智能体X,用于学习数字预编码矩阵VBB和模拟合并矩阵WRF;随机初始化数字预编码矩阵VBB、模拟合并矩阵WRF和数字合并矩阵WBB,令t=t+1。所述深度强化学习智能体包括以下元素:动作输出现实网络A,根据来自环境的状态产生当前最优的动作;动作输出目标网络其参数复制自动作现实网络A,每隔NT个时隙更新一次;状态动作评价现实网络C,输出对当前的状态动作的价值函数;状态动作评价目标网络其参数复制自评价现实网络C,每隔NT个时隙更新一次;容量为ND的经验池D,用于存储智能体学习过程中产生的样本。步骤二、在时刻t,智能体X执行如下操作:智能体X的状态其中为前一时刻的数字预编码矩阵,为前一时刻的模拟合并矩阵,Re(·),Im(·)分别表示取实部和虚部,vec(·)表示将矩阵转换为列向量;将状态s(t)输入智能体X的动作现实网络A,输出为其中将A(s(t))与服从标准正态分布的噪声相加得到智能体的动作a(t)=A(s(t))+n(t),将向量a(t)的前个元素作为当前时刻数字预编码矩阵的实部和虚部,将a(t)的后个元素作为当前时刻模拟合并矩阵的实部和虚部,并对中所有元素做模归一化处理其中表示矩阵中的第(i,j)个元素。步骤三、基站利用最小均方误差准则更新数字合并矩阵其中为用户端噪声方差;然后按照下式计算此时的系统频谱效率其中ρ为平均发射功率,智能体X的奖励函数r(t)=R(t),并得到下一时刻状态并将四元组<s(t),a(t),r(t),s(t+1)>作为一个样本元组存入经验池D中。步骤四、智能体X将状态-动作对(s(t),a(t))输入其评价现实网络C中,输出对(s(t),a(t))的评价值QC(s(t),a(t)),随后从经验池中以批尺寸N进行随机采样来计算评价网络的目标值;然后对动作网络和评价网络进行梯度下降更新,并对动作目标网络和评价目标网络进行软更新,令t=t+1,若|R(t)-R(t-1)|≤0.0001或t>10N,则停止迭代,否则转到步骤二。所述随机采样与网络更新方法按如下步骤进行:a1)判断t,如果t≥N,从经验池D中随机采样N个样本d=[d1,d2,…,dN],其中每个样本为经验池中存储的第ki个时刻的样本四元组,且当经验池存满后,每次加入最新的样本,去掉最旧的样本;否则不采样,转到步骤二继续产生并存储样本;a2)将d中所有样本的状态-动作对输入评价目标网络得到该状态-动作对的价值函数估计值按照贝尔曼方程计算得到价值函数目标值其中γ∈(0,1)为奖励函数的折扣因子,为由动作目标网络根据产生的动作;a3)计算d中N个样本均方误差作为评价现实网络C的损失函数:其中θC为评价现实网络C的参数;a4)损失函数中同时涉及到动作现实网络A和评价现实网络C的更新,记网络A的参数为θA,更新的目标是让评价现实网络C的输出与目标值尽可能接近,利用随机梯度下降对两个网络进行更新:其中J(θC)为用N个样本d表示的网络C的累计价值函数。a5)每个时隙对动作目标网络和评价目标网络的参数和进行软更新:其中,和表示动作目标网络和评价目标网络的参数,θA和θC表示动作现实网络和目标现实网络的参数。通过软更新,让目标网络的输出缓慢变化以缓解过拟合现象,提高智能体学习稳定性。作为本专利技术所述的基于深度强化学习的毫米波混合波束成形设计方法进一步优化方案,所述发射端数字波束成形强化学习智能体由动作现实网络A,动作目标网络评价现实网络C,评价目标网络构成。作为本专利技术所述的基于深度强化学习的毫米波混合波束成形设本文档来自技高网
...

【技术保护点】
1.一种基于深度强化学习的毫米波混合波束成形设计方法,其特征在于,包括以下步骤:/n步骤一、t=0时刻,基站配置N

【技术特征摘要】
1.一种基于深度强化学习的毫米波混合波束成形设计方法,其特征在于,包括以下步骤:
步骤一、t=0时刻,基站配置Nt个天线单元的均匀线性天线阵列,发送Ns路独立数据流,用户侧配备Nr个天线单元的均匀线性天线阵列;基站与用户侧分别配备和个射频链路;基站已知其与用户间的信道矩阵其中Ncl为散射簇数目,Nray为每个散射簇的散射与反射径数,αij为第i簇中第j径的路径增益,归一化发射端信道响应向量归一化接收端信道响应向量d为天线阵元间距,λ为载波波长,和分别为第i簇中第j径信号的出发角和到达角;计算发射端信道响应矩阵与信道右酉矩阵的互相关矩阵T=ΩΩH,其中Vopt=SVDright(H),SVDright(·)表示求矩阵奇异值分解后的右酉矩阵,并从互相关矩阵T的对角元T(i,i),i=1,2,...,NclNray,中选出最大的前Ns个对角元,选出的下标集合记作选择中索引属于τ的Ns个列向量组成发射端模拟预编码矩阵VRF;随机初始化由神经网络构成的深度强化学习智能体X,用于学习数字预编码矩阵VBB和模拟合并矩阵WRF;随机初始化数字预编码矩阵VBB、模拟合并矩阵WRF和数字合并矩阵WBB,令t=t+1;
所述深度强化学习智能体包括以下元素:动作输出现实网络A,根据来自环境的状态产生当前最优的动作;动作输出目标网络其参数复制自动作现实网络A,每隔NT个时隙更新一次;状态动作评价现实网络C,输出对当前的状态动作的价值函数;状态动作评价目标网络其参数复制自评价现实网络C,每隔NT个时隙更新一次;容量为ND的经验池D,用于存储智能体学习过程中产生的样本;
步骤二、在时刻t,智能体X执行如下操作:智能体X的状态



其中为前一时刻的数字预编码矩阵,为前一时刻的模拟合并矩阵,Re(·),Im(·)分别表示取实部和虚部,vec(·)表示将矩阵转换为列向量;将状态s(t)输入智能体X的动作现实网络A,输出为其中将A(s(t))与服从标准正态分布的噪声相加得到智能体的动作a(t)=A(s(t))+n(t),将向量a(t)的前个元素作为当前时刻数字预编码矩阵的实部和虚部,将a(t)的后个元素作为当前时刻模拟合并矩阵的实部和虚部,并将a(t)重排得到当前时刻的数字预编码矩阵和模拟合并矩阵对中所有元素做模归一化处理其中表示矩阵中的第(i,j)个元素;
步骤三、基站利用最小均方误差准则更新数字合并矩阵其中为用户端噪声方差;然后按照下式计算此时的系统频谱效率



其中ρ为平均发射功率,智...

【专利技术属性】
技术研发人员:李潇王琪胜金石
申请(专利权)人:东南大学
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1