基于迁移学习的下行MISO-OFDMA协作传输方法技术

技术编号:33207726 阅读:22 留言:0更新日期:2022-04-24 00:57
本发明专利技术是一种基于迁移学习的下行MISO

【技术实现步骤摘要】
Streaming in UAV

Enabled Wireless Networks:A Safe

DQN Approach(支持无人机的无线网络中的节能安全视频流:一种安全DQN方法)”一文,该文结合可伸缩视频编码(SVC)的最新发展,研究了旋翼无人机无线网络中高能效的节能安全视频流。该文使用安全深度Q网络(SAFE

DQN),通过联合优化视频级别选择、功率分配和无人机的运行轨迹,最大限度地提高长期能效,即视频质量与功耗的比率。但是,该文没有考虑无线网络环境变化的情况。

技术实现思路

[0006]为了解决上述问题,本专利技术提供一种迁移学习的下行MISO

OFDMA系统协作传输方法,该方法通过多智能体DQN(MADQN)来解决波束成形协作和资源分配问题,并提出了一种基于MADQN的迁移学习框架,在新环境下通过利用当前环境下训练好的智能体的知识和新智能体的经验来训练新智能体,从而动态调整波束成形协作和资源分配策略,使所有用户的和速率最大化。
[0007]为了达到上述目的,本专利技术是通过以下技术方案实现的:
[0008]本专利技术是一种基于迁移强化学习的下行MISO

OFDMA系统协作传输方法,包括以下步骤:步骤一,定义下行MISO

OFDMA系统的关键参数;步骤二,利用深度Q网络在当前环境下训练当前智能体,为每个智能体构建一个深度Q网络即为多智能体深度Q网络,解决波束协作和资源分配问题,资源分配包括包含功率分配和子载波分配,波束协作和资源分配框架分成波束协作与功率分配模块和子载波分配模块,针对波束协作与功率分配模块,将第n个小区中的基站与分配到子载波k上的用户m之间的链路视为一个智能体,针对子载波分配模块,将每个基站视为一个智能体,将OFDMA系统视为环境,为每个智能体构建的深度Q网络由训练Q网络和目标Q网络组成。步骤三,以不同的方案改变当前环境,并提出了一种基于MADQN的迁移学习框架,该框架在新环境下通过利用步骤二中训练好的智能体的知识和新智能体的经验来训练新智能体,从而动态调整波束成形协作和资源分配策略,以最大化所有用户的和速率。
[0009]本专利技术的进一步改进在于:利用多智能体深度Q网络在当前OFDMA系统下训练当前每个智能体的具体方法如下:
[0010]步骤2

1:在时隙t中,OFDMA系统将其状态反馈给每个智能体;
[0011]步骤2

2:在所述波束协作与功率分配模块和子载波分配模块中的每个训练Q网络以概率ε分别从每个模块的动作空间中随机选择动作或者以概率1

ε分别由下式(1)和下式(2)选择使训练Q网络的Q函数值最大的动作:
[0012][0013][0014]其中,和分别为波束协作与功率分配模块和子载波分配模块中每个智能体产生的动作,和分别为环境反馈给波束协作与功率分配模块和子载波分配模块中每个智能体的状态,和分别为波束协作与功率分配模块和子载波分配模块中每个智能体的训练Q网络参数,和分别为波束协作与功率分配模块和子载波分配模块的动作空间;
[0015]步骤2

3:对波束协作与功率分配模块所优化的归一化波束形成器和功率的取值范围进行设置并根据上述设置将定义为由波束形成器和功率组成的二维坐标:
[0016][0017]其中,表示第n个小区中的基站与分配到子载波k上的用户m之间的归一化波束形成器的索引值;
[0018]步骤2

4:对子载波分配模块所优化的子载波分配,设置子载波分配矩阵为L=[L1,L2,...,L
N
],其中基于上述设置,将定义为
[0019]步骤2

5:波束协作与功率分配模块和子载波分配模块中的每个智能体执行选择的动作后,从OFDMA系统中获取返回的实时奖励;
[0020]步骤2

6:OFDMA系统相应的在下一个时隙t+1切换到新的状态:波束协作与功率分配模块和子载波分配模块中的智能体通过不断与OFDMA系统交互,从而持续获得实时样本和并将实时样本相应地存储在每个模块的经验池中。
[0021]本专利技术的进一步改进在于:步骤3中在新环境下通过迁移学习框架对新智能体训练具体方法为:在训练过程中,当计算波束协作与功率分配模块和子载波分配模块中每个新DQN单元的目标Q值时,同时考虑了从旧智能体中提取的知识和从新智能体中收集的经验,因此,波束协作与功率分配模块和子载波分配模块中的每个新DQN单元的损失函数分别表示为
[0022][0023][0024]其中
[0025][0026][0027]其中,和Q(
·
)分别表示旧智能体和新智能体,ψ表示在(0,1]范围内取值并在每个时隙t按照ψ

ψ/(1+Θ)的规律逐渐减小的比例因子,其中Θ是衰减因子。这表明随着时间的推移,波束协作与功率分配模块和子载波分配模块中的每个新智能体将越来越多地利用自己的经验进行训练。
[0028]本专利技术的有益效果是:本专利技术适用于OFDMA系统,通过使用基于MADQN的迁移学习框架,完成波束成形协作和资源分配,以最大化所有用户的和速率为目标,可以有效地提升系统性能,加快神经网络的收敛速度,使新智能体更快更有效地适应新的网络环境。
附图说明
[0029]图1是本专利技术实施例中的下行MISO

OFDMA系统的示意图。
[0030]图2是本专利技术实施例中的一种基于迁移强化学习的下行MISO

OFDMA系统协作传输方法的流程图。
[0031]图3是本专利技术实施例中的基于MADQN的迁移学习框架的流程图。
[0032]图4是本专利技术实施例中,当降低基站的最大发射功率时,不同算法下所有用户的和速率随训练步数对比示意图。
[0033]图5是本专利技术实施例中,当增大小区半径时,不同算法下所有用户的和速率随训练步数对比示意图。
[0034]图6是本专利技术实施例中,当减小信道相关系数时,不同算法下所有用户的和速率随训练步数对比示意图。
具体实施方式
[0035]以下将以图式揭露本专利技术的实施方式,为明确说明起见,许多实务上的细节将在以下叙述中一并说明。然而,应了解到,这些实务上的细节不应用以限制本专利技术。
[0036]本专利技术是一种基于迁移学习的下行MISO

OFDMA协作传输方法,该传输方法包括如下步骤:
[0037]步骤一:定义下行MISO

OFDMA系统的关键参数;
[0038]在本实施例中,所述下行MISO

OFDMA系统包含N个小区,每个小区中有一个多天线基站和M个单天线用户,分别定义小区集合与第n个小区中的用户集合为α={1,2,...,N}和β={1,2,...,M}(n∈α)。每个小区中有K个子载波本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于迁移学习的下行MISO

OFDMA协作传输方法,其特征在于:所述传输方法包括如下步骤:步骤1:定义下行MISO

OFDMA系统的关键参数;步骤2:利用深度Q网络在当前环境下训练当前智能体,为每个智能体构建一个深度Q网络即为多智能体深度Q网络,解决波束协作和资源分配问题;步骤3:以不同方案改变当前环境并提出一种迁移学习框架,所述迁移学习框架在新环境下通过步骤2中训练好的智能体的知识和新智能体的经验来训练新智能体;步骤4:动态调整波束成形协作和资源分配策略,以最大化所有用户的和速率。2.根据权利要求1所述基于迁移学习的下行MISO

OFDMA协作传输方法,其特征在于:将步骤2中波束协作和资源分配框架分成波束协作与功率分配模块和子载波分配模块,针对波束协作与功率分配模块,将第n个小区中的基站与分配到子载波k上的用户m之间的链路视为一个智能体,针对子载波分配模块,将每个基站视为一个智能体,将OFDMA系统视为环境,为每个智能体构建的深度Q网络由训练Q网络和目标Q网络组成。3.根据权利要求2所述基于迁移学习的下行MISO

OFDMA协作传输方法,其特征在于:利用多智能体深度Q网络在当前OFDMA系统下训练当前每个智能体的具体方法如下:步骤2

1:在时隙t中,OFDMA系统将其状态反馈给每个智能体;步骤2

2:在所述波束协作与功率分配模块和子载波分配模块中的每个训练Q网络以概率ε分别从每个模块的动作空间中随机选择动作或者以概率1

ε分别由下式(1)和下式(2)选择使训练Q网络的Q函数值最大的动作:选择使训练Q网络的Q函数值最大的动作:其中,和分别为波束协作与功率分配模块和子载波分配模块中每个智能体产生的动作,和分别为环境反馈给波束协作与功率分配模块和子载波分配模块中每个智能体的状态,和分别为波束协作与功率分配模块和子载波分配模块中每个智能体的训练Q网络参数,和分别为波束协作与功率分配模块和子载波分配模块的动作空间;步骤2

3:对波束协作与功率分配模块所优化的归一化波束形成器和功率的取值范围进行设置并根据上述设置将定义为由波束形成器和功率组成的二维坐标:其中,表示第n个小区中的基站与分配到子载波k上的用户m之间的归一化波束形成器的索引值;步骤2

4:对子载波分配模块所优化的子载波分配,设置子载波分配矩阵为L=[L1,L2,...,L
N
],其中基于上述设置,将定义为步骤2

5:波束协作与功率分配模块和子载波分配模块中的每个智能体执行选择的动作后,从OFDMA系统中获取返回的实时奖励;步骤2

6:OFDMA系统相应的在下一个时隙t+1切换到新的状态:波束协作与功率分配模块和子载波分配模块中的智能体通过不断与OFDMA系统交互,从而持续获得实时样本
和并将实时样本相应地存储在每个模块的经验池中。4.根据权利要求3所述基于迁移学习的下行MISO

OFDMA协作传输方法,其特征在于:步骤2

3中,对波束协作与功率分配模块所优化的归一化波束形成器和功率的取值范围设置如下:步骤2
‑3‑
1:设置一个码本F,该码本由F个L维列向量f
c
(c∈{0,1,...,F

1})组成,L是每个基站的天线数;步骤2
‑3‑
...

【专利技术属性】
技术研发人员:徐友云孙高翔王小明蒋锐李大鹏
申请(专利权)人:南京邮电大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1