一种基于元深度强化学习的跳频干扰资源分配方法组成比例

技术编号:42424005 阅读:21 留言:0更新日期:2024-08-16 16:38
本公开实施例是关于一种基于元深度强化学习的跳频干扰资源分配方法,包括:根据通信对抗场景构建跳频干扰资源分配问题;将跳频干扰资源分配问题建模为马尔可夫决策过程;随机初始化元策略得到初始策略网络;基于MAML算法对初始策略网络进行元训练,元训练包括任务自适应阶段和元自适应阶段,其中,在任务自适应阶段,对初始策略网络的参数进行更新,并基于训练结果利用TRPO算法计算各干扰任务的损失函数,在元自适应阶段,最小化所有干扰任务的平均损失并得到优化后的分配策略;根据新的干扰任务对元训练优化后的分配策略进行微调。本公开实施例可以提升分配策略在动态环境中的快速自适应能力,实现对新跳频干扰资源分配任务的快速优化。

【技术实现步骤摘要】

本公开涉及无线通信,尤其涉及一种基于元深度强化学习的跳频干扰资源分配方法


技术介绍

1、在无线通信
,无线传感器网络广泛应用于军事通信领域中,随着扩频通信技术的发展,跳频扩频(frequency hopping spread spectrum,fhss)通信成为了提升无线传感器网络抗干扰能力的重要手段。而作为干扰方,通常采用部分频带噪声干扰(partial-band noisejamming,pbnj)的方式来降低跳频通信系统的使用效能,例如,可通过合理地设置多个不重叠的干扰频带来提升干扰资源的利用率,扩大干扰频段,以增加覆盖不同用户信道的可能性,其中,对于跳频扩频通信的干扰资源分配本质上是组合优化问题。

2、相关技术中,解决组合优化问题的方法一般包括精确类方法、近似类方法和启发式方法。但随着人工智能的快速发展,涌现出了基于学习的方法来解决组合优化问题,例如,将深度强化学习技术应用于移动边缘计算服务的资源优化、信道分配、无线通信网络中的功率调度。

3、关于上述技术方案,专利技术人发现至少存在如下一些技术问题:例如,当用户所使本文档来自技高网...

【技术保护点】

1.一种基于元深度强化学习的跳频干扰资源分配方法,其特征在于,包括:

2.根据权利要求1所述的基于元深度强化学习的跳频干扰资源分配方法,其特征在于,在所述任务自适应阶段,对所述初始策略网络的参数进行更新,并利用TRPO算法计算各干扰任务的损失函数,包括以下步骤:

3.根据权利要求2所述的基于元深度强化学习的跳频干扰资源分配方法,其特征在于,所述利用MAML算法对所述初始策略网络进行训练,包括以下步骤:

4.根据权利要求3所述的基于元深度强化学习的跳频干扰资源分配方法,其特征在于,所述利用TRPO算法计算所述特定干扰任务的损失函数,包括以下步骤:

...

【技术特征摘要】

1.一种基于元深度强化学习的跳频干扰资源分配方法,其特征在于,包括:

2.根据权利要求1所述的基于元深度强化学习的跳频干扰资源分配方法,其特征在于,在所述任务自适应阶段,对所述初始策略网络的参数进行更新,并利用trpo算法计算各干扰任务的损失函数,包括以下步骤:

3.根据权利要求2所述的基于元深度强化学习的跳频干扰资源分配方法,其特征在于,所述利用maml算法对所述初始策略网络进行训练,包括以下步骤:

4.根据权利要求3所述的基于元深度强化学习的跳频干扰资源分配方法,其特征在于,所述利用trpo算法计算所述特定干扰任务的损失函数,包括以下步骤:

5.根据权利要求2所述的基于元深度强化学习的跳频干扰资源分配方法,其特征在于,在所述元自...

【专利技术属性】
技术研发人员:许华饶宁齐子森蒋磊彭翔
申请(专利权)人:中国人民解放军空军工程大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1