【技术实现步骤摘要】
本公开涉及无线通信,尤其涉及一种基于元深度强化学习的跳频干扰资源分配方法。
技术介绍
1、在无线通信
,无线传感器网络广泛应用于军事通信领域中,随着扩频通信技术的发展,跳频扩频(frequency hopping spread spectrum,fhss)通信成为了提升无线传感器网络抗干扰能力的重要手段。而作为干扰方,通常采用部分频带噪声干扰(partial-band noisejamming,pbnj)的方式来降低跳频通信系统的使用效能,例如,可通过合理地设置多个不重叠的干扰频带来提升干扰资源的利用率,扩大干扰频段,以增加覆盖不同用户信道的可能性,其中,对于跳频扩频通信的干扰资源分配本质上是组合优化问题。
2、相关技术中,解决组合优化问题的方法一般包括精确类方法、近似类方法和启发式方法。但随着人工智能的快速发展,涌现出了基于学习的方法来解决组合优化问题,例如,将深度强化学习技术应用于移动边缘计算服务的资源优化、信道分配、无线通信网络中的功率调度。
3、关于上述技术方案,专利技术人发现至少存在如下一些技术问
...【技术保护点】
1.一种基于元深度强化学习的跳频干扰资源分配方法,其特征在于,包括:
2.根据权利要求1所述的基于元深度强化学习的跳频干扰资源分配方法,其特征在于,在所述任务自适应阶段,对所述初始策略网络的参数进行更新,并利用TRPO算法计算各干扰任务的损失函数,包括以下步骤:
3.根据权利要求2所述的基于元深度强化学习的跳频干扰资源分配方法,其特征在于,所述利用MAML算法对所述初始策略网络进行训练,包括以下步骤:
4.根据权利要求3所述的基于元深度强化学习的跳频干扰资源分配方法,其特征在于,所述利用TRPO算法计算所述特定干扰任务的损失函数,包
...【技术特征摘要】
1.一种基于元深度强化学习的跳频干扰资源分配方法,其特征在于,包括:
2.根据权利要求1所述的基于元深度强化学习的跳频干扰资源分配方法,其特征在于,在所述任务自适应阶段,对所述初始策略网络的参数进行更新,并利用trpo算法计算各干扰任务的损失函数,包括以下步骤:
3.根据权利要求2所述的基于元深度强化学习的跳频干扰资源分配方法,其特征在于,所述利用maml算法对所述初始策略网络进行训练,包括以下步骤:
4.根据权利要求3所述的基于元深度强化学习的跳频干扰资源分配方法,其特征在于,所述利用trpo算法计算所述特定干扰任务的损失函数,包括以下步骤:
5.根据权利要求2所述的基于元深度强化学习的跳频干扰资源分配方法,其特征在于,在所述元自...
【专利技术属性】
技术研发人员:许华,饶宁,齐子森,蒋磊,彭翔,
申请(专利权)人:中国人民解放军空军工程大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。