System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种基于分层联邦深度强化学习的无人机通算联合设计方法技术_技高网

一种基于分层联邦深度强化学习的无人机通算联合设计方法技术

技术编号:40871560 阅读:3 留言:0更新日期:2024-04-08 16:38
本发明专利技术公开了一种基于分层联邦深度强化学习的无人机通算联合设计方法,通过联合优化计算卸载决策、计算资源和发射功率,达到最小化客户端无人机平均长期消耗值的目标,即最小化客户端无人机平均长期时延和能耗。客户端无人机通过汤普森采样算法选择卸载动作,若将计算任务卸载到客户端无人机,则通过序贯最小二乘规划算法优化客户无人机的计算资源;若卸载到边缘无人机或云控制平台,则通过序贯最小二乘规划算法优化客户端无人机的发射功率。最后,采用分层联邦学习算法对网络模型参数进行更新,通过聚合分享以加快收敛和保障数据隐私。本发明专利技术提出的联合设计方法能够最小化客户端无人机平均长期消耗值,同时能够降低通信开销且保障了数据安全。

【技术实现步骤摘要】

本专利技术涉及无人机网络领域,是一种对无人机网络通信与计算进行联合优化设计的方法。


技术介绍

1、近年来,在无人机的一些应用场景中,如搜救、视频监控、战场检测等,对态势感知的需求持续增长,越来越多的计算密集型态势感知任务受无人机系统的有限功率和算力的影响。因此,需要开发一种有效的无人机实时态势感知技术。移动边缘计算(mec)可提供低延迟和高能效的传输,将任务从本地迁移到边缘服务器,有效降低了本地设备的长期延迟和能耗。因此,将mec技术引入无人机网络的通信计算(通算)联合设计被认为是一种能有效提高态势感知能力的方法。

2、现有的无人机通算联合设计技术大多采用传统优化算法来求解。然而,这些算法的计算复杂度很高,而且通常不可扩展。与之不同,结合深度学习与强化学习优点的深度强化学习(drl)技术,能使无人机(智能体)与环境交互学习到最佳策略,是解决无人机通算联合设计的有效方法。然而,传统drl算法采用集中式框架,这将导致隐私泄露和较大的通信开销。近年提出的联邦学习(fl)技术中每个智能体先利用各自的私有数据在本地训练模型,然后把训练好的模型传输到中央服务器进行全局聚合,从而保护每个智能体的数据隐私。因此,在drl算法中引入fl的联邦深度强化学习(fdrl)技术可解决其数据安全问题而备受关注。

3、根据服务器类型的不同,联邦深度强化学习可分为基于云的fdrl和基于边缘的fdrl。基于云的fdrl中,客户端与云服务器通信会导致较高开销而降低通信效率。同时,在基于边缘的fdrl中,每台服务器访问的客户端数量有限,这将导致训练效果不佳。而结合这两类联邦学习方式优点的云-边缘-客户端的分层联邦强化学习(hfdrl)框架,具有通信效率高、训练效果好的的优势。

4、考虑如图2所示的基于云-边缘-客户端架构的无人机网络,由多架无人机共同组成联盟并相互协同进行态势感知。每架无人机都配有机载无线电台和mec计算平台,分别用于传输信息和进行态势感知。此外,联盟内客户端无人机与边缘无人机相关联。客户端无人机可选择将计算任务卸载到边缘无人机的mec服务器或卸载到云控制平台。针对该云-边缘-客户端无人机系统,本专利技术提出基于分层联邦汤普森采样双深度q网络与序贯最小二乘规划算法(hf tddqn-s)的通算联合设计方法。其通过联合优化计算任务卸载决策、本地计算资源和发射功率,达到最小化计算任务平均长期消耗值的目标,即最小化客户端无人机平均长期时延和能耗,同时显著减少了通信开销且保障了数据安全。


技术实现思路

1、本专利技术解决的技术问题是如何对云-边缘-客户端无人机网络的通信与计算(通算)进行联合设计,即优化无人机的计算任务卸载、本地计算资源和发射功率。

2、一个基于分层联邦深度强化学习的无人机通算优化设计方法,如图1,包括以下实现步骤:

3、步骤(1):初始化,设定云-边缘-客户端无人机网络的参数,具体包括状态空间sn,卸载动作空间a,云控制平台数量m、边缘无人机数量k、每架边缘无人机连接的客户端无人机数量n,任务大小in,任务长度ln,处理计算任务所需周期数ft,最大客户端无人机计算资源约束fmax,最大发射功率约束pmax,最大传输延迟约束tmax,计算资源初始值fini,发射功率初始值pini。当前qn网络模型参数θn和目标qn′网络模型参数θn′,当前qn网络模型参数θn更新到目标qn′网络的更新频率经验池存储容量h,训练所需样本数h,折扣因子γ,每个卸载动作的贝塔分布beta(αi,β)及其后验分布参数αi=1和β=1,卸载动作选择系数η,延迟比例系数ω1,能量比例系数ω2;

4、这里θn和θn′分别表示随机初始化当前qn网络和目标qn′网络的参数,具体包括当前qn网络和目标qn′网络各自的输入层、隐藏层和输出层的权重和偏置项。

5、步骤(2):构造当前网络qn和目标网络qn′,两个网络的结构是一致的,由输入层、隐藏层和输出层构成,具体结构为输入层中,当前状态作为输入层的输入参数,设置输入层层数、神经元数量和激活函数;隐藏层中,设置隐藏层层数、每个隐藏层的神经元数量和激活函数;输出层中,设置输出层神经元数量、损失函数、激活函数、优化器和学习率;输出值是一个配置好的神经网络模型,该模型包括了设定的神经网络层数、神经元数量、激活函数、损失函数和优化器参数的设置;

6、步骤(3):客户端无人机观测当前环境状态sn,t,并通过来选择卸载动作,表示客户端无人机n在当前状态sn,t下,选择最高qn值对应的动作作为初始卸载动作。其中a表示卸载动作空间,由{计算任务卸载到客户端无人机,计算任务卸载到边缘无人机,计算任务卸载到云控制平台}组成,即a={a0,a1,a2};

7、这里的观测当前环境状态sn,t包括云-边缘-客户端无人机网络的相关参数,具体为卸载任务大小in,t,任务长度ln,t,处理计算任务所需周期数fn,t和最大传输延迟约束tmax,即{in,t,ln,t,fn,t,tmax}。

8、步骤(4):客户端无人机执行卸载动作对计算任务进行卸载;

9、步骤(5):若计算任务卸载到客户端无人机,设置其计算资源初始值fini,采用序贯最小二乘规划(slsqp)算法优化客户端无人机计算资源fn,t,该优化过程要满足最大客户端无人机计算资源约束fmax,保存当前时刻t,客户端无人机进行计算任务卸载的消耗值cn(t),其计算公式如下:

10、

11、式中fn,t为优化变量,代表计算任务卸载到客户端无人机,若选择计算任务卸载到客户端无人机,则设置否则表示当前时刻t下,计算任务卸载到客户端无人机的消耗值,其具体计算公式为和表示计算任务卸载到客户端无人机的延迟和能量。

12、步骤(6):若计算任务卸载到边缘无人机或云控制平台,设置客户端无人机发射功率初始值pini,通过slsqp算法优化客户端无人机发射功率pn,t,该优化过程要满足最大发射功率约束pmax,保存当前时刻t,客户端无人机进行计算任务卸载的消耗值cn(t),其计算公式如下:

13、

14、式中pn,t为优化变量,和分别代表计算任务卸载到边缘无人机和计算任务卸载到云控制平台,若选择计算任务卸载到边缘无人机,则设置和若选择计算任务卸载到云控制平台,则设置和和分别表示当前时刻t下,计算任务卸载到边缘无人机的消耗值和卸载到云控制平台的消耗值,其具体计算公式为式中和表示计算任务卸载到边缘无人机的延迟和能量,和表示计算任务卸载到云控制平台的延迟和能量。

15、步骤(7):优化过程结束会返回关键字success,通过关键字success,来判断优化客户端无人机的计算资源或发射功率是否成功。若success=true,代表优化成功,则保存本次计算任务卸载的奖励值rn,t,其计算公式如下:

16、rn,t=-cn(t)

17、式中cn(t)由步骤(5)或步骤(6)得到,奖励值rn,t与本次计算任务卸本文档来自技高网...

【技术保护点】

1.一种基于分层联邦深度强化学习的无人机通算联合设计方法,其特征在于,该方法包括:

2.根据权利要求1所述的基于分层联邦深度强化学习的无人机通算联合设计方法,其特征在于,所述汤普森采样算法步骤包括:

3.根据权利要求1所述的基于分层联邦深度强化学习的无人机通算联合设计方法,其特征在于,所述分层联邦学习算法步骤包括:

【技术特征摘要】

1.一种基于分层联邦深度强化学习的无人机通算联合设计方法,其特征在于,该方法包括:

2.根据权利要求1所述的基于分层联邦深度强化学习的无人机通算联合设计方法,...

【专利技术属性】
技术研发人员:黎海涛黄嘉伟
申请(专利权)人:北京工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1