基于无人机辅助节点的边缘网络计算资源动态优化方法技术

技术编号:33450302 阅读:29 留言:0更新日期:2022-05-19 00:34
本发明专利技术请求保护一种基于无人机辅助节点的边缘网络计算资源动态优化方法,属于通信技术领域。针对边缘网络小区因局部用户业务量突发,导致服务器计算资源紧张,任务卸载质量恶化的问题,提出一种基于无人机辅助节点自适应巡航的计算资源动态优化方法。根据地面用户的位置分布和任务卸载需求,采用深度强化学习方法动态规划无人机巡航轨迹,通过任务卸载调度策略最大化巡航过程中无人机节点和基站节点的服务器资源利用率,从而有效减少局部用户的任务中断率,并降低平均任务卸载时延。并降低平均任务卸载时延。并降低平均任务卸载时延。

【技术实现步骤摘要】
基于无人机辅助节点的边缘网络计算资源动态优化方法


[0001]本专利技术属于通信
,具体涉及一种基于无人机辅助节点的边缘网络计算资源动态优化方法。

技术介绍

[0002]随着移动网络的普及和发展,增强现实、虚拟现实和自动驾驶等新型应用不断涌现,极大的丰富了人们的日常生活。然而,这些应用通常对时延要求较高,也需要消耗大量的计算资源,移动终端对此类应用难以实现快速有效的处理。移动边缘计算通过将云端资源下沉到边缘网络,能够近距离地为用户提供任务卸载所需的计算资源,有效缩短用户与云服务器之间的传输时延。
[0003]然而,地面用户分布的快速变化和局部区域用户的随机性业务突发可能对边缘网络的固定服务器资源造成巨大的压力,导致计算资源利用率低下,用户服务体验恶化的情况。因此,利用低空无人机作为边缘计算网络的辅助节点,为地面节点提供灵活的资源补充,将成为未来网络建设与发展的一种重要模式。
[0004]本专利技术针对边缘网络小区因局部用户业务量突发,导致服务器计算资源紧张,任务卸载质量恶化的问题,提出一种基于无人机辅助节点自适应巡航的计算本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于无人机辅助节点的边缘网络计算资源动态优化方法,其特征在于,包括以下步骤:101、根据马尔科夫决策过程构造离散时间

状态模型,包括将无人机巡航时间离散为时隙,设立时隙变量k、地空网络状态向量s
k
、无人机三维动作向量a
k
、无人机动作奖励函数r
k
,其中,s
k
,a
k
,r
k
随时隙数k的增加作相应的转移和变化,初始化时隙变量k=0;102、将无人机控制器作为智能体,基于双延时深度确定性策略梯度算法思想构建深度强化学习模型,包括建立系统环境采集器、无人机动作策略网络π、无人机状态

动作值网络Q,任务调度策略发生器、无人机动作奖励发生器、经验样本存储区E,随机样本集Mini

Batch;103、令k=k+1,如果无人机在连续n个时隙内未发生三维坐标位置变化,跳转到步骤106,否则,根据无人机j的有效覆盖范围确定无人机j的用户对象集I
j
,基站o的用户对象集I
o
=I

I
j
,其中,I表示全体用户对象集,通过任务调度策略发生器,获得I
j
与I
o
的任务卸载决策变量集和跳转到步骤104;104、根据和执行用户i的任务卸载请求,通过无人机动作奖励发生器获得相应的奖励值r
k
,通过无人机动作策略网络π获得k时隙无人机三维动作向量a
k
,由k时隙地空网络状态向量s
k
与动作向量a
k
计算获得s
k+1
,将[s
k
,a
k
,r
k
,s
k+1
]存入经验样本存储区E;105、从经验样本存储区E中随机抽样获得Mini

Batch样本集,并将Mini

Batch样本集分别导入动作策略网络π与状态

动作值网络Q进行训练,跳转到步骤103;106、算法结束。2.根据权利要求1所述的一种基于无人机辅助节点的边缘网络计算资源动态优化方法,其特征在于,所述步骤101中根据马尔科夫决策过程构造离散时间

状态模型,其中,k时隙的地空网络状态向量s
k
、无人机三维动作向量a
k
、无人机动作奖励函数r
k
,分别如公式(1)、(2)、(3)所示:(1)、(2)、(3)所示:(1)、(2)、(3)所示:公式(1)中,表示无人机j在k时隙的三维坐标位置,表示用户i在k时隙的二维坐标位置;公式(2)中,表示无人机j在k时隙的水平运动方向,表示无人机j在k时隙的垂直运动距离;公式(3)中,ω表示无人机动作奖励函数权重因子,ω∈(0,1),Δt表示时隙大小,表示k时隙用户i的平均单位任务时延,如公式(4)所示,表示k时隙用户i的平均单位任务时延满足平均单位任务容忍时延τ
i
,否则为如公式(5)所示:
公式(4)中,表示用户i与无人机j的连接状态,若用户i在k时隙将任务卸载到无人机j执行,则否则表示用户i与基站o的连接状态,若用户i在k时隙将任务卸载到基站o执行,则否则用户i在k时隙最多只能与一架无人机或基站相连接,即一架无人机或基站相连接,即表示用户i在k时隙卸载到无人机j的任务量,表示用户i在k时隙卸载到基站o的任务量,τ
i
表示用户i平均单位任务容忍时延。3.根据权利要求1所述的一种基于无人机辅助节点的边缘网络计算资源动态优化方法,其特征在于,所述步骤102基于双延时深度确定性策略梯度算法思想构建深度强化学习模型,包括建立系统环境采集器、无人机动作策略网络π、无人机状态

动作值网络Q,任务调度策略发生器、无人机动作奖励发生器、经验样本存储区E,随机样本集Mini

Batch,具体包括:系统环境采集器用于采集k时隙地空网络中地面用户二维坐标位置用户任务卸载请求、无人机三维坐标位置和无人机剩余可用计算资源;无人机动作策略网络π生成k时隙地空网络状态s
k
下无人机的三维动作向量a
k
;无人机状态

动作值网络Q生成k时隙地空网络状态s
k
下执行无人机三维动作向量a
k
的动作评估值q;任务调度策略发生器用于生成k时隙用户卸载策略,获得任务卸载决策变量集和无人机动作奖励发生器在完成k时隙内的卸载任务后生成无人机j在k时隙的动作奖励值r
k
;无人机执行a
k
动作后地空网络状态由s
k
转移到s
k+1
;经验样本存储区E中增加k时隙经验样本[s
k
,a
k
,r
k
,s
k+1
];随机样本集Mini

Batch由经验样本存储区E随机抽取固定数量样本组成。其中,无人机动作策略网络π、无人机状态

动作值网络Q均为神经网络,分别包含若干层隐藏层,每...

【专利技术属性】
技术研发人员:鲍宁海高鹏雷陈奎
申请(专利权)人:重庆邮电大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1