一种基于边缘计算和元深度强化学习的多任务路由优化方法技术

技术编号:34717525 阅读:14 留言:0更新日期:2022-08-31 18:01
本发明专利技术属于无线网络通信技术领域,具体涉及一种基于边缘计算和元深度强化学习的多任务路由优化方法,该方法包括:终端设备入网将路由任务发送给控制器;控制器根据路由任务构建子模型,并采用优化的元模型对子模型参数进行更新;终端设备根据子模型参数对本地模型参数进行更新,并获取终端的设备的局部状态信息,采用本地模型对局部状态信息进行处理,得到对应的动作;终端设备根据得到的动作与环境进行交互,得到经验信息;控制器计算经验信息的引导奖励值,并对经验信息进行更新;根据更新后的经验信息执行路由;本发明专利技术在对元模型参数进行更新过程中,采用GRU优化器来更新元模型参数,避免梯度下降方法中人为配置学习率导致的不适配问题。致的不适配问题。致的不适配问题。

【技术实现步骤摘要】
一种基于边缘计算和元深度强化学习的多任务路由优化方法


[0001]本专利技术属于无线网络通信
,具体涉及一种基于边缘计算和元深度强化学习的多任务路由优化方法。

技术介绍

[0002]无线多跳网络具有成本低廉、快速部署、自组织等特点。其中的无线传感器网络(WSN)已经广泛应用于军事、工业自动化监控、精细农业、环境监测、智能交通、智能家居、医疗卫生、安全防护、建筑物状态监测等诸多领域。随着无线传感网的深入研究及相关产业的蓬勃发展,WSN的网络性能将会进一步提升,同时网络成本将会进一步降低,WSN将会逐渐深入到人类社会、生活中的各个领域。
[0003]WSN的数据通信往往需要多跳通信才能将数据传输到基站,在整个网络范围内如何找到源节点和目的节点之间的最优传输路径,这就需要路由协议进行通信路径的选择和优化。路由协议负责将数据分组从源节点多跳转发到目的节点,由于通信能力、处理能力以及存储能力有限,节点无法维护整个网络的拓扑信息,通常只能获取局部拓扑信息。因此,路由协议要能在仅知道局部网络拓扑信息的基础上选择合适的路径,在保证数据正确转发的同时尽可能的节省整个网络的能量,有些应用还要求路由协议提供服务质量
[0004]目前专利申请号为CN201811292342.X公布了“一种基于强化学习的SDN路由规划方法”,该方法采用Q

learning算法构建基于强化学习的路由决策模型,其中将整个网络的拓扑信息和流量矩阵以及QoS等级作为强化学习路由决策模型的输入并输入相应的最短路径;但是,传统的Q

leaning算法并不适用于大规模网络状态和动作空间情况,且该方法容易造成部分路径负载较高,引起负载不均情况。

技术实现思路

[0005]为解决以上现有技术存在的问题,本专利技术提出了一种基于边缘计算和元深度强化学习的多任务路由优化方法,该方法包括:
[0006]S1:构建基于边缘计算和元深度强化学习网络框架,该网络框架包括集中式控制器和终端设备;
[0007]S2:终端设备入网将路由任务发送给集中式控制器;
[0008]S3:集中式控制器根据路由任务构建子模型,并采用优化的元模型对子模型中的参数进行更新;将更新后的子模型参数发送给终端设备;
[0009]S4:终端设备根据子模型参数对本地模型参数进行更新,并获取终端的设备的局部状态信息,将局部状态信息输入到参数更新后的本地模型中,得到局部状态信息对应的动作;
[0010]S5:终端设备根据得到的动作与环境进行交互,得到经验信息;将经验信息和路由任务ID发送给集中式控制器;
[0011]S6:集中式控制器计算经验信息的引导奖励值,并采用引导奖励值对经验信息进
行更新;根据更新后的经验信息执行路由;
[0012]S7:将更新后的经验信息存储到的经验池中;
[0013]S8:根据更新后的经验池和子模型对元模型进行优化更新。
[0014]优选的,终端设备的路由任务包括路径、数据传输时延、吞吐量、网络生存时间以及数据传输可靠性。
[0015]优选的,采用优化的元模型对子模型中的参数进行更新;其中,为突破终端设备资源限制,基于边缘计算赋能人工智能思路和边缘计算就近实时计算的特性,将深度强化学习模型的训练任务部署在靠近终端的资源丰富的边缘设备上,主要步骤包括:
[0016]步骤1:集中式控制器从经验池中采样mini

batch个样本e
j
=<s
j
,a
j
,r
j
,s

j
>,j=1,2,...,k;其中,s
j
表示当前时刻终端设备执行任务j的局部状态信息,a
j
表示当前时刻执行任务j时局部状态信息对应的动作,r
j
表示执行任务j对应的奖励值,s

j
表示;下一时刻终端设备执行任务j局部状态信息;
[0017]步骤2:根据获取的样本计算Target Q值;其中,Target Q表示深度强化学习模型中策略Main网络的状态

动作值函数值;
[0018]步骤3:根据Target Q值计算均方误差,并采用基于深度网络的梯度反向传播更新Critic main网络参数ω;Critic main表示深度强化学习模型中评估Main网络;
[0019]步骤4:计算J(θ),并采用神经网络的梯度反向传播来更新Actor main策略网络的参数;其中,J(θ)表示Actor main策略网络的损失函数值,θ表示Actor main策略网络参数;Actor main表示深度强化学习模型中策略Main网络。
[0020]步骤5:重复步骤3~步骤4,直到子模型收敛时,输出更新后的子模型参数。
[0021]优选的,所述S5中的经验信息为e=<s,a,r,s

>,其中s表示当前时刻的局部状态信息,a表示当前时刻局部状态信息对应的动作,r表示环境反馈的奖励信息,s

表示下一时刻局部状态信息。
[0022]优选的,计算经验信息的引导奖励值的公式为:
[0023][0024]其中,s表示当前时刻的局部状态信息,a表示当前时刻局部状态信息对应的动作,表示该任务对应的最大奖励值,β表示权重因子,可根据不同场景动态调整,r
i
表示立即奖励值,表示该任务下最低可接受的奖励值。
[0025]优选的,采用引导奖励值对经验信息进行更新包括对经验信息中的环境反馈的奖励信息,其表达式为:
[0026][0027]其中,λ表示权重因子,λ∈[0,1],表示引导型奖励函数值。
[0028]优选的,根据更新后的经验池和子模型对元模型进行优化更新的过程包括:
[0029]步骤1:初始化元模型的参数和GRU优化器的参数
[0030]步骤2:从更新后的经验池中随机采样,得到一个batch,并将该数据作为训练数据;
[0031]步骤3:根据当前时刻的子模型的优化参数计算元模型的损失函数值,并根据损失函数值计算此时元模型参数θ
t
的梯度
[0032]步骤4:将梯度和GRU优化器前一时刻的隐藏层信息作为当前时刻GRU优化器的输入,得到θ
t
的更新梯度g
t

[0033]步骤5:采用更新梯度g
t
对元模型参数θ进行更新;
[0034]步骤6:采用损失函数更新GRU优化器的参数
[0035]进一步的,采用更新梯度g
t
对元模型参数θ进行更新的公式为:
[0036][0037]其中,θ
t
表示t时刻的元模型参数,g
t
表示更新梯度,表示元模型参数θ...

【技术保护点】

【技术特征摘要】
1.一种基于边缘计算和元深度强化学习的多任务路由优化方法,其特征在于,包括:S1:构建基于边缘计算和元深度强化学习网络框架,该网络框架包括集中式控制器和终端设备;S2:终端设备入网将路由任务发送给集中式控制器;S3:集中式控制器根据路由任务构建子模型,并采用优化的元模型对子模型中的参数进行更新;将更新后的子模型参数发送给终端设备;S4:终端设备根据子模型参数对本地模型参数进行更新,并获取终端的设备的局部状态信息,将局部状态信息输入到参数更新后的本地模型中,得到局部状态信息对应的动作;S5:终端设备根据得到的动作与环境进行交互,得到经验信息;将经验信息和路由任务ID发送给集中式控制器;S6:集中式控制器计算经验信息的引导奖励值,并采用引导奖励值对经验信息进行更新;根据更新后的经验信息执行路由;S7:将更新后的经验信息存储到的经验池中;S8:根据更新后的经验池和子模型对元模型进行优化更新。2.根据权利要求1所述的一种基于边缘计算和元深度强化学习的多任务路由优化方法,其特征在于,终端设备的路由任务包括路径、数据传输时延、吞吐量、网络生存时间以及数据传输可靠性。3.根据权利要求1所述的一种基于边缘计算和元深度强化学习的多任务路由优化方法,其特征在于,采用优化的元模型对子模型中的参数进行更新的过程包括:步骤1:集中式控制器从经验池中抽取mini

batch样本e
j
=<s
j
,a
j
,r
j
,s

j
>,j=1,2,...,k;其中,s
j
表示当前时刻终端设备执行任务j的局部状态信息,a
j
表示当前时刻执行任务j时局部状态信息对应的动作,r
j
表示执行任务j对应的奖励值,s

j
表示下一时刻终端设备执行任务j局部状态信息,mini

batch表示小批量;步骤2:根据获取的样本计算Target Q值;其中,Target Q表示深度强化学习模型中策略Main网络的状态

动作值函数值;步骤3:根据Target Q值计算均方误差,并采用基于深度网络的梯度反向传播更新Critic main网络参数ω;Critic main表示深度强化学习模型中评估Main网络;步骤4:计算J(θ),并采用神经网络的梯度反向传播来更新Actor main策略网络的参数;其中,J(θ)表示Actor main网络的损失函数,θ表示Actor main策略网络参数,Actor main表示深度强化学习模型中策略Main网络;步骤5:重复步骤3~步骤4,直到子模型收敛时,输出更新后的子模型参数。4.根据权利要求1所述的一种基于边缘计算和元深度强化学习的多任务路由优化方法,其特征在于,所述S5中的经验信息为e=<s,a,r,s

【专利技术属性】
技术研发人员:尚凤军王颖雷建军
申请(专利权)人:重庆邮电大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1