一种基于边缘计算和元深度强化学习的多任务路由优化方法技术

技术编号：34717525 阅读：14 留言：0更新日期：2022-08-31 18:01

本发明专利技术属于无线网络通信技术领域，具体涉及一种基于边缘计算和元深度强化学习的多任务路由优化方法，该方法包括：终端设备入网将路由任务发送给控制器；控制器根据路由任务构建子模型，并采用优化的元模型对子模型参数进行更新；终端设备根据子模型参数对本地模型参数进行更新，并获取终端的设备的局部状态信息，采用本地模型对局部状态信息进行处理，得到对应的动作；终端设备根据得到的动作与环境进行交互，得到经验信息；控制器计算经验信息的引导奖励值，并对经验信息进行更新；根据更新后的经验信息执行路由；本发明专利技术在对元模型参数进行更新过程中，采用GRU优化器来更新元模型参数，避免梯度下降方法中人为配置学习率导致的不适配问题。致的不适配问题。致的不适配问题。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于边缘计算和元深度强化学习的多任务路由优化方法

[0001]本专利技术属于无线网络通信
，具体涉及一种基于边缘计算和元深度强化学习的多任务路由优化方法。

技术介绍

[0002]无线多跳网络具有成本低廉、快速部署、自组织等特点。其中的无线传感器网络(WSN)已经广泛应用于军事、工业自动化监控、精细农业、环境监测、智能交通、智能家居、医疗卫生、安全防护、建筑物状态监测等诸多领域。随着无线传感网的深入研究及相关产业的蓬勃发展，WSN的网络性能将会进一步提升，同时网络成本将会进一步降低，WSN将会逐渐深入到人类社会、生活中的各个领域。
[0003]WSN的数据通信往往需要多跳通信才能将数据传输到基站，在整个网络范围内如何找到源节点和目的节点之间的最优传输路径，这就需要路由协议进行通信路径的选择和优化。路由协议负责将数据分组从源节点多跳转发到目的节点，由于通信能力、处理能力以及存储能力有限，节点无法维护整个网络的拓扑信息，通常只能获取局部拓扑信息。因此，路由协议要能在仅知道局部网络拓扑信息的基础上选择合适的路径，在保证数据正确转发的同时尽可能的节省整个网络的能量，有些应用还要求路由协议提供服务质量
[0004]目前专利申请号为CN201811292342.X公布了“一种基于强化学习的SDN路由规划方法”，该方法采用Q
‑
learning算法构建基于强化学习的路由决策模型，其中将整个网络的拓扑信息和流量矩阵以及QoS等级作为强化学习路由决策模型的输入并输入相应的最短路径；但是，传统的

【技术保护点】

【技术特征摘要】
1.一种基于边缘计算和元深度强化学习的多任务路由优化方法，其特征在于，包括：S1：构建基于边缘计算和元深度强化学习网络框架，该网络框架包括集中式控制器和终端设备；S2：终端设备入网将路由任务发送给集中式控制器；S3：集中式控制器根据路由任务构建子模型，并采用优化的元模型对子模型中的参数进行更新；将更新后的子模型参数发送给终端设备；S4：终端设备根据子模型参数对本地模型参数进行更新，并获取终端的设备的局部状态信息，将局部状态信息输入到参数更新后的本地模型中，得到局部状态信息对应的动作；S5：终端设备根据得到的动作与环境进行交互，得到经验信息；将经验信息和路由任务ID发送给集中式控制器；S6：集中式控制器计算经验信息的引导奖励值，并采用引导奖励值对经验信息进行更新；根据更新后的经验信息执行路由；S7：将更新后的经验信息存储到的经验池中；S8：根据更新后的经验池和子模型对元模型进行优化更新。2.根据权利要求1所述的一种基于边缘计算和元深度强化学习的多任务路由优化方法，其特征在于，终端设备的路由任务包括路径、数据传输时延、吞吐量、网络生存时间以及数据传输可靠性。3.根据权利要求1所述的一种基于边缘计算和元深度强化学习的多任务路由优化方法，其特征在于，采用优化的元模型对子模型中的参数进行更新的过程包括：步骤1：集中式控制器从经验池中抽取mini
‑
batch样本e
j
＝<s
j
,a
j
,r
j
,s
′
j
>,j＝1,2,...,k；其中，s
j
表示当前时刻终端设备执行任务j的局部状态信息，a
j
表示当前时刻执行任务j时局部状态信息对应的动作，r
j
表示执行任务j对应的奖励值，s
′
j
表示下一时刻终端设备执行任务j局部状态信息，mini
‑
batch表示小批量；步骤2：根据获取的样本计算Target Q值；其中，Target Q表示深度强化学习模型中策略Main网络的状态
‑
动作值函数值；步骤3：根据Target Q值计算均方误差，并采用基于深度网络的梯度反向传播更新Critic main网络参数ω；Critic main表示深度强化学习模型中评估Main网络；步骤4：计算J(θ)，并采用神经网络的梯度反向传播来更新Actor main策略网络的参数；其中，J(θ)表示Actor main网络的损失函数，θ表示Actor main策略网络参数，Actor main表示深度强化学习模型中策略Main网络；步骤5：重复步骤3～步骤4，直到子模型收敛时，输出更新后的子模型参数。4.根据权利要求1所述的一种基于边缘计算和元深度强化学习的多任务路由优化方法，其特征在于，所述S5中的经验信息为e＝<s,a,r,s

【专利技术属性】
技术研发人员：尚凤军，王颖，雷建军，
申请(专利权)人：重庆邮电大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人