【技术实现步骤摘要】
一种基于深度强化学习的物联网路由优化方法
[0001]本专利技术属于无线网络通信
,具体涉及一种基于深度强化学习的物联网路由优化方法。
技术介绍
[0002]物联网(Internet of Things,IoT)是一个由互连的计算设备、机械、数字设备等组成的系统,是一种物体与物体之间通过互联网进行通信的网络。目前,IoT被大量应用在环境监测、智能电网、家居、工业自动化等场景。物联网中使用的一些设备损耗大、功率低、资源有限,因此互联网工程任务组织(Internet Engineering Task Force,IETF)就专门为此类设备组成的网络提出了低功耗有损网络路由协议(Routing Protocol for Low
‑
Power and Lossy Networks,RPL)。虽然RPL协议能较好地适应有损链路特性和节点能量受限,但随着物联网设备数量的快速增加和网络复杂性的不断提高,RPL也面临着因负载较重导致拥塞引发的可靠性下降、能耗增大、时延升高等问题,严重降低网络整体性能和生命周期。因此根 ...
【技术保护点】
【技术特征摘要】
1.一种基于深度强化学习的物联网路由优化方法,其特征在于,包括:S1:将汇聚节点作为根节点,普通传感器节点作为子孙节点以树形结构进行组网,构建DODAG;S2:进入数据传输阶段,传感器节点进行数据包收发操作;数据传输阶段结束后,唤醒Trickle定时器重置DIO间隔;S3:进入路由优化阶段,所有节点根据DIO间隔广播DIO控制消息;S4:传感器节点从汇聚节点下载最新模型参数;根据最新模型参数和邻居传感器节点的DIO控制消息进行路由选择并生成经验信息;将经验信息上传至汇聚节点;S5:汇聚节点根据经验对Dueling DQN模型进行训练,更新模型参数;S6:路由优化阶段结束后,冻结Trickle定时器;S7:返回步骤S2,进行下一次路由选择周期,直到网络停止运行。2.根据权利要求1所述的一种基于深度强化学习的物联网路由优化方法,其特征在于,所述DIO间隔的最小值为路由优化阶段的持续时间长度。3.根据权利要求1所述的一种基于深度强化学习的物联网路由优化方法,其特征在于,进行路由选择并生成经验信息的过程包括:S41:根据邻居传感器节点的DIO控制消息获取路由度量信息并根据路由度量信息构建状态矩阵;S42:根据最新模型参数和状态矩阵计算动作a,根据动作a进行路由选择并切换父节点;S43:根据动作a和父节点的路由度量信息计算奖励值;S44:根据状态矩阵、动作a和奖励值生成经验信息。4.根据权利要求3所述的一种基于深度强化学习的物联网路由优化方法,其特征在于,构建状态矩阵的过程包括:根据DIO控制消息获取邻居传感器节点的路由度量,包括ETX、HC、RE和QLR;根据路由度量在候选父节点中找出最高RE值的k个节点生成状态矩阵,若候选父...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。