一种基于深度强化学习的异构网络节能路由方法技术

技术编号:35189836 阅读:23 留言:0更新日期:2022-10-12 18:06
本发明专利技术属于无线传感器网络技术领域,具体涉及一种基于深度强化学习的异构网络节能路由方法,传感器节点根据自身传感器的预定义计划感知环境,收集观测数据并存入对应的缓存队列;并在等待时间内,接收邻居节点传送的聚合数据并存入对应的缓存队列;传感器节点将同一缓存队列中的数据聚合,得到多种类型的聚合数据;根据Q学习自适应算法选择每种类型的聚合数据的下一跳传感器节点并转发;传感器节点根据下一跳传感器节点的响应更新对应传感器的Q表,本发明专利技术基于机器学习的自适应路由实现对网络动态变化的实时捕获,用较小的开销实现对整个网络的动态掌控,具有较好的节能性能,有效的延长了网络生命周期。的延长了网络生命周期。的延长了网络生命周期。

【技术实现步骤摘要】
一种基于深度强化学习的异构网络节能路由方法


[0001]本专利技术属于无线传感器网络
,具体涉及一种基于深度强化学习的异构网络节能路由方法。

技术介绍

[0002]在无线传感器网络中,许多传感器节点部署在广域上,以收集观测数据并将其发送到接收器(或服务器)。因此,需要多跳传输来将收集的数据成功地传送到位于源传感器节点传输范围之外的接收器。这需要一个收集传感器节点来计算到接收器的最佳路由。能源效率是无线传感器网络成功应用的主要挑战,但是节点能量有限,部署后无法轻松充电。此外,由于能量主要由无线电设备消耗,因此通信路由算法的节能设计至关重要。
[0003]路由协议的能量消耗会影响无线传感器网络(WSN)的生命周期,因为部署后微小的传感器节点通常很难充电。通常,为了节约能源,数据聚合用于最小化和/或消除每个节点上的数据冗余,并减少无线传感器网络中传输的总体数据量。此外,节能路由被广泛用于确定从源到目的地的最佳路径,同时避免能量不足的节点,以节省中继感测数据的能量。在大多数传统方法中,数据聚合和路由路径选择是分开考虑的。各种机器学习技术被用来有效地捕捉节点拓扑变化、受限能量条件、事件检测和通信成本等动态特征,以实现无线传感器网络的节能运行。其中,强化学习(RL)特别适用于包括长期与短期奖励权衡的问题。它为系统提供了一个框架,使其能够从以前与环境的交互中学习,并在将来有效地选择其操作。基于RL的路由协议可以确定最佳路径,作为复杂网络条件和服务质量要求的自适应方法。

技术实现思路

[0004]为解决上述问题,本专利技术提供了一种基于深度强化学习的异构网络节能路由方法,包括:构建传感器网络,所述传感器网络包括一个sink节点、M个传感器节点、K种不同类型的传感器;传感器设置预定义计划感知环境并采集数据,每种传感器采集的数据类型不同,传感器网络中共有K种数据类型;每个传感器节点都有与K种数据类型一一对应的缓存队列;
[0005]基于深度强化学习的异构网络节能路由方法,包括以下步骤:
[0006]S1.任一传感器节点中的传感器根据自身的预定义计划感知环境,在自身的预定义计划内收集观测数据并存入对应的缓存队列;
[0007]S2.该传感器节点接收来自邻居节点的数据并将其存入对应的缓存队列;
[0008]S3.该传感器节点将存储在同一缓存队列的数据聚合,K种缓存队列对应K种聚合数据;
[0009]S4.构建基于深度强化学习的Q学习自适应算法,该传感器节点通过Q学习自适应算法为每种聚合数据选择下一跳传感器节点。
[0010]进一步的,任一种聚合数据通过Q学习自适应算法选择下一跳传感器节点进行转发的过程为:
[0011]S11.传感器节点s确定该聚合数据的数据类型,在Q路由表中选择该数据类型的转发优先级最大的传感器节点s


[0012]S12.传感器节点s将该聚合数据转发给传感器节点s

,传感器节点s

接收并返回响应数据包,响应数据包包括奖励信息和确认接收信息;
[0013]S13.传感器节点s接收响应数据包并更新自身的Q路由表。
[0014]进一步的,传感器节点s

接收聚合数据并计算奖励信息反馈给传感器节点s,奖励信息包括数据传输奖励、数据聚合奖励、剩余能量奖励和链路强度奖励四种,分别的计算公式为:
[0015][0016][0017][0018]R
L
=l
s
(s,s

)
[0019]其中,R为数据传输奖励;R
DA
为数据聚合奖励;R
E
为剩余能量水平奖励;R
L
为链路强度奖励;E
s

为下一跳传感器节点s

的剩余能量水平;为下一跳传感器节点s

的当前剩余能量;为下一跳传感器节点s

的初始能量水平;l
s
为发送数据的传感器节点s与接收数据的下一跳传感器节点s

的链路强度;α
l
、β
l
、γ
l
为自适应权重系数;R
s
为汇聚节点(sink)固定奖励,R
e
为下一跳传感器节点s

的低能量水平负奖励;表示下一跳传感器节点s

接收t类型数据后t类型缓存队列的大小;表示下一跳传感器节点s

聚合t类型数据后得到的聚合数据的大小;表示最大数据聚合奖励;
[0020]进一步的,传感器节点s接收响应数据包后,根据响应数据包中的奖励信息更新对应传感器的Q路由表,更新公式为:
[0021]Q

(s,a)=Q(s,a)+λ{R

Q(s,a)}
[0022]其中,λ表示学习率,Q

(s,a)表示更新的Q值,R表示数据传输奖励,Q(s,a)表示更新前的Q值。
[0023]进一步的,Q学习自适应算法中的Q值由数据聚合度,节点剩余能量水平,链路强度三部分组成,第一部分旨在增加转发数据包的可聚合性,减少数据size以达到减少数据传输带来的能量损耗,第二部分旨在避免选择能量值低的节点进行转发,第三部分旨在减少通信开销节省能量,Q值计算公式为:
[0024][0025]其中,s为传感器节点,a为s为传感器节点在其Q路由表中选择某一传感器节点作为下一跳节点的动作,Q(s,a)为传感器节点s执行动作a的Q值;DA(s,a)为传感器节点s选择
动作a的数据聚合度;为传感器节点s选择动作a代表的下一跳节点的剩余能量水平;为节点s选择动作a代表的下一跳节点的链路强度。
[0026]进一步的,每种传感器的预定义计划包括感应时间、感应间隔和等待时间;感应时间为传感器节点采集环境数据的时间长度;感应间隔为传感器节点相邻两次采集环境数据的时间间隔;等待时间为传感器节点接收邻居节点的数据的时间长度。
[0027]进一步的,传感器节点由传感器和收发器组成,一个传感器节点配备一种或一种以上的传感器。
[0028]进一步的,传感器节点中一个类型为a的缓存队列仅储存自身a类型传感器采集的观测数据以及邻居节点转发的a类型数据,一种缓存队列对应一种数据类型。
[0029]本专利技术的有益效果:
[0030]本专利技术提供了一种基于深度强化学习的异构网络节能路由方法,针对传统算法没有考虑类型相关数据聚合的可能性、类型相关的邻居关系和路径的聚合程度等问题。提出一种基于数据聚合的自适应Q学习模型,分别考虑了数据聚合度,节点剩余能量水平以及传输路径的链路强度,其有效的减少网络中的数据量并降低数据传输带来的能量消耗,基于机器学习的自适应路由实现对网络动态变化的实时捕获,用较小的开销实现对整个网络的动态掌控,具有较好的节能性能,有效的延长本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于深度强化学习的异构网络节能路由方法,其特征在于,构建传感器网络,所述传感器网络包括一个sink节点、M个传感器节点、K种不同类型的传感器;传感器设置预定义计划感知环境并采集数据,每种传感器采集的数据类型不同,传感器网络中共有K种数据类型;每个传感器节点都有与K种数据类型一一对应的缓存队列;基于深度强化学习的异构网络节能路由方法,包括以下步骤:S1.任一传感器节点中的传感器根据自身的预定义计划感知环境,在自身的预定义计划内收集观测数据并存入对应的缓存队列;S2.该传感器节点接收来自邻居节点的数据并将其存入对应的缓存队列;S3.该传感器节点将存储在同一缓存队列的数据聚合,K种缓存队列对应K种聚合数据;S4.构建基于深度强化学习的Q学习自适应算法,该传感器节点通过Q学习自适应算法为每种聚合数据选择下一跳传感器节点。2.根据权利要求1所述的一种基于深度强化学习的异构网络节能路由方法,其特征在于,任一种聚合数据通过Q学习自适应算法选择下一跳传感器节点进行转发的过程为:S11.传感器节点s确定该聚合数据的数据类型,在Q路由表中选择该数据类型的转发优先级最大的传感器节点s

;S12.传感器节点s将该聚合数据转发给传感器节点s

,传感器节点s

接收并返回响应数据包,响应数据包包括奖励信息和确认接收信息;S13.传感器节点s接收响应数据包并更新自身的Q路由表。3.根据权利要求2所述的一种基于深度强化学习的异构网络节能路由方法,其特征在于,传感器节点s

接收聚合数据并计算奖励信息反馈给传感器节点s,奖励信息的计算公式为:为:为:R
L
=l
s
(s,s

)其中,R为数据传输奖励;R
DA
为数据聚合奖励;R
E
为剩余能量水平奖励;R
L
为链路强度奖励;E
s

为下一跳传感器节点s

的剩余能量水平;为下一跳传感器节点s

的当前剩余能量;为下一跳传感器节点s

...

【专利技术属性】
技术研发人员:付蔚胡灿炜刘庆李明彭钦吕贝哲洪承镐
申请(专利权)人:重庆邮电大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1