一种基于强化学习的分布式WSN节点智能调度方法技术

技术编号：38494363 阅读：12 留言：0更新日期：2023-08-15 17:05

本发明专利技术公开一种基于强化学习的分布式WSN节点智能调度方法，允许传感器节点根据所处环境信息自主在可选的激活、睡眠和休眠等模式中采取适当的行动决策，从而使随机部署的传感器节点达到预定的网络覆盖率并且确保传感器节点之间至少有一条通信路径。由于每个传感器节点均有自主学习能力，不需要通过控制中心发送显式的通告信息，只需通过Q学习算法自主学习最佳工作模式，即可使无线传感网以较低能耗确保预设覆盖率并维持活动节点之间的通信连接，从而有效节省了WSN稀缺的资源，延长了网络工作时间。作时间。作时间。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于强化学习的分布式WSN节点智能调度方法

[0001]本专利技术涉及一种基于强化学习的分布式WSN节点智能调度方法，属于无线传感网

技术介绍

[0002]作为物联网和智慧社会的关键支撑技术之一，无线传感网(Wireless Sensor Network,WSN)已得到广泛部署和应用。一般来说，无线传感网中能量高效的网络覆盖连通算法的主要目标是以最小的能耗(最少活跃的传感器节点数量)有效监测期望的目标区域，并将感知数据可靠传送到基站。为实现这一目标，现有研究工作主要提出了两种解决方案：优化节点部署(如参考文献[1
‑
2])和节点调度机制(如参考文献[3
‑
4])。优化节点部署是指合理部署目标监视区域中传感器节点的数量和位置。在节点部署过程中通常假设传感器节点是静态不移动的，因而由静态传感器节点构成的WSN不能灵活适应由于传感器节点故障导致的拓扑结构变化。节点调度机制允许节点根据所处网络环境主动选择自身的工作模式，即活动、休眠和睡眠等，以便在每轮调度中使活动的节点构成适当的网络覆盖和连通集，目标是以最小数量的传感器节点提供满足要求的网络覆盖度和连通性。
[0003]由于传感器节点通常是微小的、资源受限的设备，其内存和电池电量非常有限，现有的网络覆盖协议大都会考虑能耗指标，并且少数覆盖协议还考虑了网络连通性指标。传感器节点在感知、计算和通信等方面消耗的能量对WSN的寿命有直接影响。然而，研究发现节点随机部署、网络覆盖冗余、数据冗余传输和空闲信号监听是造成不必要能量...

【技术保护点】

【技术特征摘要】
1.一种基于强化学习的分布式WSN节点智能调度方法，针对目标区域监测的无线传感网应用场景，其特征在于，无线传感网中每个传感器节点在每轮调度中通过强化学习算法自主学习其最佳操作模式，从而将感知和通信任务分配给适当的传感器节点集合；其中，每个传感器节点具备自主学习能力；所述节点智能调度方法包括两个阶段的任务：第一阶段，网络覆盖阶段，首先基于节点自主调度完成网络覆盖；然后在第二阶段，即连接维护阶段，再次通过节点自主调度来确保网络连接；在网络覆盖阶段，对于每个调度轮次传感器节点不仅可以自主决定处于激活或睡眠操作模式，而且在激活模式下节点的感知范围可以按需进行动态调整；在连接维护阶段，如果覆盖维护阶段得到的覆盖节点集不足以确保所有节点之间至少有一条连接通路，则需要唤醒适当数量的睡眠节点进入激活或休眠状态来建立必要的网络连接。2.根据权利要求1所述的基于强化学习的分布式WSN节点智能调度方法，其特征在于，所述传感器节点所处的状态和行动的最佳组合取决于传感器节点对网络环境的学习和采取行动的奖励反馈，即：传感器节点通过Q学习算法学习在当前环境下采取何种行动并形成一系列状态和行动的最佳组合，从而最大化预期的奖励；在强化学习中，代理从环境中获得状态信息，然后采取适当的行动使全局奖励最大化；每个传感器节点均作为一个代理，在离散的时间点t＝0,1,2,n自主采取适当的行动；整个感知区域A
s
是所有代理活动的网络环境，为驻留在感知区域A
s
内的所有传感器节点提供状态信息，将传感器节点的当前状态和行动作为输入，并将输出作为奖励返回；定义本地状态S
L
代表节点当前所处的状态；对于网络覆盖阶段，一个传感器节点处于两个本地状态之一：{S
L1
＝覆盖冗余,S
L2
＝隔离}；对于网络连接维护阶段，一个传感器节点也处于两个本地状态之一：{CS
L1
＝连接到1跳邻居节点,CS
L2
＝未连接状态}；定义全局状态S
G
代表WSN的全局目标；对于网络覆盖阶段，S
G
＝覆盖率；对于连接维护阶段，CS
G
＝网络连通性；定义行动A是一个传感器节点可以执行的所有可能行动A
i
的集合(A
i
∈A)；对于网络覆盖阶段，可能的行动集合是{A1＝激活,A2＝睡眠,A3＝调整感应范围}；对于网络连接维护阶段，可能的行动集是{CA1＝激活,CA2＝休眠}；行动的选择使用ε
‑
贪婪法或玻尔兹曼探索方法，ε
‑
贪婪法以概率ε选择最佳行动，而以概率(1
‑
ε)选择随机行动；定义奖励r是衡量传感器节点选择行动的成败度量的反馈；由一个代理所能提供的覆盖面积称为本地奖励，由一个调度轮中所有激活的传感器所提供的覆盖率则称为全局奖励。3.根据权利要求2所述的基于强化学习的分布式WSN节点智能调度方法，其特征在于，覆盖率C
r
定义为激活的传感器节点所覆盖的区域面积之和与感知区域的面积之比；设节点的感知范围为R
s
，通信范围为R
c
；对于网络覆盖阶段，如果两个节点S
i
和S
j
之间的距离d小于2R
s
，那么S
j
称为S
i
的邻居节点S
NN
；对于网络连接维护阶段，如果S
i
和S
j
之间的距离d小于2R
c
，则S
j
称为S
i
的1跳邻居节点；收敛时间C
T
是指强化学习算法达到全局最优所需花费的时间；活跃节点比率定义为活跃节点总数N
active
与部署的传感器节点总数N的比率；覆盖阈值τ是为实现网络覆盖率而设定的阈值；网络覆盖维护的目标是使激活的传感器节点提供的覆盖率必须高于阈值水平。4.根据权利要求1所述的基于强化学习的分布式WSN节点智能调度方法，其特征在于，在传感器节点随机部署后，首先启动网络覆盖阶段，来保持网络覆盖；设Q学习算法的学习过程从时间t开始，学习率为ω、折扣系数为λ、传感器节点在t时刻从状态s
t
转换到s
t+1
获得
的奖励为r
t
；Q学习算法从随机选择的任意传感器节点S
i
开始执行；S
i
识别其所有邻近节点S
NN
，并观察其本地状态S
L
，...

【专利技术属性】
技术研发人员：王海涛，宋丽华，王丹，丁兆锟，史向东，谢波，廖赟，田文郁，刘力军，芮立，
申请(专利权)人：南京审计大学金审学院，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人