一种基于深度强化学习的无线传感器网络部署方法技术

技术编号:36804457 阅读:42 留言:0更新日期:2023-03-09 00:06
本发明专利技术公开了一种基于深度强化学习的无线传感器网络部署方法,首先搭建传感器网络部署仿真环境,然后设计深度强化学习环境中的状态空间、传感器动作空间、状态转移函数以及奖励;使用搭建的环境,基于软演员

【技术实现步骤摘要】
一种基于深度强化学习的无线传感器网络部署方法


[0001]本专利技术属于传感器
,具体涉及一种无线传感器网络部署方法。

技术介绍

[0002]无线传感器网络是一种分布式通信网络,网络中的每一个传感器节点都可以对周遭环境进行观测,各节点之间以及节点和基站之间则采用多跳方式通过无线链路进行通信来传输信息,这种去中心化的网络模式在军事、应急救援等领域得到了广泛应用。
[0003]然而无线传感器网络(WSN)的部署时至今日仍是一项具有挑战性的问题,现有的无线传感器网络部署算法大多为启发式算法,但大多启发式算法都是比较直观的方法,在3D地形部署时难以达到令人满意的性能。因此引入深度强化学习来对传感器网络的部署进行优化。
[0004]深度强化学习算法中,软演员

评论家(Soft Actor

Critic,SAC)算法有着较好的稳定性及探索性能。

技术实现思路

[0005]为了克服现有技术的不足,本专利技术提供了一种基于深度强化学习的无线传感器网络部署方法,首先搭建传感器网络部署仿真环境,然后设计深度强化学习环境中的状态空间、传感器动作空间、状态转移函数以及奖励;使用搭建的环境,基于软演员

评论家算法构建控制器,在搭建的环境中训练;将最终得到的部署结果作为传感器网络的部署参数。本专利技术方法可以保证获得尽可能大的覆盖面积、网络连通性以及减小网络能耗。
[0006]本专利技术解决其技术问题所采用的技术方案包括如下步骤:
[0007]步骤1:搭建传感器网络部署仿真环境;
[0008]还原目标区域的地形,设置仿真区域;计算传感器之间的路径损耗,根据传感器发射功率和路径损耗判断传感器之间能否相互通信;
[0009]步骤2,设计深度强化学习环境中的状态空间S、传感器动作空间A、折扣因子γ、状态转移函数以及奖励函数R;
[0010]步骤2

1:状态空间S具体如下:
[0011][0012]状态空间S由五部分构成,每部分均由二维矩阵表示,分别为目标区域的网络覆盖情况C、每个传感器的水平部署位置L、每个传感器的功率PW、每个传感器的离地高度H以及当前操作的传感器所在位置G,每个传感器和其对应参数在矩阵中有着相同的位置;
[0013]步骤2

2:每一次行动时传感器可选择的动作如下:
[0014]传感器可以选择调整自身的位置或发射功率;传感器的位置改变由两部分组成,分别为移动方向和移动距离,移动方向为自水平面上相隔45
°
的八个方向和垂直的上下两个方向中任选一个,最大移动距离限制为相应方向动作范围的1/4;
[0015]传感器的移动限制在目标区域内,超出目标区域边界的移动无效。
[0016]传感器的离地高度限制在设定范围内,超出该范围的动作无效;
[0017]步骤2

3:设计奖励函数;
[0018]R=α1Δf
CV

α2ΔP
c

α3Δpower(2)
[0019]式中,Δf
CV
为目标区域覆盖率的变化量,ΔP
c
为网络连通性的变化量,Δpower为网络总信号发射功率的变化量,α1、α2和α3均为常数,用来调整各项的比例;
[0020]步骤2

4:设置折扣因子γ;
[0021]步骤3:使用步骤2搭建的环境,基于软演员

评论家算法构建控制器,在搭建的环境中训练;将最终得到的部署结果作为传感器网络的部署参数,具体如下:
[0022]步骤3

1:控制器包含记忆池D和神经网络,记忆池用来存储过往的经历,神经网络的输入为状态s,s∈S,输出为传感器动作a,a∈A;
[0023]神经网络包含五个结构相同参数不同的网络,分别是:一个输出传感器动作的参数为φ的动作网络和四个输出动作评价值的评估网络,四个评估网络中包含有两个参数分别为θ1和θ2的目标评估网络以及两个参数分别为和的主评估网络,所有网络的参数均随机初始化;
[0024]步骤3

2:在训练时,初始化传感器的部署参数得到状态s,输入到动作网络中,动作网络输出每个动作的选取概率,依据概率大小选择传感器的动作并执行,得到仿真环境的新状态s_、奖励r,将<s,a,r,s_,done>存储到记忆池中,其中done代表该轮训练是否结束;
[0025]步骤3

3:记忆池存储满后,从中随机抽取部分记忆对神经网络进行训练,动作网络损失函数如下,根据记忆池中取出的经历计算神经网络损失值:
[0026][0027]其中,D为记忆池,π
t
(s
t
)为t时刻策略输出的动作,α为熵的权重系数,π
φ
(s
t
)代表当前策略输出的动作,Q
θ
(s
t
)为主评估网络输出的t时刻动作评估值;
[0028]目标评估网络损失函数如下,根据记忆池中取出的经历计算神经网络损失值:
[0029][0030]其中,D表示记忆池,Q
θ
(s
t
,a
t
)为主评估网络对t时刻执行动作的评估值,r(s
t
,a
t
)为t时刻执行动作a
t
后的奖励,为t时刻执行动作后的新状态s
t+1
的价值;
[0031]步骤3

4:动作网络和目标评估网络均使用随机梯度下降更新;
[0032]主评估网络按如下方式更新
[0033][0034]其中,τ为常数,用来控制主评估网络的更新速度;
[0035]步骤3

5:不断重复步骤3

2到步骤3

4至训练结束。
[0036]优选地,所述还原目标区域的地形采用数字高程模型DEM进行。
[0037]优选地,所述神经网络结构包含三个卷积层,每个卷积层后均跟有池化层,随后是三层全连接层,所有激活函数均使用ReLu。
[0038]优选地,所述γ=0.99。
[0039]本专利技术的有益效果如下:
[0040]本专利技术的传感器网络部署算法中给出了仿真环境的搭建以及基于深度强化学习优化传感器网络部署参数的一整套新方法,其中使用卷积神经网络从多个矩阵中提取特征,以及在训练时进行多轮迭代,使用这种方法可以保证获得尽可能大的覆盖面积、网络连通性以及减小网络能耗。
附图说明
[0041]图1为本专利技术方法流程图。
[0042]图2为本专利技术无线传感器网络部署方法框图。
具体实施方式
[0043]下面结合附图和实施例对本专利技术进一步说明。
[0044]本发本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于深度强化学习的无线传感器网络部署方法,其特征在于,包括如下步骤:步骤1:搭建传感器网络部署仿真环境;还原目标区域的地形,设置仿真区域;计算传感器之间的路径损耗,根据传感器发射功率和路径损耗判断传感器之间能否相互通信;步骤2,设计深度强化学习环境中的状态空间S、传感器动作空间A、折扣因子γ、状态转移函数以及奖励函数R;步骤2

1:状态空间S具体如下:状态空间S由五部分构成,每部分均由二维矩阵表示,分别为目标区域的网络覆盖情况C、每个传感器的水平部署位置L、每个传感器的功率PW、每个传感器的离地高度H以及当前操作的传感器所在位置G,每个传感器和其对应参数在矩阵中有着相同的位置;步骤2

2:每一次行动时传感器可选择的动作如下:传感器可以选择调整自身的位置或发射功率;传感器的位置改变由两部分组成,分别为移动方向和移动距离,移动方向为自水平面上相隔45
°
的八个方向和垂直的上下两个方向中任选一个,最大移动距离限制为相应方向动作范围的1/4;传感器的移动限制在目标区域内,超出目标区域边界的移动无效;传感器的离地高度限制在设定范围内,超出该范围的动作无效;步骤2

3:设计奖励函数;R=α1△
f
CV

α2△
P
c

α3△
power(2)式中,

f
CV
为目标区域覆盖率的变化量,

P
c
为网络连通性的变化量,

power为网络总信号发射功率的变化量,α1、α2和α3均为常数,用来调整各项的比例;步骤2

4:设置折扣因子γ;步骤3:使用步骤2搭建的环境,基于软演员

评论家算法构建控制器,在搭建的环境中训练;将最终得到的部署结果作为传感器网络的部署参数,具体如下:步骤3

1:控制器包含记忆池D和神经网络,记忆池用来存储过往的经历,神经网络的输入为状态s,s∈S,输出为传感器动作a,a∈A;神经网络包含五个结构相同参数不同的网络,分别是:一个输出传感器动作的参数为φ的动作网络和四个输出动作评价值的评估网络,四个评...

【专利技术属性】
技术研发人员:羊彦洪国旗张世龙薛威侯静
申请(专利权)人:西北工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1