当前位置: 首页 > 专利查询>天津大学专利>正文

一种基于深度强化学习的水下无线传感器网络拓扑控制方法技术

技术编号:31825716 阅读:15 留言:0更新日期:2022-01-12 12:52
本发明专利技术公开了一种基于深度强化学习的水下无线传感器网络拓扑控制方法;它分为离线训练和在线控制两个阶段,在离线训练阶段,根据已有的网络信道和传输信息,在强化学习的框架下按照预定的拓扑控制顺序去训练网络拓扑控制方法;在此过程中本发明专利技术设计了一种基于强化学习的拓扑控制方法,它能够获得能耗均衡且连通的网络拓扑结构;同时本发明专利技术提出了一个基于深度学习的蒙特卡洛树搜索方法去评估拓扑控制过程中每个动作选择的收益;在线控制阶段,拓扑控制中心定期接收来自水下传感器节点的信息包,获取有关网络信道和传输状态的有用参数值;根据这些参数值,拓扑控制中心使用与离线训练部分相同的强化学习框架生成网络拓扑,以适应当前动态的水下环境;本发明专利技术可以根据水下通信环境为水下无线传感器网络重新生成网络拓扑,在满足网络连通性要求的同时有效延长网络生命周期。网络生命周期。网络生命周期。

【技术实现步骤摘要】
一种基于深度强化学习的水下无线传感器网络拓扑控制方法


[0001]本专利技术主要涉及水下无线传感网络
,尤其涉及一种基于深度强化学习的水下无线传感器网络拓扑控制方法

技术介绍

[0002]水下无线传感器网络是一种实时、便捷、易扩展的水下信息感知和收集的网络,能够提高对海洋环境的监控和预测能力,以及增强处理海洋突发事件的能力。它有着广泛的应用场景,如海洋信息采集、环境监测、深海探测、灾害预测、辅助导航、分布式战术监控等。在水下无线传感器网络中,水下传感器节点通常由电池供电,电池容量严重受限,充电不方便。为了保证海洋应用的服务时间,支持海洋应用的水下无线传感器网络的网络生命周期至关重要。然而,在复杂、动态的水下环境中,优化水下无线传感器网络的网络生存期是一个非常具有挑战性的问题。首先,水下通信的能耗远高于地面无线传感器网络通信的能耗。此外,低质量的水下无线信道容易造成数据重传问题,进一步增加水下无线传感器网络的能量消耗。例如,水声通信质量容易受到多普勒效应、多径效应和海洋环境噪声等多种因素的影响;水下环境的浑浊度影响水下无线光通信的信道质量。此外,水流引起的水下传感器节点移动容易破坏网络拓扑结构,降低水下无线传感器网络的数据传输的可靠性。
[0003]拓扑控制是优化水下无线传感器网络的网络生命周期的重要方法之一。拓扑控制的目的是在保证网络连通性和网络覆盖的前提下,为水下无线传感器网络的数据传输阶段提供一种传输功率降低、网络负载均衡的网络拓扑。然而,现有的水下无线传感器网络拓扑控制策略缺乏及时有效地感知网络整体状态(信道状态和传输状态)的能力。具体来说,为了降低算法复杂度,提高计算效率,水下无线传感器网络的拓扑控制策略大多采用分布式启发式设计,无法从全局角度获取水下信道状态的特征。此外,数据传输阶段相关内置协议(路由协议和MAC协议)的传输状态特征也影响拓扑控制策略的设计;这是因为拓扑控制本质上是为数据传输服务的。综上可知,如果水下无线传感器网络的拓扑控制策略不能充分考虑上述状态特征,将会严重削弱其优化网络生命周期的性能。因此,需要在水下无线传感器网络中设计一种能够充分感知整个网络各种状态的拓扑控制方法。
[0004]如期刊论文“A Complex Network Approach to Topology Control Problem in Underwater Acoustic Sensor Networks”提出了一种基于复杂网络的水下无线传感器网络拓扑控制策略,该策略以最小化传输能耗和提高数据传输可靠性为目标,根据水下传感器节点的局部信息去构建一种双分簇的网络拓扑结构,在保证网络拓扑具有复杂网络特征的前提下最小化网络能耗,从而延长网络生命周期。但是它没有考虑复杂动态的水下信道对网络拓扑的整体影响以及没有考虑后期运行的相关传输协议是否适用于该网络拓扑,从而导致数据传输成功率低以及网络生命周期短的问题。针对现有水下无线传感器网络的拓扑控制策略无法充分利用整体网络的信道和数据传输信息的问题,本专利技术提出了一种基于深度强化学习的水下无线传感器网络拓扑控制方法;它能有效保证网络连通性,降低和均衡网络能量消耗,从而延长网络生命周期。

技术实现思路

[0005]为解决上述技术问题,本专利技术提供一种基于深度强化学习的水下无线传感器网络拓扑控制方法。本专利技术是一种集中式的拓扑控制方法,它分为离线训练和在线控制两个阶段。首先在离线训练阶段,本专利技术设计了一个拓扑控制预定顺序的方法,按照该顺序去控制网络拓扑能够有效均衡网络负载,并同时保证网络的连通性。然后,本专利技术设计了一种基于强化学习的拓扑控制方法去根据网络的信道和传输信息生成网络拓扑;在此过程中本专利技术提出了一个基于深度学习的蒙特卡洛树搜索方法去评估每个动作选择的收益。最后,本专利技术设计了一种自学习方法去生成训练一个卷积神经网络,该卷积神经网络被训练后将用于在线部分的拓扑控制过程的动作选择的奖励评估。在网络运行的在线控制阶段,拓扑控制中心定期接收来自水下传感器节点的信息包,获取有关网络信道和传输状态的有用参数值。根据这些参数值,拓扑控制中心使用与离线训练部分相同的强化学习框架生成网络拓扑,以适应当前动态的水下环境。水下传感器节点在升级后的网络拓扑上使用现有路由策略进行数据传输。当拓扑控制的周期时间到达时,水下传感器节点将当前网络信道和传输状态的信息包发送到拓扑控制中心,拓扑控制中心重新生成网络拓扑。
[0006]本专利技术的目的通过以下技术方案来实现:一种基于深度强化学习的水下无线传感器网络拓扑控制方法,包括以下步骤:
[0007]一种基于深度强化学习的水下无线传感器网络拓扑控制方法,包括如下步骤:
[0008]S1.离线训练阶段
[0009]步骤101:拓扑控制中心获取已经完成部署的水面汇聚节点和水下传感器节点的坐标信息,并根据这些坐标信息生成拓扑控制预定顺序;
[0010]步骤102:拓扑控制中心为初始网络拓扑中的每条链路随机生成传输成功概率,同时为每个水下传感器节点随机生成剩余能量值;
[0011]步骤103:拓扑控制中心根据强化学习框架按照拓扑控制预定顺序依次为水下传感器节点选择它的数据传输的下一跳节点,并将该选择作为当前状态的卷积神经网络的训练数据;
[0012]步骤104:卷积神经网络的训练数据集合存储到训练元组;
[0013]步骤105:在下一次的拓扑控制过程中,拓扑控制中心利用更新完卷积神经网络的基于深度学习的蒙特卡洛树搜索方法去计算动作收益;
[0014]步骤106:判断拓扑控制中心是否达到预先设定的自学习次数,满足条件进入在线控制阶段;否则返回步骤102;
[0015]S2、在线控制阶段
[0016]步骤201:水下传感器节点将当前网络信道和传输状态的信息包发送到拓扑控制中心;
[0017]步骤202:当拓扑控制中心接收到所有水下传感器节点的信息包后,拓扑控制中心使用与离线训练部分相同的强化学习框架生成网络拓扑;
[0018]步骤203:当拓扑控制中心生成网络拓扑后,它以能够覆盖所有水下传感器节点的发射功率发送网络拓扑信息包;水下传感器节点收到网络拓扑信息包后,根据网络拓扑信息包,重新选择邻居节点进行连接,达到根据水下通信环境去进行网络拓扑控制的目的。
[0019]进一步,所述步骤103中拓扑控制中心为水下传感器节点传输的下一跳节点过程;
[0020]步骤301:按照拓扑控制预定顺序,某水下传感器节点n
i
为当前状态s
t
对应的水下传感器节点,拓扑控制中心利用基于深度学习的蒙特卡洛树搜索方法去计算当前状态s
t
的每个动作a
t
的收益
[0021]步骤302:拓扑控制中心选择当前状态s
t
的所有动作中具有最大收益的动作去作为当前状态下采取的最佳动作(即最优策略);
[0022]步骤303:当前状态s
t
转移到下一个状态s
t+1...

【技术保护点】

【技术特征摘要】
1.一种基于深度强化学习的水下无线传感器网络拓扑控制方法,包括如下步骤:S1.离线训练阶段步骤101:拓扑控制中心获取已经完成部署的水面汇聚节点和水下传感器节点的坐标信息,并根据这些坐标信息生成拓扑控制预定顺序;步骤102:拓扑控制中心为初始网络拓扑中的每条链路随机生成传输成功概率,同时为每个水下传感器节点随机生成剩余能量值;步骤103:拓扑控制中心根据强化学习框架按照拓扑控制预定顺序依次为水下传感器节点选择它的数据传输的下一跳节点,并将该选择作为当前状态的卷积神经网络的训练数据;步骤104:卷积神经网络的训练数据集合存储到训练元组;步骤105:在下一次的拓扑控制过程中,拓扑控制中心利用更新完卷积神经网络的基于深度学习的蒙特卡洛树搜索方法去计算动作收益;步骤106:判断拓扑控制中心是否达到预先设定的自学习次数,满足条件进入在线控制阶段;否则返回步骤102;S2、在线控制阶段步骤201:水下传感器节点将当前网络信道和传输状态的信息包发送到拓扑控制中心;步骤202:当拓扑控制中心接收到所有水下传感器节点的信息包后,拓扑控制中心使用与离线训练部分相同的强化学习框架生成网络拓扑;步骤203:当拓扑控制中心生成网络拓扑后,它以能够覆盖所有水下传感器节点的发射功率发送网络拓扑信息包;水下传感器节点收到网络拓扑信息包后,根据网络拓扑信息包,重新选择邻居节点进行连接,达到根据水下通信环境去进行网络拓扑控制的目的。2.根据权利要求1所述的一种基于深度强化学习的水下无线传感器网络拓扑控制方法,其特征在于;所述步骤103中拓扑控制中心为水下传感器节点传输的下一跳节点过程;步骤301:按照拓扑控制预定顺序,某水下传感器节点n
i
为当前状态s
t
对应的水下传感器节点,拓扑控制中心利用基于深度学习的蒙特卡洛树搜索方法去计算当前状态s
t
的每个动作a
t
的收益步骤302:拓扑控制中心选择当前状态s
t
的所有动作中具有最大收益的动作去作为当前状态下采取的最佳动作(即最优策略);步骤303:当前状态s
t
转移到下一个状态s
t+1
,直到所有状态被遍历。3.根据权利要求2所述的一种基于深度强化学习的水下无线传感器网络拓扑控制方法,其特征在于;所述步骤301中基于深度学习的蒙特卡洛树搜索方法包含四个步骤:选择、扩展、模拟和方向传播:1)选择过程:以水下传感器节点n
i
对应当前状态s
t
作为搜索树的根节点,当前状态s
t
的最优动作由公式1计算所得;当前状态s
t
执行最优动作后,转移到由最优动作决定的下一个状态s
t+1
,这个状态s
t+1
将执行动作选择;重复上述步骤直到到达一个之前没有出现过的状态,它被称为叶子状态。其中公式1表示如下:
式中a
t
是当前状态s
t
的一个动作;A
t
是...

【专利技术属性】
技术研发人员:刘春凤赵昭曲雯毓余涛王子恒
申请(专利权)人:天津大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1