当前位置: 首页 > 专利查询>清华大学专利>正文

一种面向水下多智能体的Q学习蚁群路由方法技术

技术编号:23939359 阅读:75 留言:0更新日期:2020-04-25 04:26
本发明专利技术提供一种面向水下多智能体的Q学习蚁群路由方法,结合强化学习和蚁群算法适应和学习动态水下环境的特征,包括如下步骤:路由发现阶段,路由维持阶段及路由空洞处理机制。将蚁群算法中的信息素映射为Q学习中的Q值。将链路的延迟、带宽和节点的剩余能量、吞吐量综合考虑作为Q值函数来选择下一跳链路。该路由协议还实现了一种空洞感知机制,通过节点定时广播和定时器记录回传ACK时间,判断节点是否处于路由空洞,通过Q学习的惩罚函数使网络避免使用处于空洞的节点。本发明专利技术考虑了节点的能量和深度、链路稳定性,通过Q学习减少了节点的端到端延迟、提高了数据递送率和水下无线传感器网络的寿命。

A Q-learning ant colony routing method for underwater Multi-Agent

【技术实现步骤摘要】
一种面向水下多智能体的Q学习蚁群路由方法
本专利技术涉及一种水下传感器网络路由协议领域,具体而言,涉及一种基于Q学习和集群算法的水下传感器网络路由协议。
技术介绍
尽管海洋探测和开发的战略地位非常重要,但是只有5%的海洋被探索过。一定程度上这是由于海洋水声信道与水上的无线信道有很大不同。因此不能直接将陆地上的无线路由算法直接运用在水下传感器网络(UWSNs)中,它必须要加以修改才能运用在水下情况。由于水下传感器网络(UWSNs)相比陆地无线传感器网络,面临如下挑战:(1)声音作为信号传播介质导致的高延迟。由于水下的电磁波信号衰减十分严重,只能用于短距离传输。由于声音在水下环境衰减较小,因此水下通信主要采用声信号作为传播媒介。但是水下声信号传播速度大约为1500m/s,而无线电波的传播速度是水下声传播速度的20万倍,采用传统的确认重传机制会大大增加路由过程的时延。(2)AUV(自主式水下潜器)的移动和水流作用于水声传感器节点导致节点动态移动。水流作用会导致理想状态是固定不动的水声节点发生每秒2~3m的移动,而水下AUV移动速度可达到10节。因此设计水下路由算法往往采用分布式设计策略,根据网络拓扑结构选择合适的下一跳节点。(3)传感器和AUV的能量受限。水声传感器和AUV都是使用电池供电,而且在水下更换电池成本高昂。为了提高UWSNs的能量效率,必须充分考虑这个因素。常见的水下传感器路由协议可分为无状态路由协议和有状态路由协议。有状态路由协议需要提前知道整个网络的拓扑结构,这对于水下高延迟的状态会大大增加通信开销。无状态路由协议有VBF、DFR、DBR等等,虽然适合于水下动态拓扑结构,但是容易陷入局部最优解的问题。水下传感器网络路由协议还可以根据是否需要调节功率、声波批量、数据包冲突等划分为跨层和非跨层协议。非跨层协议只需要考虑网络层问题,跨层协议会根据网络拓扑和链路状态变化,动态的去优化路由性能。比较典型的跨层路由协议包括FBR、EEDBR、QELAR、ACO等。为了解决UWSNs的动态网络拓扑问题和能量受限问题,需要采用跨层路由协议。意大利学者Dorigo于1991年提出了蚁群算法,人工蚂蚁通过改变环境变量,进行间接交流信息达到搜索最优解的目的。自然界中蚂蚁根据沿途释放信息素来寻找最短路径。受此启发,许多学者已经把这种原理应用在离散优化问题中,特别是引用到AdHoc网络中来提高网络性能。基于蚁群算法的路由协议通常可以分为主动式路由协议,按需式路由协议,及混合式路由协议。主动式路由协议特点是所有节点都是活动的,每个节点在实际通信请求之前找到网络中任何其他节点的路由。它的优点是减少了路由发现时延,缺点是网络开销很大,例如AntNet。按需式路由协议特点是所有节点都处于休眠模式。当节点需要与其他节点通信时,它们就会变得活跃。优点是网络开销小,于此同时带来了相对长的路由建立时间,比如ADSR、ARA。而混合路由则结合了二者的优点,比如AntAODV。文献1提出了一种主动路由算法,利用FANT(forwardants)和BANT(backwardants)分别收集链路信息和更新信息素浓度,但是端到端时延会导致AntNet较慢。文献2提出了一种按需路由协议ARA,特点是无需像AntNet协议那样周期性释放ants,但是无法适用于水下网络拓扑动态变化的情景。文献3提出了属于混合路由协议的AntSensNet算法,这是一种QoS蚁群路由算法,将节点的传输延迟、丢包率等因素综合起来进行路由选择,提高了发包率,但是增加了路由开销。
技术实现思路
本专利技术针对传统的水下路由协议存在对动态拓扑适应性差和链路不稳定问题,提出一种新颖的结合蚁群算法和Q学习的水下传感器路由算法QLACO。本专利技术的目的在于Q学习的水下传感器路由算法针对水下传感器网络的网络拓扑变化和高延迟、能量受限特点,利用蚁群算法中的信息素和Q学习的奖励函数,将节点之间的链路延迟、吞吐率和能量消耗作为影响因子充分考虑,相比前人提出的传统蚁群算法,特别是针对水下特有的网络动态拓扑情景,QLACO有这更好的收敛速度和鲁棒性。本专利技术提出如下的技术方案,一种面向水下多智能体的Q学习蚁群路由方法,结合强化学习和蚁群算法适应和学习动态水下环境的特征,包括如下步骤:路由发现阶段:结合了蚁群算法中的FANT和BANT探索路径并维护Q值表;当源节点开始向接收节点发送数据包时,释放FANT,FANT在初始阶段随机寻找下一个转发节点,FANT的收集信息将用于BANT后续计算路径上所有节点的Q值表,到达目的地的每个FANT都转化为BANT,每个BANT会沿FANT探索出的路径原路返回源节点;路由维持阶段:每个节点都需要通过交换环境数据并计算所有动作的Q值来维护Q值表;源节点根据链路信息周期性发送信标帧,以维持建立的数据包转发路径并寻找更好的转发路径;路由空洞处理机制:当一个节点无法继续通过更新Q值表来选择路由策略时,将进入路由失败处理函数。进一步地,所述路由发现阶段中,Q值表在路由发现阶段开始时初始化为0,每一个传感器节点初始化时会向邻居节点发送广播信标,广播自身的ID、深度、剩余能量信息,然后接收到的邻居节点会回复ACK给发送方,用来维持邻居节点的集合Ci。进一步地,所述路由发现阶段中,当路径上的节点从目的节点接收到BANT时,节点将从数据包中提取出BANT记录的上一跳节点信息,这些信息将用于计算奖励和当前节点的Q值;以此类推,源节点会收到若干BANT,选择其中计算得到Q值最大的BANT所存储的路径作为最优路径;如此反复迭代后,将得到源节点到目的节点的最优路径。进一步地,所述强化学习的模型可转换为马尔可夫决策过程,强化学习的马尔科夫决策过程是状态、奖励、动作序列上的随机过程,由五元组(S,A,P,R,γ)组成。S是有限状态的集合,A是有限动作的集合,P是状态转移概率函数,R是奖励函数,γ是衰减系数。是在时间t时,执行动作a从状态s转移到s`的概率:进一步地,在路由发现和路由维持阶段中,设计奖励函数,并定义奖励函数如下:其中,是当状态节点采取动作at从st转移到st+1状态时,从环境获得的奖励大小。Agent的奖励包括了直接奖励值Rt和未来奖励。进一步地,动作价值函数Qπ(s,a)的定义为策略π的从某一个状态s和动作a开始长期累积的奖励的数学期望大小:其中γ是在[0,1]范围内的衰减因子,又叫做学习率;γ用来平衡直接奖励和未来奖励的权重。进一步地,为了找到最佳路由器路径,当水下传感器节点传输数据包时,Q学习蚁群路由方法的目标是把Qπ(st+1,a)的期望值最大化,则定义最佳Q值函数,如下中所示:进一步地,还包括建立水声信道模型,水声传播的特点对水深传感器网络有影响,水下声信道的路径损耗可由以下公式表示:A(l,f)=A0lka(f)l其中,A0是一个单位归一化常数,k为扩展因子,a(f)为吸收系数。进本文档来自技高网
...

【技术保护点】
1.一种面向水下多智能体的Q学习蚁群路由方法,其特征在于:结合强化学习和蚁群算法适应和学习动态水下环境的特征,包括如下步骤:/n路由发现阶段:结合蚁群算法中的FANT和BANT探索路径并维护Q值表;当源节点开始向接收节点发送数据包时,释放FANT,FANT在初始阶段随机寻找下一个转发节点,FANT的收集信息将用于BANT后续计算路径上所有节点的Q值表,到达目的地的每个FANT都转化为BANT,每个BANT会沿FANT探索出的路径原路返回源节点;/n路由维持阶段:每个节点都需要通过交换环境数据并计算所有动作的Q值来维护Q值表;源节点根据链路信息周期性发送信标帧,以维持建立的数据包转发路径并寻找更好的转发路径;/n路由空洞处理机制:当一个节点无法继续通过更新Q值表来选择路由策略时,将进入路由失败处理函数。/n

【技术特征摘要】
1.一种面向水下多智能体的Q学习蚁群路由方法,其特征在于:结合强化学习和蚁群算法适应和学习动态水下环境的特征,包括如下步骤:
路由发现阶段:结合蚁群算法中的FANT和BANT探索路径并维护Q值表;当源节点开始向接收节点发送数据包时,释放FANT,FANT在初始阶段随机寻找下一个转发节点,FANT的收集信息将用于BANT后续计算路径上所有节点的Q值表,到达目的地的每个FANT都转化为BANT,每个BANT会沿FANT探索出的路径原路返回源节点;
路由维持阶段:每个节点都需要通过交换环境数据并计算所有动作的Q值来维护Q值表;源节点根据链路信息周期性发送信标帧,以维持建立的数据包转发路径并寻找更好的转发路径;
路由空洞处理机制:当一个节点无法继续通过更新Q值表来选择路由策略时,将进入路由失败处理函数。


2.根据权利要求1所述的面向水下多智能体的Q学习蚁群路由方法,其特征在于,所述路由发现阶段中,Q值表在路由发现阶段开始时初始化为0,每一个传感器节点初始化时会向邻居节点发送广播信标,广播自身的ID、深度、剩余能量信息,然后接收到的邻居节点会回复ACK给发送方,用来维持邻居节点的集合Ci。


3.根据权利要求1或2所述的面向水下多智能体的Q学习蚁群路由方法,其特征在于,所述路由发现阶段中,当路径上的节点从目的节点接收到BANT时,节点将从数据包中提取出BANT记录的上一跳节点信息,这些信息将用于计算奖励和当前节点的Q值;以此类推,源节点会收到若干BANT,选择其中计算得到Q值最大的BANT所存储的路径作为最优路径;如此反复迭代后,将得到源节点到目的节点的最优路径。


4.根据权利要求1所述的面向水下多智能体的Q学习蚁群路由方法,其特征在于,所述强化学习的模型可转换为马尔可夫决策过程,强化学习的马尔科夫决策过程是状态、奖励、动作序列上的随机过程,由五元组(S,A,P,R,γ)组成。S是有限状态的集合,A是有限动作的集合,P是状态转移概率函数,R是奖励函数,γ是衰减系数;是在时间t时,执行动作a从状态s转移到s`的概率:





5.根据权利要求1所述的面向水下多智...

【专利技术属性】
技术研发人员:任勇王景璟方政儒
申请(专利权)人:清华大学
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1