一种基于分簇和增强学习的混合路由方法、海洋通信系统技术方案

技术编号:25194005 阅读:35 留言:0更新日期:2020-08-07 21:20
本发明专利技术属于海洋通信技术领域,公开了一种基于分簇和增强学习的混合路由方法、海洋通信系统,宏观上在线学习簇整体的Q值确定最佳下一跳网格,局部确定最佳网格中的特定节点,以选择下一跳节点,结合AODV算法按需路由的思想以及GPSR的贪婪原则实现路由发现过程,当节点需要发送数据包给目的节点时,如果存在相应的路由信息,直接发送数据包,如果没有相应的路由信息,则查找该目的节点是否在邻接表中,根据相应的节点转发策略进行转发,直到到达目的节点。本发明专利技术减少了广播的洪泛,减少了路由开销;能有效避免路由空洞的同时,选出的路径更加适合当前的网络状态,丢包率更小。

【技术实现步骤摘要】
一种基于分簇和增强学习的混合路由方法、海洋通信系统
本专利技术属于海洋通信
,尤其涉及一种基于分簇和增强学习的混合路由方法、海洋通信系统。
技术介绍
目前,由于海洋通信环境基础设施的缺乏,使得陆地上成熟的无线通信技术无法直接应用在海洋通信系统,Adhoc是实现海洋远程通信的主要技术之一。因为AdHoc网络可以采用多跳转发的方式进行数据传输,所以需要路由协议建立从源节点到目的节点之间的可达路径。而路由发现方式和路由选择策略是协议的核心问题。根据路由建立过程的不同,可分为以下几类:主动式路由协议如OLSR,节点周期性地广播路由分组,获得网络中节点间的链路信息。然后根据拓扑信息,结合合适的路由算法,节点建立到达网络内所有节点的路由,并根据接收的路由消息实时更新路由表。按需式路由协议如AODV,当源节点需要发送数据却没有到目的节点的路由,才通过路由发现来获得所需要的路由。基于地理位置的协议如GPSR,网络内的节点在获取自身的定位信息后,通过位置服务协议获得目的节点的位置,使用信标交互的方式获取邻居节点具体地理位置。利用节点的位置,结合相应的路由算法,完成数据分组的转发。增强学习也称为强化学习,是一类求解序贯优化决策问题的有效方法,近年来已成为机器学习和智能控制领域最活跃的研究分支之一。它通过利用环境的评价性反馈信号来调整自己的行为选择策略,将极大化期望的回报作为学习目标。其中,Q学习算法在独立、同步地解决一些复杂的路由问题时表现出其显著优势,有助于部分网络性能的提升。目前,有以下几个基于Q学习的路由方法。文献【WuC,KumekawaK,KatoT.DistributedReinforcementLearningApproachforVehicularAdHocNetworks[J].IeiceTransactionsonCommunications,2010,93-B(6):1431-1442】基于AODV已有的工作机制,利用Q-Learning算法实现了一种适用于高移动网络场景的路由协议QLAODV,其主要利用Q学习算法预测环境的状态信息以及利用单播控制包检查路径的可用性,再根据车辆移动和可用的信道带宽来选择路由。文献【LaiWK,LinMT,YangYH.Amachinelearningsystemforroutingdecision-makinginurbanvehicularadhocnetworks[M].Taylor&Francis,Inc.2015】提出了一种基于机器学习的用于车辆自组网的路由方案,MARS预测了车辆的运动,然后在两个路边单元中选择合适的路径,能够降低延迟并提高分组投递率;文献【LiR,LiF,LiX,etal.QGrid:Q-learningbasedroutingprotocolforvehicularadhocnetworks[C]//PERFORMANCEComputingandCommunicationsConference.IEEE,2014:1-8】提出了一种基于强化学习的路由协议QGrid,以提高消息传递的传递率。QGrid在进行路由决策时考虑了微观方面和微观方面。宏观方面通过查询从离线中学习到的Q值表来确定最优下一跳网格。微观方面在最优下一跳网格中确定具体的车辆作为下一跳车辆。Woo-SungJung等人在QGris的基础上考虑了链路误差的问题,提出了QGeo【JungWS,YimJ,KoYB.QGeo:Q-LearningbasedGeographicAd-HocRoutingProtocolforUnmannedRoboticNetworks[J].IEEECommunicationsLetters,2017,PP(99):1-1】,一种适用于无人机器人网络的Q学习的地理位置自组网路由协议,QGeo相比QGrid可以在高移动场景提高分组投递率,且产生更少的网络流量。文献【郑家瑜,VANET中路由算法研究[D],西安电子科技大学,2017】中提出将Q学习和分簇相结合,通过Q学习选择更稳定的簇建立路由,通过簇首和网关节点进行数据请求和数据传输,节省了网络开销。在现有的Q学习路由方法中,文献【WuC,KumekawaK,KatoT.DistributedReinforcementLearningApproachforVehicularAdHocNetworks[J].IeiceTransactionsonCommunications,2010,93-B(6):1431-1442】中QLAODV由于进行Q学习的对象是网络中的所有节点,导致收敛速度过慢,尤其是在网络状态过多的情况下,性能并不理想。文献【LaiWK,LinMT,YangYH.Amachinelearningsystemforroutingdecision-makinginurbanvehicularadhocnetworks[M].Taylor&Francis,Inc.2015.】中MARS虽然提供了低延迟和高分组投递率,但是它利用了有线骨干网,灵活性不够。文献【LiR,LiF,LiX,etal.QGrid:Q-learningbasedroutingprotocolforvehicularadhocnetworks[C]//PERFORMANCEComputingandCommunicationsConference.IEEE,2014:1-8】QGrid考虑了在两个具有低网络开销的邻居网格之间的车辆的运动,它利用了基于Q学习的地理位置网格路由算法,虽然QGrid对每个网格之间的动态变化因素进行了处理,但是这一工作的主要限制在于QGrid没有考虑在同一网格中的节点之间的链路状况,而且由于网格间的信息是离线统计的,会造成拓扑变化时信息不够准确。文献【JungWS,YimJ,KoYB.QGeo:Q-LearningbasedGeographicAd-HocRoutingProtocolforUnmannedRoboticNetworks[J].IEEECommunicationsLetters,2017,PP(99):1-1】虽然在QGrid的基础上考虑了链路状况的问题,然而它由于学习对象仍然是网络中的单个节点,在大规模网络中也会存在Q表收敛过慢的情况。文献【郑家瑜,VANET中路由算法研究[D],西安电子科技大学,2017】将Q学习和分簇相结合,在簇首和网关节点间广播RREQ包并建立路由,虽然能节省网络开销,但是由于路由都是通过簇首和网关节点建立起来的,导致簇首和网关节点的网络负荷过重。通过上述分析,现有技术存在的问题及缺陷为:现有的Q学习路由方法存在收敛速度过慢,尤其是在网络状态过多的情况下,性能并不理想;有的协议利用了有线骨干网;有的协议没有考虑在同一网格中的节点之间的链路状况,而且由于网格间的信息是离线统计的,造成拓扑变化时信息不准确;考虑了链路状况的算法没有同时考虑Q表收敛过慢的问题;有的以簇为单位进行学习的算法通过簇首和网关节点建立路由导致簇首和网关节点的网络负荷过重。本文档来自技高网...

【技术保护点】
1.一种基于分簇和增强学习的混合路由方法,其特征在于,所述基于分簇和增强学习的混合路由方法QCGP宏观上在线学习簇整体的Q值确定最佳下一跳网格,局部确定最佳网格中的特定节点,以选择下一跳节点,结合AODV算法按需路由的思想以及GPSR的贪婪原则实现路由发现过程,当节点需要发送数据包给目的节点时,如果存在相应的路由信息,直接发送数据包,如果没有相应的路由信息,则查找该目的节点是否在邻接表中,根据相应的节点转发策略进行转发,直到到达目的节点;否则通过路由发现过程结合Q学习建立到目的节点的路由信息。/n

【技术特征摘要】
1.一种基于分簇和增强学习的混合路由方法,其特征在于,所述基于分簇和增强学习的混合路由方法QCGP宏观上在线学习簇整体的Q值确定最佳下一跳网格,局部确定最佳网格中的特定节点,以选择下一跳节点,结合AODV算法按需路由的思想以及GPSR的贪婪原则实现路由发现过程,当节点需要发送数据包给目的节点时,如果存在相应的路由信息,直接发送数据包,如果没有相应的路由信息,则查找该目的节点是否在邻接表中,根据相应的节点转发策略进行转发,直到到达目的节点;否则通过路由发现过程结合Q学习建立到目的节点的路由信息。


2.如权利要求1所述的基于分簇和增强学习的混合路由方法,其特征在于,所述基于分簇和增强学习的混合路由方法包括:
步骤一,源节点需要发送数据包给目的节点时,首先判断是否存在路由信息,若存在则开始传输数据;若不存在,则查找该节点是否在邻接表中,若在,根据本发明中的节点转发策略,在正常参与数据包转发的节点中选择距离目的节点最近的邻居节点进行转发,直到到达目的节点;否则判断自身节点角色,如果是簇成员节点,启动路由发现过程,先发送数据请求包给簇首,然后转到步骤二;若是簇头节点,直接转到步骤二;
步骤二,簇首产生RREQ,并将源节点的地理位置,源节点所在簇ID和Q表最大值一并添加到RREQ中,广播RREQ,转到步骤三;
步骤三,中间节点收到RREQ,若当前节点为普通节点且收到的RREQ为本簇的RREQ,则本地存储RREQ中的Q表最大值;若当前节点为普通节点且收到的RREQ为邻簇的RREQ,则直接丢弃;若当前节点为簇首,则解析RREQ包并根据公式对Q值进行更新,并将更新后的Q表最大值写入RREQ,并广播RREQ,转到步骤四;
根据公式对Q值进行更新:



其中y∈Nx代表着簇首节点y所在的簇在簇首x的邻簇,R为回报函数,定义簇i的Q值表的最大Q值集合为其中d1,d2,...,dn表示目的簇,yi,yj,...,yk表示簇首i所在簇的邻接簇,表示Q值表中以邻接簇yk为到目的簇dn下一转发簇对应的Q值;实际上即MaxQValuesi的一个元素,MaxQValuesi数组由RREQ发送方节点计算并与其RREQ消息一起发送;
步骤四,如果目的节点收到RREQ,产生RREP,选择到源节点所在簇Q值最大的簇作为下一跳转发簇,且在该下一跳转发簇内选择CIj>CIthreshold&&CRij>CRthreshold且到源节点距离最近的邻居节点作为下一跳节点,转到步骤五;否则转到步骤三;
步骤五,中间节点收到RREP,选择到源节点所在簇Q值最大的簇作为下一跳转发簇,且在该簇内选择CIj>CIthreshold&&CRij>CRthreshold且到源节点距离最近的邻居节点作为下一跳节点,并建立正向路由;
步骤六,若源节点收到RREP,路由建立完成,开始传输数据;否则转到步骤五。


3.如权利要求2所述的基于分簇和增强学习的混合路由方法,其特征在于,所述基于分簇和增强学习的混合路由方法中的分簇和时帧设计,通过地理位置分簇,并进行时隙划分,减少邻居节点发现时的碰撞,以改进邻居节点发现过程的性能;本发明采用TDMA机制,将时间周期性地划分为一个个时间片,一个时间片为2s,在每个时间片中,又分成邻居发现时段和数传时段;在邻居节点发现阶段,普通节点之间先进行HELLO消息广播,随后进行簇首竞选,距离簇中心最近的节点成为簇首;在数据传输阶段先进行簇首的QHELLO包广播,随后进行数据传输;邻居簇首间通过降低信息速率的方式实现簇首2倍于普通节点通信距离的方式,使得邻居簇首间直接通信可达,本发明中本簇节点不对来自本簇和邻簇之外的簇首发来的QHELLO包和RREQ包进行处理。


4.如权利要求2所述的基于分簇和增强学习的混合路由方法,其特征在于,所述基于分簇和增强学习的混合路由方法通过试错的方法发现最优行为策略,强化学习系统根据内部的工作机制对收到的环境状态s做出相应的行为,系统输出相应的行为动作a,而环境在系统动作a的作用下,变迁到新的状态s′,同时得到环境对于系统的瞬时奖惩反馈r;Q学习系统是系统选择的动作从环境中获得的环境奖赏值累计最大这样一个策略动作,即π:S→A,其中Q值得更新公式:



其中α表示学习率,γ为折扣因子,ri是回报函数;系统产生该动作的趋势决定于环境的奖赏值,即回报函数,如果为正的奖赏值则趋势会越来越强,如果为负的奖赏值则趋势会越来越弱;对于渔用自组网,当数据包在网络中传输时,在数据包到达目的节点之前,无法确定奖励,不能使用基于模型的方法,故选择使用Q学习来选择最佳路由。


5.如权利要求4所述的基于分簇和增强学习的混合路由方法,其特征在于,将地理区域划分成大小一致的正六边形,称为簇;每个渔船本地存储簇首发送的Q表,QCGP路由由两部分组成,从宏观角度确定最佳下一跳簇,从微观角度识别所选网格中的特定渔船;将不同的簇定义为一个状态;每个簇首维护一个由Q值Q(d,x)组成的Q表,Q值的范围从0到1,其中d是以d为簇首的目的簇,x是到达目的簇的下一跳簇首x所在簇;使用一个动态的查询表,这样一个簇首节点的查询表的大小由目标簇和邻居簇的数量决定;q表和学习任务分布在不同的簇中;在QCGP中,当簇首节点接收到QHELLO消息时,可以通过更新Q值实现探测,当选择下一跳时,让簇首贪婪地行动,在每种情况下,获取具有最高Q值的行动;如果数据包能够通过动作到达目的节点,奖励R将为1,否则R将为0,当一个簇首从目的簇首接收到QHELLO时且本簇内节点与邻簇内节点可以通信上,奖励R将为1,否则R将为0,回报函数R的定义如下,其中s∈Nd代表着簇首节点s所代表的簇在目的簇首d的邻簇:



其中,折扣系数γ是一个动态参数,取决于簇内的节点数量;使用动态折扣系数,它主要取决于跳数和簇内节点密度,信息通过节点转发会使得Q值打相应地折扣,簇内节点密度让Q值打相应地折扣;使用分段函数来描述折扣因子的变化;让num(si)表示以si为簇首的簇内节点的个数,QCGP的折扣系数与簇内节点个数有关,不同的簇具有不同的γ值,让其中n=Scene_size/cluster_size,SUM为网络场景中的节点总数,n为网络中簇的平均个数,Scene_size为网络场景的大小,cluster_size为单个蜂窝的大小,γ的定义如下:



根据簇内不同的节点密度,公式将γ值映射到0.2到0.9的范围内;∈[0.2,0.9],设置为0.6,即当网格中的渔船节点数量等于所有网格的平均渔船节点数量,γ取0.6。


6.如权利要求4所述的基于分簇和增强学习的混合路由方法,其特征在于,每个簇首使用QHELLO消息与其邻居簇首交换链接信息,该链接信息包括Q表的一部分,簇内节点的IP地址和地理位置和γ值;Qs(d,x)代表着簇首s所在的簇,通过邻簇簇首...

【专利技术属性】
技术研发人员:何先灯邱熠凡姚和平孙国强高强王龙超
申请(专利权)人:大连昊洋科技发展有限公司
类型:发明
国别省市:辽宁;21

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1