一种基于分簇和增强学习的混合路由方法、海洋通信系统技术方案

技术编号：25194005 阅读：53 留言：0更新日期：2020-08-07 21:20

本发明专利技术属于海洋通信技术领域，公开了一种基于分簇和增强学习的混合路由方法、海洋通信系统，宏观上在线学习簇整体的Q值确定最佳下一跳网格，局部确定最佳网格中的特定节点，以选择下一跳节点，结合AODV算法按需路由的思想以及GPSR的贪婪原则实现路由发现过程，当节点需要发送数据包给目的节点时，如果存在相应的路由信息，直接发送数据包，如果没有相应的路由信息，则查找该目的节点是否在邻接表中，根据相应的节点转发策略进行转发，直到到达目的节点。本发明专利技术减少了广播的洪泛，减少了路由开销；能有效避免路由空洞的同时，选出的路径更加适合当前的网络状态，丢包率更小。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于分簇和增强学习的混合路由方法、海洋通信系统
本专利技术属于海洋通信
，尤其涉及一种基于分簇和增强学习的混合路由方法、海洋通信系统。
技术介绍
目前，由于海洋通信环境基础设施的缺乏，使得陆地上成熟的无线通信技术无法直接应用在海洋通信系统，Adhoc是实现海洋远程通信的主要技术之一。因为AdHoc网络可以采用多跳转发的方式进行数据传输，所以需要路由协议建立从源节点到目的节点之间的可达路径。而路由发现方式和路由选择策略是协议的核心问题。根据路由建立过程的不同，可分为以下几类：主动式路由协议如OLSR，节点周期性地广播路由分组，获得网络中节点间的链路信息。然后根据拓扑信息，结合合适的路由算法，节点建立到达网络内所有节点的路由，并根据接收的路由消息实时更新路由表。按需式路由协议如AODV，当源节点需要发送数据却没有到目的节点的路由，才通过路由发现来获得所需要的路由。基于地理位置的协议如GPSR，网络内的节点在获取自身的定位信息后，通过位置服务协议获得目的节点的位置，使用信标交互的方式获取邻居节点具体地理位置。利用...

【技术保护点】
1.一种基于分簇和增强学习的混合路由方法，其特征在于，所述基于分簇和增强学习的混合路由方法QCGP宏观上在线学习簇整体的Q值确定最佳下一跳网格，局部确定最佳网格中的特定节点，以选择下一跳节点，结合AODV算法按需路由的思想以及GPSR的贪婪原则实现路由发现过程，当节点需要发送数据包给目的节点时，如果存在相应的路由信息，直接发送数据包，如果没有相应的路由信息，则查找该目的节点是否在邻接表中，根据相应的节点转发策略进行转发，直到到达目的节点；否则通过路由发现过程结合Q学习建立到目的节点的路由信息。/n

【技术特征摘要】
1.一种基于分簇和增强学习的混合路由方法，其特征在于，所述基于分簇和增强学习的混合路由方法QCGP宏观上在线学习簇整体的Q值确定最佳下一跳网格，局部确定最佳网格中的特定节点，以选择下一跳节点，结合AODV算法按需路由的思想以及GPSR的贪婪原则实现路由发现过程，当节点需要发送数据包给目的节点时，如果存在相应的路由信息，直接发送数据包，如果没有相应的路由信息，则查找该目的节点是否在邻接表中，根据相应的节点转发策略进行转发，直到到达目的节点；否则通过路由发现过程结合Q学习建立到目的节点的路由信息。

2.如权利要求1所述的基于分簇和增强学习的混合路由方法，其特征在于，所述基于分簇和增强学习的混合路由方法包括：
步骤一，源节点需要发送数据包给目的节点时，首先判断是否存在路由信息，若存在则开始传输数据；若不存在，则查找该节点是否在邻接表中，若在，根据本发明中的节点转发策略，在正常参与数据包转发的节点中选择距离目的节点最近的邻居节点进行转发，直到到达目的节点；否则判断自身节点角色，如果是簇成员节点，启动路由发现过程，先发送数据请求包给簇首，然后转到步骤二；若是簇头节点，直接转到步骤二；
步骤二，簇首产生RREQ，并将源节点的地理位置，源节点所在簇ID和Q表最大值一并添加到RREQ中，广播RREQ，转到步骤三；
步骤三，中间节点收到RREQ，若当前节点为普通节点且收到的RREQ为本簇的RREQ，则本地存储RREQ中的Q表最大值；若当前节点为普通节点且收到的RREQ为邻簇的RREQ，则直接丢弃；若当前节点为簇首，则解析RREQ包并根据公式对Q值进行更新，并将更新后的Q表最大值写入RREQ，并广播RREQ，转到步骤四；
根据公式对Q值进行更新：

其中y∈Nx代表着簇首节点y所在的簇在簇首x的邻簇，R为回报函数，定义簇i的Q值表的最大Q值集合为其中d1,d2,...,dn表示目的簇，yi,yj,...,yk表示簇首i所在簇的邻接簇，表示Q值表中以邻接簇yk为到目的簇dn下一转发簇对应的Q值；实际上即MaxQValuesi的一个元素，MaxQValuesi数组由RREQ发送方节点计算并与其RREQ消息一起发送；
步骤四，如果目的节点收到RREQ，产生RREP，选择到源节点所在簇Q值最大的簇作为下一跳转发簇，且在该下一跳转发簇内选择CIj＞CIthreshold&&CRij＞CRthreshold且到源节点距离最近的邻居节点作为下一跳节点，转到步骤五；否则转到步骤三；
步骤五，中间节点收到RREP，选择到源节点所在簇Q值最大的簇作为下一跳转发簇，且在该簇内选择CIj＞CIthreshold&&CRij＞CRthreshold且到源节点距离最近的邻居节点作为下一跳节点，并建立正向路由；
步骤六，若源节点收到RREP，路由建立完成，开始传输数据；否则转到步骤五。

3.如权利要求2所述的基于分簇和增强学习的混合路由方法，其特征在于，所述基于分簇和增强学习的混合路由方法中的分簇和时帧设计，通过地理位置分簇，并进行时隙划分，减少邻居节点发现时的碰撞，以改进邻居节点发现过程的性能；本发明采用TDMA机制，将时间周期性地划分为一个个时间片，一个时间片为2s，在每个时间片中，又分成邻居发现时段和数传时段；在邻居节点发现阶段，普通节点之间先进行HELLO消息广播，随后进行簇首竞选，距离簇中心最近的节点成为簇首；在数据传输阶段先进行簇首的QHELLO包广播，随后进行数据传输；邻居簇首间通过降低信息速率的方式实现簇首2倍于普通节点通信距离的方式，使得邻居簇首间直接通信可达，本发明中本簇节点不对来自本簇和邻簇之外的簇首发来的QHELLO包和RREQ包进行处理。

4.如权利要求2所述的基于分簇和增强学习的混合路由方法，其特征在于，所述基于分簇和增强学习的混合路由方法通过试错的方法发现最优行为策略，强化学习系统根据内部的工作机制对收到的环境状态s做出相应的行为，系统输出相应的行为动作a，而环境在系统动作a的作用下，变迁到新的状态s′，同时得到环境对于系统的瞬时奖惩反馈r；Q学习系统是系统选择的动作从环境中获得的环境奖赏值累计最大这样一个策略动作，即π：S→A，其中Q值得更新公式：

其中α表示学习率，γ为折扣因子，ri是回报函数；系统产生该动作的趋势决定于环境的奖赏值，即回报函数，如果为正的奖赏值则趋势会越来越强，如果为负的奖赏值则趋势会越来越弱；对于渔用自组网，当数据包在网络中传输时，在数据包到达目的节点之前，无法确定奖励，不能使用基于模型的方法，故选择使用Q学习来选择最佳路由。

5.如权利要求4所述的基于分簇和增强学习的混合路由方法，其特征在于，将地理区域划分成大小一致的正六边形，称为簇；每个渔船本地存储簇首发送的Q表，QCGP路由由两部分组成，从宏观角度确定最佳下一跳簇，从微观角度识别所选网格中的特定渔船；将不同的簇定义为一个状态；每个簇首维护一个由Q值Q(d，x)组成的Q表，Q值的范围从0到1，其中d是以d为簇首的目的簇，x是到达目的簇的下一跳簇首x所在簇；使用一个动态的查询表，这样一个簇首节点的查询表的大小由目标簇和邻居簇的数量决定；q表和学习任务分布在不同的簇中；在QCGP中，当簇首节点接收到QHELLO消息时，可以通过更新Q值实现探测，当选择下一跳时，让簇首贪婪地行动，在每种情况下，获取具有最高Q值的行动；如果数据包能够通过动作到达目的节点，奖励R将为1，否则R将为0，当一个簇首从目的簇首接收到QHELLO时且本簇内节点与邻簇内节点可以通信上，奖励R将为1，否则R将为0，回报函数R的定义如下，其中s∈Nd代表着簇首节点s所代表的簇在目的簇首d的邻簇：

其中，折扣系数γ是一个动态参数，取决于簇内的节点数量；使用动态折扣系数，它主要取决于跳数和簇内节点密度，信息通过节点转发会使得Q值打相应地折扣，簇内节点密度让Q值打相应地折扣；使用分段函数来描述折扣因子的变化；让num(si)表示以si为簇首的簇内节点的个数，QCGP的折扣系数与簇内节点个数有关，不同的簇具有不同的γ值，让其中n＝Scene_size/cluster_size，SUM为网络场景中的节点总数，n为网络中簇的平均个数，Scene_size为网络场景的大小，cluster_size为单个蜂窝的大小，γ的定义如下：

根据簇内不同的节点密度，公式将γ值映射到0.2到0.9的范围内；∈[0.2，0.9]，设置为0.6，即当网格中的渔船节点数量等于所有网格的平均渔船节点数量，γ取0.6。

6.如权利要求4所述的基于分簇和增强学习的混合路由方法，其特征在于，每个簇首使用QHELLO消息与其邻居簇首交换链接信息，该链接信息包括Q表的一部分，簇内节点的IP地址和地理位置和γ值；Qs(d,x)代表着簇首s所在的簇，通过邻簇簇首...

【专利技术属性】
技术研发人员：何先灯，邱熠凡，姚和平，孙国强，高强，王龙超，
申请(专利权)人：大连昊洋科技发展有限公司，
类型：发明
国别省市：辽宁;21

全部详细技术资料下载我是这个专利的主人