一种基于强化学习的行星表面自适应机会路由方法技术

技术编号：40342500 阅读：5 留言：0更新日期：2024-02-09 14:29

本发明专利技术是一种基于强化学习的行星表面自适应机会路由方法，属于通信技术领域。本发明专利技术方法包括：初始定义自组织网络中节点的主次转发域，节点所需存储的信息内容，数据包所需传输的信息内容；在各节点中设置用于选择转发节点的强化学习算法，该算法利用Q函数将节点的局部环境信息映射为Q值，并将Q值转化为动态时延惩罚；最小Q值的节点将受到最小的时延惩罚，最早结束等待进行数据包转发赢得竞争；根据赢得竞争的节点位于的主或次转发域，设计不同竞争机制；设置强化学习算法训练时的探索模式、转发节点为上一跳节点时的恢复模式。本发明专利技术避免了终端隐藏问题，能根据环境变化自主切换节点实现自适应改变传输路径，实现行星表面高效稳定通信。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于通信，涉及卫星通信，尤其涉及一种基于强化学习的行星表面自适应机会路由方法。

技术介绍

1、随着通信模块日益小型化，车载通信模块、船载通信模块、无人机机载通信模块相继得到了应用。动态自组织网络所处的工作环境愈加的广泛，同时其面临的情况也愈加复杂。

2、为进一步增强对深空环境，尤其是月球、火星等太阳系内天体环境的了解，使用多探测器组成的自组网对行星表面探测是一个经济且高效的方案。运行在行星表面的自组网将面临复杂的电磁以及地形环境的限制。这一限制将极大的削弱自组网节点的通信范围，使得因节点稀疏而产生的路由空洞问题更加严峻。另外由于节点之间的相对高动态以及受载荷限制而导致的通信性能约束，使得自组网在拓扑和链路容量上也处于一个高动态的状态。

3、现有的自组网路由方法无法对复杂环境下的高动态网络做出自适应的调整，通信的稳定性较差，通信时延较大。

技术实现思路

1、针对行星表面探测场景中由未知环境导致的路由空洞，多器相对运动速度高以及硬件限制导致的信道容量小，使得深空移动自组网的路由协议迫切需要解决的问题，本专利技术提供了一种基于强化学习的行星表面自适应机会路由方法，以最大限度提升自组网的数据包接受率，降低端到端时延。本专利技术方法扩大了机会路由的转发域，并设计双竞争机制避免了终端隐藏问题，同时设计强化学习算法提高路由方法的自适应能力，建立了训练模式下的探索算法和特殊情况下的恢复算法以扩展路由方法的探索能力并且避免路由环路的出现。

2、本专利技术

3、步骤一、初始化设置，包括：定义自组织网络中节点的转发域，节点所需存储的信息内容，以及数据包所需传输的信息内容；其中，节点的转发域分为主转发域和次转发域，设当前节点与目标节点的连线为正方向，以当前节点为顶点，以正方向为中心线的夹角为60°的扇形区域为主转发域，节点周向通信范围内剩余的区域为次转发域；节点所需存储的信息内容和数据包所需传输的信息内容中包含节点的局部环境信息，利用q函数将局部环境信息映射成一维q值。

4、步骤二、在各节点中设置用于选择转发节点的强化学习算法。强化学习算法设计包括q函数设计和动态时延惩罚计算。强化学习算法利用q函数将节点的局部环境信息映射为q值，并将q值转化为动态时延惩罚。当前发送节点将数据包广播给通信范围内的所有邻居节点，邻居节点在接收到数据包后，计算q值并将q值转化为动态时延惩罚，最小q值的节点将受到最小的时延惩罚，最早结束等待进行数据包转发赢得竞争。

5、步骤三、根据最先赢得竞争的邻居节点位于主转发域还是次转发域，设计不同竞争机制；当该邻居节点位于主转发域内时，直接转发数据包；当该邻居节点位于次转发域内时，先向当前发送节点发送转发请求，在接收到同意转发的信令消息后再转发数据包；

6、所述的方法还设置有备份模式，包括设置强化学习算法训练时的探索模式，以及设置转发节点为上一跳节点时的恢复模式。强化学习算法训练时的探索模式是指，在强化学习算法训练阶段，探索各种可能的传输路径用以训练q函数。当出现节点要将数据包发送给上一跳节点的情况时，启动恢复模式，在恢复模式下改变动态时延惩罚计算方式，设置当前发送节点转发域内的邻居节点的动态时延惩罚与q值不相关，当前发送节点通信范围内的节点重新计算动态时延惩罚，避免产生路由回路。

7、所述的步骤二中，所述强化学习算法利用q函数将节点的局部环境信息映射为q值，并将q值转化为动态时延惩罚；所述q函数为一个双层全连接神经网络，表示为利用函数f计算q值，如下：

8、q(st，at，w)＝f([d(pl，pc)，d(pc，pd)，θf，θl，npc])

9、其中，状态st表示将数据包从当前发送节点发送到目的节点，动作at表示选择转发节点进行转发；w为q函数的网络权重值；q(st，at，w)为基于st，at计算得到的q值；pl，pc，pd分别为当前发送节点坐标、转发节点坐标和目的节点坐标；d(pl，pc)为pl，pc之间的欧式距离，d(pc，pd)为pc，pd之间的欧式距离；θf表示当前发送节点与目标节点连线和当前发送节点与转发节点连线的夹角；θl表示当前发送节点与目标节点连线与当前发送节点和上一跳节点连线的夹角；npc为当前发送节点的加权邻居系数。

10、将q(st，at，w)转化为动态时延惩罚ddc如下：

11、

12、其中，qmin和qmax记录在数据包所需传输的信息内容中，ddcmax为预先设置的最大惩罚时间。qmax是数据包被上一跳节点转发时的q值。qmin是数据包被处于当前发送节点与目标节点连线和当前发送节点的通信边缘交界处的无队列节点转发时的q值。

13、相对于现有技术，本专利技术方法的有益效果在于：

14、(1)本专利技术方法实现了一种能够在行星表面高效稳定通信的路由方法，能够根据环境变化自主切换节点进行自组网通信。

15、(2)本专利技术方法将强化学习融入机会路由方法，利用了无线通信的广播特性，以先广播后转发的方式提高了通信的传输稳定性。为应对高动态的环境，本专利技术方法使用了强化学习算法，设计将q值转换为动态时延惩罚，使得通信范围内的各节点在不获取其他节点的信息的情况下实现相互竞争，最小q值的节点将受到最小的时延惩罚，最早结束等待进行数据包转发赢得竞争，使得本专利技术路由方法能够根据检测到的局部环境自适应的改变传输路径。

16、(3)本专利技术方法将自身的转发域扩大成为发送节点的整个通信域，并设计了双竞争机制避免终端隐藏问题，以先广播后转发的方式提高了通信的传输稳定性。本专利技术方法通过主转发域直接竞争，次转发域通过发送节点间接竞争的方式，既扩大了转发域范围，避免出现和其余机会路由类似的无节点转发的问题，又避免了因为终端隐藏问题导致多个节点同时转发消息的问题。

17、(4)本专利技术方法设置备份模式，通过在强化学习算法训练时的探索模式避免q函数陷入局部最优解的情况，通过设置转发节点为上一跳节点时的恢复模式避免出现路由回路的问题。通过设置备份模式，进一步保障本专利技术路由方法的探索能力，以及传输路径稳定。

本文档来自技高网...

【技术保护点】

1.一种基于强化学习的行星表面自适应机会路由方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的方法，其特征在于，所述的步骤一中，节点所需存储的信息内容包括：当前时刻节点坐标，当前时刻节点的通信队列长度，邻居信息表Neighbor_table，以及Q函数；其中，邻居信息表中记录节点在设定时间段内收到的通信范围内的邻居节点的坐标、邻居节点的队列长度以及邻居系数表；将发送节点的通信范围沿周向360°划分为六等分，邻居系数表记录每个区域内的各邻居节点到发送节点的通信边缘的长度与发送节点通信半径的比值之和。

3.根据权利要求1或2所述的方法，其特征在于，所述的步骤一中，数据包所需传输的信息内容包括：目标节点的坐标，发送节点的坐标，上一跳发送节点的坐标，发送节点的加权邻居系数NPc，发送节点预计的最大Q值和最小Q值；

4.根据权利要求1或2所述的方法，其特征在于，所述的步骤二中，设计Q函数的目标函数，以不断迭代更新Q值；

5.根据权利要求1或2所述的方法，其特征在于，所述的步骤三包括：

6.根据权利要求l或2所述的方法，其特

7.根据权利要求6所述的方法，其特征在于，所述的强化学习算法训练时的探索模式，在训练阶段，设置Q值转化为动态时延惩罚的计算公式如下：

8.根据权利要求6所述的方法，其特征在于，所述的转发节点为上一跳节点时的恢复模式，设置当前发送节点转发域内的邻居节点的动态时延惩罚与Q值不相关，对于处于当前发送节点主转发域内的节点，设置该节点的动态时延惩罚为：

...

【技术特征摘要】

1.一种基于强化学习的行星表面自适应机会路由方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的方法，其特征在于，所述的步骤一中，节点所需存储的信息内容包括：当前时刻节点坐标，当前时刻节点的通信队列长度，邻居信息表neighbor_table，以及q函数；其中，邻居信息表中记录节点在设定时间段内收到的通信范围内的邻居节点的坐标、邻居节点的队列长度以及邻居系数表；将发送节点的通信范围沿周向360°划分为六等分，邻居系数表记录每个区域内的各邻居节点到发送节点的通信边缘的长度与发送节点通信半径的比值之和。

3.根据权利要求1或2所述的方法，其特征在于，所述的步骤一中，数据包所需传输的信息内容包括：目标节点的坐标，发送节点的坐标，上一跳发送节点的坐标，发送节点的加权邻居系数npc，发送节点预计的最大q值和最小...

【专利技术属性】
技术研发人员：赵中亮，曹先彬，汪一杰，于子平，
申请(专利权)人：北京航空航天大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人