一种基于深度强化学习的车联网多路径路由方法技术

技术编号：42647891 阅读：41 留言：0更新日期：2024-09-06 01:42

本发明专利技术提供一种基于深度强化学习的车联网多路径路由方法，首先在路段间应用人工蜂群算法在动态且不稳定的车联网拓扑中发现多条路径，并优先选择通信质量较好的路径。这种多维度的路径选择方法综合考虑了距离、拥塞水平和信号质量等因素，使得路径选择更加全面和优化。其次，协议在路段内部利用PPO算法对基于地理位置的路由协议进行改进，能够实时学习当前网络状况并做出智能决策，这增强了协议对高动态车联网环境的适应性。能够提升VANETs的整体性能和可靠性，确保数据传输的高效和稳定，并自适应地应对网络拓扑的快速变化和各种环境变化。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及通信网络路由，尤其涉及一种基于深度强化学习的车联网多路径路由方法。

技术介绍

1、车辆自组织网络是智能交通系统的重要组成部分，通过无线通信技术实现车辆之间的信息共享，从而为驾驶员提供实时路况、交通信息等服务。为了保障行车安全，车辆自组织网络必须具备实时通信能力，并需要一种高效且可靠的路由协议来确保信息的准确传递。

2、车辆自组织网络的路由协议通常根据路径的选择分为单路径和多路径路由协议。单路径路由协议可以进一步细分为基于拓扑的路由、基于地理位置的路由和基于集群的路由等，常见的协议包括aodv、dsr和gpsr等。例如，现有文献提出了一种自适应的基于qos的vanet路由，称为aqrv。基于反映路由路径和路径段的qos的全局和局部信息素，aqrv使用前向和后向蚂蚁通过机会式方法而不是盲目泛洪。这些协议侧重于为数据传输找到一条有效的路径，但因为缺乏备份路径，容易受到流量拥塞的影响。此外，它们也无法实现负载均衡来提高效用。相对于单路径路由，多路径路由协议选择多个路径进行数据传输，旨在提高网络的吞吐量、可靠性和容错性。通过利用网络中的多条路径，多路径路由可以缓解拥塞、提高数据传输的效率，并增强网络的鲁棒性，多路径路由对于容易发生故障的网络具有广阔的前景。

3、多路径路由又可分为不相交路径路由、节点分散路径路由和路径分散路由等类型。不相交路径路由旨在找到完全独立的多条路径，以此来避免单点故障对整个网络的影响。节点分散路径路由则是确保路径之间至少有部分节点是不同的，而路径分散路由则允许路径之间有一定程度

4、尽管取得了诸多进展，但现有的车联网的多路径路由协议往往无法有效处理车联网中车辆高速移动所导致的快速变化的网络拓扑，同时在路径选择上缺乏多维度考量。此外，多数多路径路由协议缺乏自适应学习协议，因而在适应环境和学习历史信息以调整自身行为方面存在局限。

技术实现思路

1、本专利技术的目的是提供一种基于深度强化学习的车联网多路径路由方法，能够提升vanets的整体性能和可靠性，确保数据传输的高效和稳定，并自适应地应对网络拓扑的快速变化和各种环境变化。

2、为了实现上述目的，本专利技术所采用的技术方案是：一种基于深度强化学习的车联网多路径路由方法，包括以下步骤：

3、步骤1、节点间定期交换hello数据包以维护最新的邻居信息；rsu收集并由边缘服务器同步路段的交通信息，为后续的路由决策做准备；节点根据邻居信息利用ppo算法进行训练，以形成策略网络，为数据转发做准备；

4、步骤2、当前节点vi需要转发数据包时，判断当前节点vi是否位于rsu的通信范围内；如果是，执行步骤3；若当前节点vi不在rsu的覆盖范围时，执行步骤5；

5、步骤3、执行路段间的多路径探索策略，边缘服务器检查路由表中是否存在预定义的路由信息；若无有效路由信息，执行步骤4；如果存在有效路由信息，执行步骤6；

6、步骤4、边缘服务器将利用人工蜂群算法探索并建立到目的节点的多条潜在路由，然后执行步骤6；

7、步骤5、协议默认采取路段内多跳转发策略，当前节点vi将利用ppo算法训练的策略网络来确定最佳中继节点；然后执行步骤6；

8、步骤6、逐步转发数据包；

9、步骤7、判断目的节点是否成功接收到数据包，若成功接收到数据包，路由过程结束；如果未成功接收，则重新执行步骤2。

10、优选的，所述步骤4中的人工蜂群算法在交叉路口层进行路径探索，动态地选择车载自组网中数据包沿道路转发的路由路径，得到路径集合rou＝[x1,x2,…,xn]；源节点根据一组预定义的规则对数据包进行分配，并沿选定的路径转发；当数据包在路段内逐跳转发遇到拓扑变化导致路径不再可用时，数据包会被转发到相邻的备选路径。

11、优选的，步骤4中基于人工蜂群的多条潜在路由的探索过程包括如下步骤：

12、步骤41、初始化阶段，初始化参数m，max，n，m为每个阶段的蜜蜂数量，max为最大迭代次数；n为候选路径的数量；

13、步骤42、生成初始种群；

14、步骤43、初始化迭代计数器k的值为1；

15、步骤44、初始化侦察蜂计数器c的值为0；

16、步骤45、雇佣蜂阶段，即初始路由路径选择阶段；

17、步骤46、跟随蜂阶段；

18、步骤47、侦察蜂阶段；

19、步骤48、排序与选择；

20、步骤49、迭代计数器k的值加1，即k＝k+1；

21、步骤410、检查迭代终止条件：

22、如果k＜max，则返回步骤44，

23、如果k＝max，则返回步骤48；

24、步骤411、最终选择。

25、优选的，所述步骤1和步骤5中的ppo算法的状态空间包括由节点间的距离比率、负载比率、链路生存时间和链路寿命比的状态信息构成的状态矩阵；

26、所述节点间的距离比率计算如下：

27、

28、

29、其中，ni是当前节点i的一跳邻居节点集合，mi是当前节点i的两跳邻居节点集合，是节点i到一跳邻居节点j的距离；

30、所述负载比率的计算公式如下：

31、

32、

33、其中，是节点j的数据包队列长度，是节点k的数据包队列长度；

34、所述两辆车的链路生存时间ti,j定义如下：

35、

36、式中：rc为节点的通信范围，使用不同的m和n值来估计ct的值，如果并且vi＞vj，那么，m＝-1，n＝-1；如果并且vi＜vj，那么，m＝1，n＝-1；如果并且vi接近vj，那么，m＝1，n＝1；如果并且vi远离vj，那么，m＝-1，n＝1，其中，δθi,j是两个相邻节点相对角，公式如下式：

37、

38、式中vx,i表示节点i水平方向的速度，vy,i表示节点i垂直方向的速度，vx,j表示节点j水平方向的速度，vy,j表示节点j垂直方向的速度；

39、所述链路寿命比可以表示为：

40、<本文档来自技高网...

【技术保护点】

1.一种基于深度强化学习的车联网多路径路由方法，其特征在于：包括以下步骤：

2.根据权利要求1所述的一种基于深度强化学习的车联网多路径路由方法，其特征在于：所述步骤4中的人工蜂群算法在交叉路口层进行路径探索，动态地选择车载自组网中数据包沿道路转发的路由路径，得到路径集合rou＝[x1,x2,…,xN]；源节点根据一组预定义的规则对数据包进行分配，并沿选定的路径转发；当数据包在路段内逐跳转发遇到拓扑变化导致路径不再可用时，数据包会被转发到相邻的备选路径。

3.根据权利要求1所述的一种基于深度强化学习的车联网多路径路由方法，其特征在于：步骤4中基于人工蜂群的多条潜在路由的探索过程包括如下步骤：

4.根据权利要求1所述的一种基于深度强化学习的车联网多路径路由方法，其特征在于：所述步骤1和步骤5中的PPO算法的状态空间包括由节点间的距离比率、负载比率、链路生存时间和链路寿命比的状态信息构成的状态矩阵；

5.根据权利要求1所述的一种基于深度强化学习的车联网多路径路由方法，其特征在于：所述步骤1和步骤5中的PPO算法的节点的动作空间可以描述如下：

6.根据权利要求1所述的一种基于深度强化学习的车联网多路径路由方法，其特征在于：所述步骤1和步骤5中的PPO算法的即时奖励函数如下：

7.根据权利要求1所述的一种基于深度强化学习的车联网多路径路由方法，其特征在于：所述步骤1和步骤5中的PPO算法中关键公式组成部分包括概率比率、目标函数、优势函数、价值函数、损失函数；

8.根据权利要求1所述的一种基于深度强化学习的车联网多路径路由方法，其特征在于：优选的，所述步骤4中的人工蜂群算法基于实时交通信息的适应度函数来评估路径质量，适应度函数计算公式如下：

...

【技术特征摘要】

1.一种基于深度强化学习的车联网多路径路由方法，其特征在于：包括以下步骤：

2.根据权利要求1所述的一种基于深度强化学习的车联网多路径路由方法，其特征在于：所述步骤4中的人工蜂群算法在交叉路口层进行路径探索，动态地选择车载自组网中数据包沿道路转发的路由路径，得到路径集合rou＝[x1,x2,…,xn]；源节点根据一组预定义的规则对数据包进行分配，并沿选定的路径转发；当数据包在路段内逐跳转发遇到拓扑变化导致路径不再可用时，数据包会被转发到相邻的备选路径。

3.根据权利要求1所述的一种基于深度强化学习的车联网多路径路由方法，其特征在于：步骤4中基于人工蜂群的多条潜在路由的探索过程包括如下步骤：

4.根据权利要求1所述的一种基于深度强化学习的车联网多路径路由方法，其特征在于：所述步骤1和步骤5中的ppo算法的状态空间包括由节点间...

【专利技术属性】
技术研发人员：李佩佩，王俊英，郑国强，韩哲，夏平杰，李振华，穆昱，马华红，
申请(专利权)人：河南科技大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人