【技术实现步骤摘要】
本专利技术涉及路由优化,具体涉及一种基于深度强化学习与博弈论的智能组播路由优化方法。
技术介绍
1、随着物联网(iot)和一对多信息传输如视频会议、云存储等应用的广泛应用,传统的单播路由策略在一对多场景下传输大量数据时存在冗余传输的问题,导致网络资源浪费和拥塞风险。
2、组播技术通过源节点将数据一次性发送到多个目的节点,显著减少冗余传输,降低网络流量和能耗,尤其在物联网等场景中具有明显优势。为了满足服务质量要求,组播路由通常通过构建斯坦纳树来实现。然而,斯坦纳树的构建是一个np完全问题,常用的方法包括启发式算法和智能优化算法。这些算法虽然可以近似求解,但在多维服务质量灵活性和适应性不足,在大规模网络中仍面临能耗高、路径构建效率低等问题。为了解决这些问题,研究者提出了智能优化算法,如蚁群算法和遗传算法,这些算法可以在某些情况下找到全局最优解,但在收敛速度和计算复杂度上仍然存在局限。
3、此外,博弈论中的纳什均衡理论也被应用于组播树构建。通过多个单播路径之间的资源共享,可以最小化组播树的总成本。在实际应用中,如何有效选择共享路径以满足不同服务质量需求的流量、提高资源利用率,仍然是需要解决的问题。
技术实现思路
1、本专利技术的目的在于提供一种基于深度强化学习与博弈论的智能组播路由优化方法,通过优化组播路由路径的选择,在动态网络环境中实现资源的最优分配和高效数据传输。
2、为实现上述目的,本专利技术提供了一种基于深度强化学习与博弈论的智能组播路由优化方
3、步骤1:将现实场景中的边缘设备抽象为一个无向图网络拓扑结构,读取利用软件定义网络技术获取的网络状态信息数据集;获取组播需求,源节点s,目的节点;
4、步骤2:根据拓扑的网络状态信息对每条边设置链路成本,并基于跳数选择到达每个目的节点的k条相对较短的单播路径;
5、步骤3:根据单播路径之间存在的潜在博弈关系,建立激励单播路径去构建组播路径时选择更多共享边模型;
6、步骤4:设置深度强化学习中的状态空间、动作空间与奖励函数,通过逐步选择到达每个目的节点的单播路径的方式构建组播路径;
7、步骤5:目的节点的单播路径依次加入组播路径后给出总奖励值,通过训练达到纳什均衡状态,即不能通过改变任意一条单薄路径使得奖励值更高。
8、可选的,在步骤1中,所述无向图网络g中,g=(v,e),v是g中的节点,e是g中链路的集合,eij∈e表示节点i与节点j之间的链路,任何一个节点都可以作为源节点,同样也可以作为目的节点,源节点用s表示,d={d1,d2...dn}表示目标节点集;从源节点到多个目的节点的最小steiner树定义为求g中从s到d的最小代价树,该最小代价树经过强化学习训练得到,所求的最小代价树即为使用强化学习算法求得的最高奖励值的组播树。
9、可选的,所述网络状态信息数据集包括不同拓扑结构网络状态信息的pickle文件,来自流量生成工具对一天24小时的流量情况进行模拟,网络状态信息包括链路的剩余带宽和链路、平均传输时延和链路丢包率;
10、在步骤2的执行过程中,将链路信息中剩余带宽,平均传输时延,链路丢包率归一化并设置权重,得到任意两个节点i和j之间的边缘成本定义如下:
11、
12、τ1+τ2+τ3=1
13、其中,总代价值,α,β,γ分别是两节点之间的剩余带宽,平均传播时延和平均丢包率的归一化之后的结果,τ是可调整的权重系数。
14、可选的,在步骤3中,通过阐述路径之间的潜在博弈关系以构建最小代价值的组播树,在根据链路成本代价信息构建所得的组播树中,不能通过改变任意一条单播路径使得所构建的组播树有更低的代价,使得组播树保持纳什均衡状态。
15、可选的,步骤4的执行过程,具体为使用强化学习方法构建组播树的过程,包括下列步骤:
16、步骤4的执行过程,具体为使用强化学习方法构建组播树的过程,包括下列步骤:
17、步骤4.1:利用收集到的网络链路信息对智能体进行离线训练,学习如何构建最优组播路径,更新网络参数,并将训练好的路由策略存储在经验重放缓冲区;
18、步骤4.2:基于双深度双q网络强化学习算法使用两个网络将动作选择和动作评估分离开来,其中q网络为深度q网络是强化学习中用于近似q值函数的神经网络,而q值函数是表示在某个状态s下执行某个动作a后,智能体能获得的累计期望回报/奖励值。
19、步骤4.3:使用基于时间差分的损失函数来更新q网络的参数;
20、步骤4.4:状态空间的设计使用了五个不同的矩阵,包括拓扑连接矩阵、已选路径矩阵和三个链路信息矩阵,表达式如下:
21、st=[mt,mp,mb,md,ml]
22、其中,拓扑连接矩阵mt记录了网络中所有节点之间的连接情况,用邻接矩阵的形式展示,每个元素表示两个节点之间是否存在直接的物理连接;已选路径矩阵mp则用来跟踪在组播树构建过程中的决策情况,标记已选择的路径,避免重复选择,并辅助后续决策;三个链路信息矩阵mb,md,ml分别记录了链路的剩余带宽、时延和丢包率;
23、步骤4.5:设置奖励函数,d=(d1,d2...dn)表示目标节点集,每个目标节点di至少有一条简单路径,以从源节点获取数据,有限集表示从源节点到任意目标节点di的所有路径,pdi表示从有限集中选择的一条单播路径;
24、定义路径代价函数l(pdi)来量化到达单个目的节点的单播路径的开销,计算方式如下:
25、
26、其中,len(pdi)为所选路径pdi的长度。m为组播树中边的数量,h是调节参数,用于防止路径长度对路径选择产生过大影响;
27、根据当前目的节点状态下的单播路径开销l(pdi)分配奖励值,获得路径选择的单步奖励值rstep(pdi)可表示为:
28、rstep(pdi)=-l(pdi)。
29、可选的,在步骤5中的整个组播路径的综合奖励函数rwhole(pd)表示为:
30、
31、其中,se是使用到e这条边的所有目的节点的集合,cdi(p)表示到达di这个目的节点的单播路径代价值,所消耗的代价值越大,奖励值越小;
32、其中,分段函数用以调节奖励的分配,具体形式如下:
33、
34、x是评估指标用来衡量目标节点在该条路径上的相对成本。
35、本专利技术提供了一种基于深度强化学习与博弈论的智能组播路由优化方法,将现实场景中的边缘设备抽象为一个无向图网络拓扑结构,读取利用软件定义网络技术获取的网络状态信息数据集;根据数据集中的拓扑信息和链路信息对每条边设置链路成本;根据单播路径之间存在的潜在博弈关系,建立激励激励机制为后续强化学习训练做准备;再根据组播需求,设置深度强化学习中的状态空间、动作空间、与奖励函数。通过逐本文档来自技高网...
【技术保护点】
1.一种基于深度强化学习与博弈论的智能组播路由优化方法,其特征在于,包括下列步骤:
2.如权利要求1所述的基于深度强化学习与博弈论的智能组播路由优化方法,其特征在于,
3.如权利要求1所述的基于深度强化学习与博弈论的智能组播路由优化方法,其特征在于,
4.如权利要求1所述的基于深度强化学习与博弈论的智能组播路由优化方法,其特征在于,
5.如权利要求1所述的基于深度强化学习与博弈论的智能组播路由优化方法,其特征在于,
6.如权利要求1所述的基于深度强化学习与博弈论的智能组播路由优化方法,其特征在于,
【技术特征摘要】
1.一种基于深度强化学习与博弈论的智能组播路由优化方法,其特征在于,包括下列步骤:
2.如权利要求1所述的基于深度强化学习与博弈论的智能组播路由优化方法,其特征在于,
3.如权利要求1所述的基于深度强化学习与博弈论的智能组播路由优化方法,其特征在于,
...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。