当前位置: 首页 > 专利查询>山西大学专利>正文

一种基于深度强化学习的网络全覆盖路径集选择方法技术

技术编号:38534890 阅读:41 留言:0更新日期:2023-08-19 17:06
本发明专利技术属于网络测量技术领域,具体涉及了一种基于深度强化学习的网络全覆盖路径集选择方法,具体包括:根据路径集的大小和冗余度建立优化目标,然后根据边缘节点特性、全覆盖特性和无环特性建立约束,得到网络全覆盖路径集选择模型;将网络全覆盖路径集选择模型转化为马尔可夫决策过程,确定状态空间、动作空间和奖励信号函数;采用Actor

【技术实现步骤摘要】
一种基于深度强化学习的网络全覆盖路径集选择方法


[0001]本专利技术属于网络测量
,具体涉及一种基于深度强化学习的网络全覆盖路径集选择方法。

技术介绍

[0002]随着计算机网络规模迅速扩大,完全测量网络的每条路径效率很低,甚至是不可行的,为了提高效率,选择网络中一些更有价值并且更具有代表性的路径是十分必要的,路径选择的目的就是要找到一个包含尽可能少的路径且能够覆盖整个网络的路径集合。通过选取合理的路径集合以覆盖整个网络,不仅可以获取单个设备(路由器和交换机)或设备链的实时流量状态,而且可以获得网络的全局视图来做出最优控制决策。所以,网络全覆盖路径集的选择是网络测量和网络控制领域的基本问题之一。目前的网络全覆盖路径集选择方法存在以下不足:

路径集中路径的开始节点和结束节点为网络中的内部节点,对于一些网络内部不能够操作的情况下,这些方法将束手无策,适应性较差。

路径集中的路径带有环,不利于实际部署。

选取的路径集冗余度很高,即一条链路被多个路径所包含,这会导致引入较高的测量流量,本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于深度强化学习的网络全覆盖路径集选择方法,其特征在于,包括:步骤一:根据路径集的大小和冗余度建立优化目标,然后根据边缘节点特性、全覆盖特性和无环特性建立约束,得到网络全覆盖路径集选择模型;步骤二:将网络全覆盖路径集选择模型转化为马尔可夫决策过程,确定状态空间、动作空间表示,并根据路径集的冗余度设计奖励信号函数;步骤三:采用Actor

Critic算法训练一个actor网络和critic网络,actor网络根据当前生成的路径选择下一条链路,然后采用mask机制保证生成的路径的无环性;critic网络通过actor网络与环境交互收集的数据学习一个价值函数,进而帮助actor网络进行策略更新;步骤四:训练完成后,智能体通过actor网络逐步生成路径,当整个网络被覆盖时,得到网络全覆盖路径集。2.根据权利要求1所述的一种基于深度强化学习的网络全覆盖路径集选择方法,其特征在于:步骤一中所述的优化目标为最小化路径集P的大小与网络G关于路径集P的冗余度之和,对应的优化目标表达式为:其中,P表示所生成的路径的集合;α、β为平衡因子;表示网络G关于路径集P的冗余度,的表达式如下:其中,V为网络G的节点集合,为链路l
uv
关于路径集P的冗余度,的表达式如下:其中,表示如果节点u和节点v之间存在链路相连,并且路径p
i
包含链路l
uv
,则否则3.根据权利要求1所述的一种基于深度强化学习的网络全覆盖路径集选择方法,其特征在于:步骤一中所述的边缘节点特性表示路径集P中的路径p
i
的起始节点和终止节点必须是网络的边缘节点,边缘节点特性对应的约束条件表达式如下:其中,表示如果节点v(v∈V)在路径p
i
上,则否则h
v
表示如果节点v是一个边缘节点,则h
v
=1,否则h
v
=0;d
v
表示节点v的度。4.根据权利要求1所述的一种基于深度强化学习的网络全覆盖路径集选择方法,其特征在于:步骤一中所述的全覆盖特性表示路径集P中的链路必须覆盖整个网络G的链路集合L
G
,全覆盖特性对应的约束条件表达式如下:
其中,表示如果节点u和节点v之间存在链路相连,...

【专利技术属性】
技术研发人员:胡治国李志栋郝志强刘志胜席志琴秦雪健杨永杰
申请(专利权)人:山西大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1