一种基于集中式强化学习的网络数据接续转发选择方法技术

技术编号:38340651 阅读:13 留言:0更新日期:2023-08-02 09:21
本发明专利技术涉及一种基于集中式强化学习的网络数据接续转发选择方法,属于网络路径选择技术领域,解决了现有网络数据接续方法存在的资源利用率较低、容易陷入局部最优陷阱的问题。该方法包括:将网络实体映射成网络数字孪生体;所述网络数字孪生体包括中央控制器、由若干网络节点和边形成的网络拓扑结构;在网络数字孪生体中,中央控制器利用集中式强化学习算法对网络拓扑结构中的数据接续转发选择过程进行建模,得到集中式强化学习模型;当中央控制器接收到数据接续转发选择请求时,运行集中式强化学习模型,实现数据在网络实体中的接续转发。转发。转发。

【技术实现步骤摘要】
一种基于集中式强化学习的网络数据接续转发选择方法


[0001]本专利技术涉及网络路径选择
,尤其涉及一种基于集中式强化学习的网络数据接续转发选择方法。

技术介绍

[0002]建立在数字孪生、人工智能、区块链、大数据等核心技术基础之上的元宇宙概念及其框架,被认为是社交和娱乐未来几十年发展的方向,同时也是工业的下一次变革方向。元宇宙是连接物理世界和虚拟世界的终极形态,将成为几十年后人类的生活方式,重塑数字经济体系。元宇宙将大量离散的单点创新聚合,形成完整的应用场景和实现架构,将长期带来新的商业模式创新,并驱动相关技术实现突破。
[0003]在未来元宇宙的发展趋势引领下,可以预见的是应用场景和架构将在以数字孪生体为基础的虚拟世界中,面向应用和技术的演进,不断反复迭代,直至形成符合各方要求并匹配技术能力的最终形态。在这一过程中,如果每次场景和技术的更新都需要重新设计和建立数字孪生体,将会极大限制虚拟世界的构建效率,也不符合元宇宙快速利用多种资源、满足多种应用的需要。
[0004]因此,需要在基于计算机软件和网络技术形成的虚拟世界中,通过数字资源的优化实现这一目标。在数字孪生体中使用多个节点模拟真实物理世界中的用户,通过集中式控制和处理面向仿真节点实现拓扑控制信息的下发和指令控制,进行资源接续选择,完成数据收发等任务,是物理世界系统中的数字孪生系统模拟的有效解决思路。
[0005]目前使用最为广泛的资源接续选择算法的实现过程为:对于给定的边权为正的有向图,其中,为有向图中所有节点的集合,为有向图中所有边的集合;如果把节点集合划分为两个子集和,其中令为起始节点集合,中包含除了集合以外的所有节点,即为目的点集合,定义为起始节点到目的节点的距离。其基本思想描述如下:(1)设定起始节点和目的节点,如果起始节点和目的节点之间存在边,则,否则。
[0006](2)定义初始值对中所有的节点,通过比较找出和起始节点之间距离最小的节点,即:即:。则就是集合中所有的节点距离起始节点最近的节点。把节点从中删除并加入集合中,作为集合中的新任起始节点。即:。
[0007](3)继续上述步骤(2),直到中的目的节点被加入到集合中,此时,为起始节点和目的节点之间的最短路径。
[0008]上述算法在实现过程中,无法充分利用网络资源,资源利用率偏低,例如,在存在
其他可用数据路径时,仍会按照原路径进行数据转发,直到此条路径发生阻塞之后,才会考虑重新选取新的数据转发路径。当前算法只对局部资源接续选择路径进行甄别,没有从整体网络层面进行统一考虑,容易陷入局部最优的陷阱。

技术实现思路

[0009]鉴于上述的分析,本专利技术实施例旨在提供一种基于集中式强化学习的网络数据接续转发选择方法,用以解决现有网络数据接续方法存在的资源利用率较低、容易陷入局部最优陷阱的问题。
[0010]本专利技术公开了一种基于集中式强化学习的网络数据接续转发选择方法,包括:将网络实体映射成网络数字孪生体;所述网络数字孪生体包括中央控制器、由若干网络节点和边形成的网络拓扑结构;在网络数字孪生体中,中央控制器利用集中式强化学习算法对网络拓扑结构中的数据接续转发选择过程进行建模,得到集中式强化学习模型;当中央控制器接收到数据接续转发选择请求时,运行集中式强化学习模型,实现数据在网络实体中的接续转发。
[0011]在上述方案的基础上,本专利技术还做出了如下改进:进一步,在所述集中式强化学习模型中,抽象所述中央控制器为智能体;抽象环境为所述网络拓扑结构建模成的加权有向图;抽象状态空间为所述网络拓扑结构中所有网络节点的工作状态的集合;抽象动作空间为数据转发到的网络节点可达的邻居网络节点构成的集合;以最小化路径拥塞为目标设计奖赏函数。
[0012]进一步,在所述状态空间中,对于每一网络节点,当数据转发到该网络节点时,工作状态为繁忙,用“1”表示;当数据未转发到该网络节点时,工作状态为空闲,用“0”表示。
[0013]进一步,数据在网络节点选择动作时的奖赏函数设置如下:
ꢀꢀ
(1)其中,网络节点选择动作的含义是:网络节点选择网络节点作为下一跳网络节点;为一个平衡常数,为从网络节点到目的节点的最短接续转发路径上的网络节点的总数,表示从网络节点到目的节点的最短接续转发路径的瓶颈资源量,表示数据从网络节点传输到网络节点所付出的代价。
[0014]进一步,数据接续转发选择请求至少包括起始节点和目标节点。
[0015]进一步,所述运行集中式强化学习模型,执行:初始化数据接续转发选择过程的起始节点和目标节点;对于每轮实际探索过程,初始化,然后执行从起始节点到目的节点的数据接续转发选择,获取相应实际探索轮数最终的;所有实际探索轮数探索过程结束后,选取存储的所有实际探索轮数最终的
的最大值对应的、从起始节点到目的节点的数据接续转发选择过程,实现数据在网络实体中的接续转发。
[0016]进一步,初始化数据接续转发选择过程的起始节点和目的节点的同时,还初始化稳定探索轮数、探索总轮数及探索概率,初始化学习率和奖赏的衰减率;初始化实际探索轮数为1;稳定探索轮数小于探索总轮数。
[0017]进一步,对于每轮实际探索过程,执行:若实际探索轮数不超过稳定探索轮数,保持;若实际探索轮数在稳定探索轮数到探索总轮数之间,更新为;若实际探索轮数大于探索总轮数,所有实际探索轮数探索过程结束;给定状态为起始状态,初始化状态函数和效用迹,初始化历史列表;从起始节点开始,每一步数据接续转发选择过程均执行以下操作:智能体根据策略在状态下选择,得到奖赏函数和下一步状态,并获取状态下可选的动作;更新,表示状态下选择的动作为状态下的最优数据接续转发路径上的下一跳网络节点;将历史列表;更新TD误差参数;对于历史列表中的:更新;更新;更新为;若更新后的状态为目的节点对应的状态,存储当前实际探索轮数最终的,实际探索轮数加1,然后跳转到下一轮实际探索过程;否则,跳转到下一步数据接续转发选择过程中。
[0018]进一步,在所述起始状态中,起始节点的工作状态表示为1,其余网络节点的工作状态表示为0。
[0019]进一步,当更新后的状态为目的节点对应的状态时,目的节点的工作状态为1,其余网络节点的工作状态表示为0。
[0020]与现有技术相比,本专利技术至少可实现如下有益效果之一:本专利技术提供的基于集中式强化学习的网络数据接续转发选择方法,通过建模集中式强化学习模型,并优化该模型中智能体、状态、动作及奖赏函数的设置,并通过优化集中式强化学习模型的运行过程,能够有效提高资源利用率,有效解决了现有网络数据接续方法存在的资源利用率较低。此外,由于在每一网络节点均要进行择优选择,很好地解决了现
有方式容易陷入局部最优陷阱的问题。
[0021]本专利技术中,上述各技术方案之间还可以相互组合,以实现更多的优选组合方案。本专利技术的其他特征和优点将在随后的说明书中阐述,并且,部分优点可从说明书中变得显而易见,或者通过实施本专利技术而了解。本专利技术的目本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于集中式强化学习的网络数据接续转发选择方法,其特征在于,包括:将网络实体映射成网络数字孪生体;所述网络数字孪生体包括中央控制器、由若干网络节点和边形成的网络拓扑结构;在网络数字孪生体中,中央控制器利用集中式强化学习算法对网络拓扑结构中的数据接续转发选择过程进行建模,得到集中式强化学习模型;当中央控制器接收到数据接续转发选择请求时,运行集中式强化学习模型,实现数据在网络实体中的接续转发。2.根据权利要求1所述的基于集中式强化学习的网络数据接续转发选择方法,其特征在于,在所述集中式强化学习模型中,抽象所述中央控制器为智能体;抽象环境为所述网络拓扑结构建模成的加权有向图;抽象状态空间为所述网络拓扑结构中所有网络节点的工作状态的集合;抽象动作空间为数据转发到的网络节点可达的邻居网络节点构成的集合;以最小化路径拥塞为目标设计奖赏函数。3.根据权利要求2所述的基于集中式强化学习的网络数据接续转发选择方法,其特征在于,在所述状态空间中,对于每一网络节点,当数据转发到该网络节点时,工作状态为繁忙,用“1”表示;当数据未转发到该网络节点时,工作状态为空闲,用“0”表示。4.根据权利要求3所述的基于集中式强化学习的网络数据接续转发选择方法,其特征在于,数据在网络节点选择动作时的奖赏函数设置如下:
ꢀꢀꢀꢀꢀꢀ
(1)其中,网络节点选择动作的含义是:网络节点选择网络节点作为下一跳网络节点;为一个平衡常数,为从网络节点到目的节点的最短接续转发路径上的网络节点的总数,表示从网络节点到目的节点的最短接续转发路径的瓶颈资源量,表示数据从网络节点传输到网络节点所付出的代价。5.根据权利要求4所述的基于集中式强化学习的网络数据接续转发选择方法,其特征在于,数据接续转发选择请求至少包括起始节点和目标节点。6.根据权利要求5所述的基于集中式强化学习的网络数据接续转发选择方法,其特征在于,所述运行集中式强化学习模型,执行:初始化数据接续转发选择过...

【专利技术属性】
技术研发人员:杨以杰杨振亚
申请(专利权)人:安世亚太科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1