一种基于集中式强化学习的网络数据接续转发选择方法技术

技术编号：38340651 阅读：13 留言：0更新日期：2023-08-02 09:21

本发明专利技术涉及一种基于集中式强化学习的网络数据接续转发选择方法，属于网络路径选择技术领域，解决了现有网络数据接续方法存在的资源利用率较低、容易陷入局部最优陷阱的问题。该方法包括：将网络实体映射成网络数字孪生体；所述网络数字孪生体包括中央控制器、由若干网络节点和边形成的网络拓扑结构；在网络数字孪生体中，中央控制器利用集中式强化学习算法对网络拓扑结构中的数据接续转发选择过程进行建模，得到集中式强化学习模型；当中央控制器接收到数据接续转发选择请求时，运行集中式强化学习模型，实现数据在网络实体中的接续转发。转发。转发。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于集中式强化学习的网络数据接续转发选择方法

[0001]本专利技术涉及网络路径选择
，尤其涉及一种基于集中式强化学习的网络数据接续转发选择方法。

技术介绍

[0002]建立在数字孪生、人工智能、区块链、大数据等核心技术基础之上的元宇宙概念及其框架，被认为是社交和娱乐未来几十年发展的方向，同时也是工业的下一次变革方向。元宇宙是连接物理世界和虚拟世界的终极形态，将成为几十年后人类的生活方式，重塑数字经济体系。元宇宙将大量离散的单点创新聚合，形成完整的应用场景和实现架构，将长期带来新的商业模式创新，并驱动相关技术实现突破。
[0003]在未来元宇宙的发展趋势引领下，可以预见的是应用场景和架构将在以数字孪生体为基础的虚拟世界中，面向应用和技术的演进，不断反复迭代，直至形成符合各方要求并匹配技术能力的最终形态。在这一过程中，如果每次场景和技术的更新都需要重新设计和建立数字孪生体，将会极大限制虚拟世界的构建效率，也不符合元宇宙快速利用多种资源、满足多种应用的需要。
[0004]因此，需要在基于计算机软件和网络技术形成的虚拟世界中，通过数字资源的优化实现这一目标。在数字孪生体中使用多个节点模拟真实物理世界中的用户，通过集中式控制和处理面向仿真节点实现拓扑控制信息的下发和指令控制，进行资源接续选择，完成数据收发等任务，是物理世界系统中的数字孪生系统模拟的有效解决思路。
[0005]目前使用最为广泛的资源接续选择算法的实现过程为：对于给定的边权为正的有向图，其中，为有向图中所有节点的集合，为有向图中...

【技术保护点】

【技术特征摘要】
1.一种基于集中式强化学习的网络数据接续转发选择方法，其特征在于，包括：将网络实体映射成网络数字孪生体；所述网络数字孪生体包括中央控制器、由若干网络节点和边形成的网络拓扑结构；在网络数字孪生体中，中央控制器利用集中式强化学习算法对网络拓扑结构中的数据接续转发选择过程进行建模，得到集中式强化学习模型；当中央控制器接收到数据接续转发选择请求时，运行集中式强化学习模型，实现数据在网络实体中的接续转发。2.根据权利要求1所述的基于集中式强化学习的网络数据接续转发选择方法，其特征在于，在所述集中式强化学习模型中，抽象所述中央控制器为智能体；抽象环境为所述网络拓扑结构建模成的加权有向图；抽象状态空间为所述网络拓扑结构中所有网络节点的工作状态的集合；抽象动作空间为数据转发到的网络节点可达的邻居网络节点构成的集合；以最小化路径拥塞为目标设计奖赏函数。3.根据权利要求2所述的基于集中式强化学习的网络数据接续转发选择方法，其特征在于，在所述状态空间中，对于每一网络节点，当数据转发到该网络节点时，工作状态为繁忙，用“1”表示；当数据未转发到该网络节点时，工作状态为空闲，用“0”表示。4.根据权利要求3所述的基于集中式强化学习的网络数据接续转发选择方法，其特征在于，数据在网络节点选择动作时的奖赏函数设置如下：
ꢀꢀꢀꢀꢀꢀ
（1）其中，网络节点选择动作的含义是：网络节点选择网络节点作为下一跳网络节点；为一个平衡常数，为从网络节点到目的节点的最短接续转发路径上的网络节点的总数，表示从网络节点到目的节点的最短接续转发路径的瓶颈资源量，表示数据从网络节点传输到网络节点所付出的代价。5.根据权利要求4所述的基于集中式强化学习的网络数据接续转发选择方法，其特征在于，数据接续转发选择请求至少包括起始节点和目标节点。6.根据权利要求5所述的基于集中式强化学习的网络数据接续转发选择方法，其特征在于，所述运行集中式强化学习模型，执行：初始化数据接续转发选择过...

【专利技术属性】
技术研发人员：杨以杰，杨振亚，
申请(专利权)人：安世亚太科技股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人