本发明专利技术涉及信息技术领域,公开了一种基于多智能体强化学习路由策略控制路由动作的方法,包括:训练强化学习模型,所述强化学习模型利用Q学习算法更新路由节点的决策值,并结合更新的所述决策值利用策略梯度算法更新策略参数;根据所述路由节点转发数据包的目标节点以及所述路由节点所在通讯网络中的网络负载,利用所述强化学习模型确定策略参数;根据所述策略参数,确定所述路由节点的传出链接。本发明专利技术针对动态变化的网络连接的模式和网络负载,路由节点都能及时调整路由策略,根据数据包的目标节点选择合适的最短路径,最终大大减少了数据包的平均递送时间。
【技术实现步骤摘要】
基于多智能体强化学习路由策略控制路由动作的方法
本专利技术涉及信息
,尤其涉及一种基于多智能体强化学习路由策略控制路由动作的方法。
技术介绍
通讯网络中的封包路由(packetrouting)是序列决策中的一个重要应用问题。一个通讯网络包括一组节点和连接这些节点的链接,数据中心网络和互联网可以被看作通讯网络的现实例子。在一个通讯网络中,信息以数据包的形式在节点间传递。路由选择就是指导数据包如何通过一系列的中间节点,从初始节点到达目标节点的决策过程。通常情况下,数据包在通讯网络中存在多个路径可供选择,而且路径的选择通常决定了数据包的平均递送时间。目前,针对封包路由问题已经有非常多的基于领域知识以及实践经验的启发式算法被提出,然而其中大部分的路由方法都依赖于对特定环境的理解来建立模拟网络模型。这些模拟网络模型忽略了许多重要的网络特点,比如动态变化的网络负载和移动用户,因此在这些模型下所做出的路由选择往往并不能使得数据包的平均递送时间降低到最小。
技术实现思路
为了解决相关技术中存在的问题,本公开实施例提供一种基于多智能体强化学习路由策略控制路由动作的方法。本公开实施例提供的一种基于多智能体强化学习路由策略控制路由动作的方法,包括:训练强化学习模型,所述强化学习模型利用Q学习算法更新路由节点的决策值,并结合更新的所述决策值利用策略梯度算法更新策略参数;根据所述路由节点转发数据包的目标节点以及所述路由节点所在通讯网络中的网络负载,利用所述强化学习模型确定策略参数;根据所述策略参数,确定所述路由节点的传出链接。可选地,所述强化学习模型利用Q学习算法更新路由节点的决策值,包括:使用以下公式1更新决策值Qi(s,a):其中,(s,a)组成一对状态-动作组合,s表示t时刻的状态,即数据包的目标节点,a表示s状态下的动作,即数据包的传出链接;上标i、j分别表示路由节点,路由节点j为路由节点i的邻居路由节点;α为更新决策值Qi(s,a)的学习率;γ∈[0,1]为折算系数;为t时刻下路由节点i通过传出链接ai转发数据包至目标节点s的决策值的预测量;为t时刻下路由节点i通过选择传出链接a转发数据包而获得的及时奖励,其为数据包在路由节点i的缓存延迟与数据包在传出链接a的传输延迟之和的负数;为在t时刻下路由节点j通过传出链接aj转发数据包至目标节点s的决策值。可选地,所述结合更新的所述决策值利用策略梯度算法更新策略参数,包括:使用如下公式2更新策略参数θi:其中,θi为所有状态-动作组合(s,a)对应的参数集合,用来标记状态-动作组合(s,a)的偏好值;β为更新策略参数θi的学习率;公式2中是在t时刻下对Qπ(s,a)的估计值,Qπ(s,a)为从状态s开始,遵循策略π作出传出链接a的决策值,根据公式1更新后的决策值确定;表示对θ求导;π(a|s,θi)表示在状态s下选择动作a的概率,由策略参数θi决定,按照SoftMax函数定义如下:其中,∑a′expθsa′为遍历路由节点i所有可能的传出链接a′;对π(a|s,θi)求导为:其中,表示路由节点i对状态-动作组合的偏好值,表示当前数据包的目标节点,表示当前数据包的传出链接。可选地,所述方法还包括:利用资格迹更新策略梯度使用如下公式3:其中,资格迹按照式4进行更新:其中,用来记录路由节点i过去的梯度更新痕迹;ρ为梯度的折算系数;表示策略π在t时刻的资格;公式3中是在t时刻下对Qπ(s,a)的估计值,Qπ(s,a)为从状态s开始,遵循策略π作出传出链接a的决策值,根据公式1更新后的决策值确定。可选地,所述方法还包括:利用全局反馈信号更新策略参数θi,使用如下公式5:其中,δt为路由节点i的全局反馈信号;(St,At)为t时刻整个网络的状态-联合动作集合;St为t时刻所有激活的路由节点的状态;A为St状态下所有激活的路由节点的联合动作;A′为St+1状态下所有激活的路由节点的联合动作;Rt为路由网络在t时刻所产生的全局奖励;τt标记t时刻作出路由动作的路由节点的集合;估计了t时刻所有被传输的数据包的总递送时间;为路由节点i的决策值,根据公式1更新后的决策值确定。本公开实施例提供的技术方案可以包括以下有益效果:根据本公开实施例提供的技术方案,通过训练强化学习模型,利用Q学习算法更新决策值,路由节点的决策值,并结合更新的所述决策值利用策略梯度算法更新策略参数,之后根据所述路由节点转发数据包的目标节点以及所述路由节点所在通讯网络中的网络负载,利用所述强化学习模型确定策略参数,最后根据所述策略参数,确定所述路由节点的传出链接,实现了针对动态变化的网络连接模式和网络负载,路由节点都能及时调整路由策略,根据数据包的目标节点选择合适的最短路径,最终大大减少了数据包的平均递送时间。附图说明图1示出根据本公开一实施例的基于多智能体强化学习路由策略控制路由动作的方法的流程图;图2示出一种通讯网络的网络拓扑结构示意图;图3示出图1所示方法应用于图2中通讯网络的数据包平均递送时间的示意图。具体实施方式为使本专利技术的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本专利技术进一步详细说明。在本公开中,应理解,诸如“包括”或“具有”等的术语旨在指示本说明书中所公开的特征、数字、步骤、行为、部件、部分或其组合的存在,并且不欲排除一个或多个其他特征、数字、步骤、行为、部件、部分或其组合存在或被添加的可能性。另外还需要说明的是,在不冲突的情况下,本公开中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本公开。图1示出根据本公开一实施例的基于多智能体强化学习路由策略控制路由动作的方法的流程图。如图1所示,所述控制路由动作的方法包括以下步骤S101-S103:在步骤S101中,训练强化学习模型,所述强化学习模型利用Q学习算法更新路由节点的决策值,并结合更新的所述决策值利用策略梯度算法更新策略参数;在步骤S102中,根据所述路由节点转发数据包的目标节点以及所述路由节点所在通讯网络中的网络负载,利用所述强化学习模型确定策略参数;在步骤S103中,根据所述策略参数,确定所述路由节点的传出链接。根据本公开的一实施例,通讯网络中的每一路由节点被视为独立的智能体,每个智能体将会根据数据包的目标节点将它递送至一个相邻节点。整个网络的状态(state)就是所有智能体的观察的集合。因为每个智能体的决策是基于它所能观察到的局部状态而非网络的全局状态得到的,也就是说,这样的路由决策问题是基于部分可观察的状态(partiallyobservationstate)。此外,整个网络的下一个状态只取决于上一个状态和所有智能本文档来自技高网...
【技术保护点】
1.一种基于多智能体强化学习路由策略控制路由动作的方法,其特征在于,包括:/n训练强化学习模型,所述强化学习模型利用Q学习算法更新路由节点的决策值,并结合更新的所述决策值利用策略梯度算法更新策略参数;/n根据所述路由节点转发数据包的目标节点以及所述路由节点所在通讯网络中的网络负载,利用所述强化学习模型确定策略参数;/n根据所述策略参数,确定所述路由节点的传出链接。/n
【技术特征摘要】
1.一种基于多智能体强化学习路由策略控制路由动作的方法,其特征在于,包括:
训练强化学习模型,所述强化学习模型利用Q学习算法更新路由节点的决策值,并结合更新的所述决策值利用策略梯度算法更新策略参数;
根据所述路由节点转发数据包的目标节点以及所述路由节点所在通讯网络中的网络负载,利用所述强化学习模型确定策略参数;
根据所述策略参数,确定所述路由节点的传出链接。
2.根据权利要求1所述的方法,其特征在于,所述强化学习模型利用Q学习算法更新路由节点的决策值,包括:
使用以下公式1更新决策值Qi(s,a):
其中,(s,a)组成一对状态-动作组合,s表示t时刻的状态,即数据包的目标节点,a表示s状态下的动作,即数据包的传出链接;上标i、j分别表示路由节点,路由节点j为路由节点i的邻居路由节点;α为更新决策值Qi(s,a)的学习率;γ∈[0,1]为折算系数;
为t时刻下路由节点i通过传出链接ai转发数据包至目标节点s的决策值的预测量;
为t时刻下路由节点i通过选择传出链接a转发数据包而获得的及时奖励,其为数据包在路由节点i的缓存延迟与数据包在传出链接a的传输延迟之和的负数;
为在t时刻下路由节点j通过传出链接aj转发数据包至目标节点s的决策值。
3.根据权利要求2所述的方法,其特征在于,所述结合更新的所述决策值利用策略梯度算法更新策略参数,包括:
使用如下公式2更新策略参数θi:
其中,θi为所有状态-动作组合(s,a)对应的参数集合,用来标记状态-动作组合(s,a)的偏好值;β为更新策略参数θi的学习率;
公式2中是在t时刻下对Qπ(s,a...
【专利技术属性】
技术研发人员:陈怿,曾思亮,许行飞,
申请(专利权)人:深圳市大数据研究院,香港中文大学深圳,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。