当前位置: 首页 > 专利查询>河海大学专利>正文

基于马尔可夫博弈的运营商竞争切片强化学习方法技术

技术编号:19971027 阅读:81 留言:0更新日期:2019-01-03 16:37
本发明专利技术公布了一种基于马尔可夫博弈的运营商竞争切片强化学习方法,包括如下步骤:S1、通过马尔可夫博弈模型表示运营商切片的竞争过程;S2、在初始的马尔可夫阶段状态,构建零和博弈模型,利用极大极小值算法将其等价为线性规划问题,求解初始最优混合策略;S3、在马尔可夫状态转变的过程中,运营商利用Boltzmalm概率分布法选择博弈的策略;S4、通过Q‑Learning算法更新Q值,获得整个网络的最优策略解。本发明专利技术方法通过不断的循环博弈,优化运营商策略,提高运营商获得的效用,提高运营商的综合竞争力,使运营商之间的竞争更加科学化、合理化。

Operator Competition Slice Reinforcement Learning Method Based on Markov Game

The invention discloses an operator competition slice reinforcement learning method based on Markov game, which includes the following steps: S1, expressing the competition process of operator slice by Markov game model; S2, constructing zero-sum game model in the initial Markov stage state, using maximum-minimum algorithm to equivalent it to a linear programming problem, and solving the initial optimal mixed policy. In the process of Markov state transition, operators use Boltzmalm probability distribution method to select game strategy; In S4, Q value is updated by Q Learning algorithm to obtain the optimal strategy solution of the whole network. The method of the invention optimizes the operator strategy through continuous cyclic game, improves the utility obtained by the operator, improves the comprehensive competitiveness of the operator, and makes the competition between operators more scientific and rational.

【技术实现步骤摘要】
基于马尔可夫博弈的运营商竞争切片强化学习方法
本专利技术属于5G网络的无线通信网络领域,主要涉及到一种基于马尔可夫博弈的运营商竞争切片强化学习方法。
技术介绍
随着移动互联网的爆炸性发展,5G时代即将来临,运营商必须部署新的基础设施来扩展当前网络的容量以适应迅速增长的流量需求。由于5G应用场景的多样性,运营商们迫切需要新的移动性管理方案来保证5G系统的无缝切换。网络切片是5G网络的一个重要支撑技术契,网络切片技术具有以下优势:(1)随着用户需求的变化,网络切片也能自适应地提供差异化的虚拟端到端网络服务;(2)可以提供安全、低时延、高吞吐量的网络服务;(3)网络切片便于运营商的管理,运营周期长,能够有效降低投入成本和运营成本等。然而,网络切片技术还面临着许多挑战,比如,无线接入网的网络资源虚拟化,如何提供满足用户需求的网络功能组合,如何联盟网络的端到端的切片并加以管理等。研究网络切片对运营商竞争的作用,如何智能使用网络切片为运营商提供切实可行的最优策略,提高他们在运营市场中的竞争力,具有重要的意义。在2018年4月举办的IEEE无线通信与网络会议上,Y.Jia公开的文章《基于破产博弈的本文档来自技高网...

【技术保护点】
1.基于马尔可夫博弈的运营商竞争切片强化学习方法,其特征在于,包括如下步骤:S1、通过马尔可夫博弈模型表示运营商切片的竞争过程;S2、在初始的马尔可夫阶段状态,构建零和博弈模型,利用极大极小值算法将其等价为线性规划问题,求解初始最优混合策略;S3、在马尔可夫状态转变的过程中,运营商利用Boltzmalm概率分布法选择博弈的策略;S4、通过Q‑Learning算法更新Q值,获得整个网络的最优策略解。

【技术特征摘要】
1.基于马尔可夫博弈的运营商竞争切片强化学习方法,其特征在于,包括如下步骤:S1、通过马尔可夫博弈模型表示运营商切片的竞争过程;S2、在初始的马尔可夫阶段状态,构建零和博弈模型,利用极大极小值算法将其等价为线性规划问题,求解初始最优混合策略;S3、在马尔可夫状态转变的过程中,运营商利用Boltzmalm概率分布法选择博弈的策略;S4、通过Q-Learning算法更新Q值,获得整个网络的最优策略解。2.根据权利要求1所述的基于马尔可夫博弈的运营商竞争切片强化学习方法,其特征在于,步骤S1中的马尔可夫博弈模型可以表示为一个元组<S,A,P,R>,其中,S表示网络中所有可能状态的集合,A表示运营商针对当前状态选择相应动作的集合,P表示运营商从一个网络状态转移到其他状态的概率分布,R表示运营商在当前状态对选择的动作产生的即时报酬。3.根据权利要求1所述的基于马尔可夫博弈的运营商竞争切片强化学习方法,其特征在于,步骤S2中的零和博弈模型为G={S1,S2;U},其中,运营商切片1有m个纯策略,S1={α1,α2,…,αm},运营商切片2有n个纯策略,S2={β1,β2,…,βn},U为效用矩阵,U=[μij]m×n。4.根据权利要求3所述的基于马尔可夫博弈的运营商竞争切片强化学习方法,其特征在于,步骤S...

【专利技术属性】
技术研发人员:吴国民邓锦昕张婷婷谭国平蒋德富田心阳
申请(专利权)人:河海大学
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1