一种基于Q学习算法的网络选择方法技术

技术编号:17268419 阅读:48 留言:0更新日期:2018-02-14 17:19
本发明专利技术公开了一种基于Q学习算法的网络选择方法,包括以下几个步骤:(1)初始化Q值表,设置折扣因子γ和学习率α;(2)确定设定时刻到达业务的类型k和当前两个网络的负载率BWi,得到当前的状态sn;(3)在动作集合A中选择可用动作,并记录该动作以及下一个网络状态sn+1;(4)根据执行选择动作后的网络状态,计算立即回报函数r;(5)更新Q值函数Qn(s,a),学习率α按照反比例函数规律逐渐减小为0;(6)重复步骤(2)‑(5),直至Q值收敛,即更新前后Q值差值小于门限值;(7)返回步骤(3)选择动作,接入最佳网络。本发明专利技术能有效降低语音业务阻塞率和数据业务丢包率,提高网络平均吞吐量。

A network selection method based on Q learning algorithm

The invention discloses a method for selecting a Q learning algorithm based on network, including the following steps: (1) to initialize the Q value table, set the discount factor and learning rate of gamma alpha; (2) to determine the setting time arrival business type K and the current two network load rate BWi, get the current state of the SN; (3) in the action set options are available in the action A, and record the action and a network of state sn+1; (4) according to the selection action of the network, calculate the immediate reward function R; (5) update the Q value function Qn (s, a), according to the learning rate alpha inverse proportional function. Gradually reduced to 0; (6) repeat steps (2) (5), until the Q value is updated after convergence, Q value difference is less than the threshold value; (7) return to step (3) access the best network selection action. The invention can effectively reduce the voice traffic jam rate and data packet loss rate, and improve the network average throughput.

【技术实现步骤摘要】
一种基于Q学习算法的网络选择方法
本专利技术涉及一种基于Q学习算法的网络选择方法,属于电力无线通信

技术介绍
当前,随着电力行业的发展,电网规模逐渐扩大,网络拓扑日益复杂,当前的以光纤通信为主的电力通信主干网络已经不能满足各种业务的需求。对于远距离接入节点,直接铺设光纤线路费用高昂,缺乏实际价值;在突发性灾害事故下,光纤线路故障难以及时抢修;对于新建变电站,光纤线路建设数量大、工期长,常常会影响到变电站的投产使用。在这些有线通信无法发挥关键作用的领域,无线通信网络技术及其组网系统的应用能够提供优质的通信保障。因而,无线通信技术在智能电网中发挥越来越重要的作用。目前,电力无线通信采用多种制式,包含230MHz电台专网、WiMax、GPRS公网、CDMA公网、LTE230和LTE1800等多种不同的网络。面对当前用户量大、业务类型复杂等情况,任何单一制式的网络都不能完全满足用户需求,从而表现为多种异构网络共存,优势互补的局面。如何选择一种高可靠、高适应性的无线通信选择方案已成为电力通信领域研究的热点。常用的网络选择法大都为多属性决策方法,如层次分析法、模糊逻辑法、基于理想排序法本文档来自技高网...
一种基于Q学习算法的网络选择方法

【技术保护点】
一种基于Q学习算法的网络选择方法,其特征在于,包括以下几个步骤:(1)初始化Q值表,设置折扣因子γ和学习率α;(2)确定设定时刻到达业务的类型k和当前230MHz无线网及1.8GHz无线网的负载状态BWi,i=1,2,得到当前的网络状态sn;(3)在动作集合A中选择可用动作,并记录该动作以及下一个网络状态sn+1;(4)根据执行选择动作后的负载状态,计算回报函数r;(5)更新Q值函数Qn(s,a),学习率α按照反比例函数规律逐渐减小为0;(6)重复步骤(2)‑(5),直至Q值收敛,即更新前后Q值差值小于门限值;(7)返回步骤(3)选择动作,接入最佳网络。

【技术特征摘要】
1.一种基于Q学习算法的网络选择方法,其特征在于,包括以下几个步骤:(1)初始化Q值表,设置折扣因子γ和学习率α;(2)确定设定时刻到达业务的类型k和当前230MHz无线网及1.8GHz无线网的负载状态BWi,i=1,2,得到当前的网络状态sn;(3)在动作集合A中选择可用动作,并记录该动作以及下一个网络状态sn+1;(4)根据执行选择动作后的负载状态,计算回报函数r;(5)更新Q值函数Qn(s,a),学习率α按照反比例函数规律逐渐减小为0;(6)重复步骤(2)-(5),直至Q值收敛,即更新前后Q值差值小于门限值;(7)返回步骤(3)选择动作,接入最佳网络。2.根据权利要求1所述的基于Q学习算法的网络选择方法,其特征在于,Q学习算法具体方法如下:假设在第n步,智能体记录当前环境的状态sn∈S,并根据此时的状态选择动作an∈A,在该动作完成后会产生一个即时回报函数rn(an),该回报由当前状态sn和选择动作an唯一决定;在搜索策略π:s→a下,状态s的值定义为其中,π(s)为在状态s下根据策略选择的动作;γ∈[0,1]为折扣因子,反映延时奖赏的相对比例;为在第n步操作中在环境状态sn和选择动作an下,环境状态转移到yn的概率;y为所有状态yn的集合;由该式可得,状态s的值的实际含义就是智能体在执行策略π选择的动作后立即得到回报rn,并以概率Psy转移一个状态值为Vπ(y)的有效状态;根据DP定理,至少存在一个最佳策略π*使得状态s的值取到最大值,记为其中,a和rs(a)分别表示选择的动作与在状态s下该动作产生的回报值;对于一个策略π,定义Q值函数为Q值是对采取设定动作后的回报值的预测估计;由式(2)和(3)可以看出,假设此时使得Q值最大的动作为a*,则最佳策略表示为π*(s)=a*(5)智能体学习Q值函数,其选择最佳策略,即执行使Q值最大的动作;Q值的学习通过迭代来完成,每个迭代过...

【专利技术属性】
技术研发人员:李洋冯宝刘金锁赵高峰张立武蔡世龙刘文贵完颜绍澎卞宇翔马涛丁晨阳胡阳蒯本链
申请(专利权)人:南京南瑞集团公司南京南瑞信息通信科技有限公司
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1