The invention belongs to the field of wireless network resource allocation and reinforcement learning, in particular to a wireless network resource allocation method based on reinforcement learning. The method includes initialization steps, state detection steps and cycle steps. According to the current state of the network, the current state data can be obtained; Q network reinforcement learning algorithm can be used to optimize, which can effectively improve the energy efficiency of wireless networks. This method is applicable to the optimal allocation of wireless network resources.
【技术实现步骤摘要】
一种基于强化学习的无线网络资源分配方法
本专利技术属于无线网络资源分配以及强化学习领域,特别涉及一种基于强化学习的无线网络资源分配方法。
技术介绍
强化学习目的是构造一个控制策略,使得Agent行为性能达到最大。Agent从复杂的环境中感知信息,对信息进行处理。Agent通过学习改进自身的性能并选择行为,从而产生群体行为的选择,个体行为选择和群体行为选择使得Agent作出决策选择某一动作,进而影响环境。强化学习是指从动物学习、随机逼近和优化控制等理论发展而来,是一种无导师在线学习技术,从环境状态到动作映射学习,使得Agent根据最大奖励值采取最优的策略;Agent感知环境中的状态信息,搜索策略(哪种策略可以产生最有效的学习)选择最优的动作,从而引起状态的改变并得到一个延迟回报值,更新评估函数,完成一次学习过程后,进入下一轮的学习训练,重复循环迭代,直到满足整个学习的条件,终止学习。将强化学习技术应用到无线网络资源分配中,采用Q网络强化学习算法进行资源优化,可大幅提升无线网络效能。
技术实现思路
本专利技术针对现有技术存在的上述不足,提供了一种基于强化学习的无线网络资源分配方法。为实现上述目的,本专利技术采用如下技术方案:一种基于强化学习的无线网络资源分配方法,它包括以下步骤,初始化步骤:运行Q网络学习算法,即对每个s,a初始化Q(s,a)为0,其中s表示状态,a表示动作,价值函数Q(s,a)表示对状态s下动作a得到的总体期望回报的一个估计,r为t时刻此动作的立即回报,γ为折扣因子,观察当前状态s:获取当前t时刻无线网络状态数据包括,无线网络的信号干扰噪声比:其 ...
【技术保护点】
1.一种基于强化学习的无线网络资源分配方法,其特征在于:它包括以下步骤,初始化步骤:运行Q网络学习算法,即对每个s,a初始化Q(s,a)为0,其中s表示状态,a表示动作,价值函数Q(s,a)表示对状态s下动作a得到的总体期望回报的一个估计,r为t时刻此动作的立即回报,γ为折扣因子,
【技术特征摘要】
1.一种基于强化学习的无线网络资源分配方法,其特征在于:它包括以下步骤,初始化步骤:运行Q网络学习算法,即对每个s,a初始化Q(s,a)为0,其中s表示状态,a表示动作,价值函数Q(s,a)表示对状态s下动作a得到的总体期望回报的一个估计,r为t时刻此动作的立即回报,γ为折扣因子,观察当前状态s:获取当前t时刻无线网络状态数据包括,无线网络的信号干扰噪声比:其中Pi,t为接受功耗,Ii,t为t时刻网络i总干扰,N为本地噪声功耗;t时刻无线网络WNi的理论最大吞吐量:Γi,t=Blog2(1+SINRi,t)无线网络WNi的最大可达吞吐量:t时刻无线网络WNi获得的回报奖励:其中,B为指信道的带宽,SNRi为网络信号和噪声的比值,即噪声比,循环步骤:根据当前的信号干扰噪声比作为输入选择一个行为a输入...
【专利技术属性】
技术研发人员:方武,朱婷,
申请(专利权)人:苏州经贸职业技术学院,
类型:发明
国别省市:江苏,32
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。