【技术实现步骤摘要】
一种基于Deep Q
‑
Learning的无线自组网设备路由方法
[0001]本专利技术属于网络路由
,具体涉及一种基于Deep Q
‑
Learning的无线自组网设备路由方法。
技术介绍
[0002]无线自组网设备具有高便携、易部署、强容灾性、高动态、大容量的重要特性。而路由算法作为规划网络常规算法,路由算法的优劣直接影响到无线自组网络性能。
[0003]本专利技术提供的一种基于Deep Q
‑
Learning算法的无线自组网设备路由算法,获取节点坐标信息、邻居节点坐标信息、信道碰撞信息,并将其输入∈
‑
greedy策略网络中,策略网络根据输入选择下一跳路由。本专利技术利用过往经验样本做出路由决策,不需要实时计算路由,当无线设备坐标变动时,也无需重新学习,同时考虑了无线设备的坐标信息、信道碰撞信息,从高维数据中提取和处理特征,使得算法能够适应动态变化的无线自组网设备网络。
[0004]现有技术提出将强化学习应用于路由路径规划中,以对网络路由路径进行规划,基于强化学习的智能路由算法主要是基于Q
‑
Learning算法,该算法需要学习Q表,而该种方法只能用于无线设备坐标为离散数据的理想情况,无法应用到实际场景中。使用Q
‑
Learning的路由算法,随着算法状态空间的复杂化,存在着维度爆炸的问题。另外由于目前的强化学习智能路由算法仅仅学习无线设备的坐标和邻居节点信息,与传统的主动式路由算法相 ...
【技术保护点】
【技术特征摘要】
1.一种基于Deep Q
‑
Learning的无线自组网设备路由方法,其特征在于:包括以下步骤:S1:在无线自组网网络中,获取当前状态参数,包括邻居节点坐标、信道碰撞情况以及本设备坐标;S2:将获取到的当前状态参数输入对应的DQN模型中,DQN模型将所述当前状态参数传入Q网络,策略网络∈
‑
greedy以概率∈选择随机下一跳路由,以概率1
‑
∈选择Q网络中Q值最大的下一跳路由;所述∈
‑
greedy为DQN模型的动作选择函数;所述DQN模型的作用在于,在数据包到达节点后,根据当前网络状态,做出动作选择,即选择将数据包发送到哪个下一跳节点;S3:根据计算得出的下一跳节点传输数据,并记录传输所花费的时间作为收益;将该次传输的当前状态参数、收益以及下一状态参数存入经验池中;S4:从经验池中随机选择样本训练DQN模型,更新Q值函数,重复S1
‑
S4,直到完成训练;S5:使用训练完成的DQN模型为无线自组网设备进行下一跳选择。2.根据权利要求1所述的基于Deep Q
‑
Learning的无线自组网设备路由方法,其特征在于:所述本设备坐标为连续值。3.根据权利要求1所述的基于Deep Q
‑
Learning的无线自组网设备路由方法,其特征在于:样本表示为(s
t
,a
t
,r
t
,s
t+1
,done),其中s
t
表示当前状态参数,R表示收益,r
t
表示当前即时奖励,s
t+1
表示下一状态参数,done表示当前数据包是否到达终点。4.根据权利要求3所述的基于Deep Q
‑
Learning的无线自组网设备路由方法,其特征在于:所述DQN包含Q网络、目标网络以及经验回放组件,所述Q网络为经过训练以生成最佳状态
‑
动作值的代理,所述经验回访组件的作用是与环境交互,生成数据以训练Q网络,所述目标网络与Q网络在初始时是完全相同的;所述Q网络为一个线性网络,包含几个隐藏层;DQN根据∈
‑
greedy策略采取动作a
t
,得到奖励r
t
,DQN根据所述(...
【专利技术属性】
技术研发人员:白琳,刘栋,范聪聪,苏阳,
申请(专利权)人:北京航空航天大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。