一种基于DeepQ-Learning的无线自组网设备路由方法技术

技术编号:36456168 阅读:12 留言:0更新日期:2023-01-25 22:54
本发明专利技术公开了一种基于Deep Q

【技术实现步骤摘要】
一种基于Deep Q

Learning的无线自组网设备路由方法


[0001]本专利技术属于网络路由
,具体涉及一种基于Deep Q

Learning的无线自组网设备路由方法。

技术介绍

[0002]无线自组网设备具有高便携、易部署、强容灾性、高动态、大容量的重要特性。而路由算法作为规划网络常规算法,路由算法的优劣直接影响到无线自组网络性能。
[0003]本专利技术提供的一种基于Deep Q

Learning算法的无线自组网设备路由算法,获取节点坐标信息、邻居节点坐标信息、信道碰撞信息,并将其输入∈

greedy策略网络中,策略网络根据输入选择下一跳路由。本专利技术利用过往经验样本做出路由决策,不需要实时计算路由,当无线设备坐标变动时,也无需重新学习,同时考虑了无线设备的坐标信息、信道碰撞信息,从高维数据中提取和处理特征,使得算法能够适应动态变化的无线自组网设备网络。
[0004]现有技术提出将强化学习应用于路由路径规划中,以对网络路由路径进行规划,基于强化学习的智能路由算法主要是基于Q

Learning算法,该算法需要学习Q表,而该种方法只能用于无线设备坐标为离散数据的理想情况,无法应用到实际场景中。使用Q

Learning的路由算法,随着算法状态空间的复杂化,存在着维度爆炸的问题。另外由于目前的强化学习智能路由算法仅仅学习无线设备的坐标和邻居节点信息,与传统的主动式路由算法相比,性能并无太大优势。

技术实现思路

[0005]有鉴于此,本专利技术的目的在于提供一种基于DQN算法的无线自组网设备路由算法。
[0006]为达到上述目的,本专利技术提供如下技术方案:
[0007]一种基于Deep Q

Learning的无线自组网设备路由方法,包括以下步骤:
[0008]S1:在无线自组网网络中,获取当前状态参数,包括邻居节点坐标、信道碰撞情况以及本设备坐标;
[0009]S2:将获取到的当前状态参数输入对应的DQN模型中,DQN模型将所述当前状态参数传入Q网络,策略网络∈

greedy以概率∈选择随机下一跳路由,以概率1

∈选择Q网络中Q值最大的下一跳路由;所述∈

greedy为DQN模型的动作选择函数;所述DQN模型的作用在于,在数据包到达节点后,根据当前网络状态,做出动作选择,即选择将数据包发送到哪个下一跳节点;
[0010]S3:根据计算得出的下一跳节点传输数据,并记录传输所花费的时间作为收益;将该次传输的当前状态参数、收益以及下一状态参数存入经验池中;
[0011]S4:从经验池中随机选择样本训练DQN模型,更新Q值函数,重复S1

S4,直到完成训练;
[0012]S5:使用训练完成的DQN模型为无线自组网设备进行下一跳选择。
[0013]进一步,所述本设备坐标为连续值。
[0014]进一步,样本表示为(s
t
,a
t
,r
t
,s
t+1
,done),其中s
t
表示当前状态参数,R表示收益,r
t
表示当前即时奖励,s
t+1
表示下一状态参数,done表示当前数据包是否到达终点。
[0015]进一步,所述DQN包含Q网络、目标网络以及经验回放组件,所述Q网络为经过训练以生成最佳状态

动作值的代理,所述经验回访组件的作用是与环境交互,生成数据以训练Q网络,所述目标网络与Q网络在初始时是完全相同的;所述Q网络为一个线性网络,包含几个隐藏层;DQN根据∈

greedy策略采取动作a
t
,得到奖励r
t
,DQN根据所述(s
t
,a
t
,r
t
,s
t+1
,done)训练Q网络;通过本设备坐标和邻居节点坐标帮助DQN根据坐标位置信息获得节点间的拓扑连接情况,通过碰撞信息帮助DQN避开忙碌节点;所述碰撞信息通过物理层接口返回给DQN,并将其包含在状态信息s
t
中。
[0016]进一步,所述∈

greedy策略网络为:在DQN模型每次进行动作选择之前,生成一个随机数random,如果random<∈参数,则选取随机动作,否则选取DQN模型中Q网络的最大Q值对应的动作。
[0017]进一步,步步骤S4所述Q值函数的更新如下:
[0018]Q
new
(s
t
,a
t
)=Q
old
(s
t
,a
t
)+α[(R+γmaxQ(s
t+1
,a
t+1
)

Q
old
(s
t
,a
t
)][0019]其中Q(s
t
,a
t
)为节点在状态s
t
下采取动作a
t
后可获得的期望最大收益,Q
old
(s
t
,a
t
)表示更新前的Q值表,Q
new
(s
t
,a
t
)表示更新后的Q值表:R为立即获得的收益,α,β∈[0,1],α为学习率,用于决定这次的误差有多少是要被学习的,γ为折扣因子;
[0020]损失函数为:
[0021]ζ
t
=(ζ
t

Q(o
t+1

t
;δ))2[0022]ζ
t
为损失函数,使用梯度下降算法进行迭代,δ为权重。
[0023]本专利技术的有益效果在于:本专利技术应用了Deep Q

Learning算法,满足了连续坐标的实际环境需要,并且引入了对信道碰撞的考虑,提升了性能。
[0024]本专利技术的其他优点、目标和特征将在随后的说明书中进行阐述,并且在某种程度上对本领域技术人员而言是显而易见的,或者本领域技术人员可以从本专利技术的实践中得到教导。本专利技术的目标和其他优点可以通过下面的说明书来实现和获得。
附图说明
[0025]为了使本专利技术的目的、技术方案和有益效果更加清楚,本专利技术提供如下附图进行说明:
[0026]图1为本专利技术所述基于Deep Q

Learning的无线自组网设备路由方法流程图。
具体实施方式
[0027]如图1所示,本专利技术提供一种基于Deep Q

Learning的无线自组网设备路由方法,包本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于Deep Q

Learning的无线自组网设备路由方法,其特征在于:包括以下步骤:S1:在无线自组网网络中,获取当前状态参数,包括邻居节点坐标、信道碰撞情况以及本设备坐标;S2:将获取到的当前状态参数输入对应的DQN模型中,DQN模型将所述当前状态参数传入Q网络,策略网络∈

greedy以概率∈选择随机下一跳路由,以概率1

∈选择Q网络中Q值最大的下一跳路由;所述∈

greedy为DQN模型的动作选择函数;所述DQN模型的作用在于,在数据包到达节点后,根据当前网络状态,做出动作选择,即选择将数据包发送到哪个下一跳节点;S3:根据计算得出的下一跳节点传输数据,并记录传输所花费的时间作为收益;将该次传输的当前状态参数、收益以及下一状态参数存入经验池中;S4:从经验池中随机选择样本训练DQN模型,更新Q值函数,重复S1

S4,直到完成训练;S5:使用训练完成的DQN模型为无线自组网设备进行下一跳选择。2.根据权利要求1所述的基于Deep Q

Learning的无线自组网设备路由方法,其特征在于:所述本设备坐标为连续值。3.根据权利要求1所述的基于Deep Q

Learning的无线自组网设备路由方法,其特征在于:样本表示为(s
t
,a
t
,r
t
,s
t+1
,done),其中s
t
表示当前状态参数,R表示收益,r
t
表示当前即时奖励,s
t+1
表示下一状态参数,done表示当前数据包是否到达终点。4.根据权利要求3所述的基于Deep Q

Learning的无线自组网设备路由方法,其特征在于:所述DQN包含Q网络、目标网络以及经验回放组件,所述Q网络为经过训练以生成最佳状态

动作值的代理,所述经验回访组件的作用是与环境交互,生成数据以训练Q网络,所述目标网络与Q网络在初始时是完全相同的;所述Q网络为一个线性网络,包含几个隐藏层;DQN根据∈

greedy策略采取动作a
t
,得到奖励r
t
,DQN根据所述(...

【专利技术属性】
技术研发人员:白琳刘栋范聪聪苏阳
申请(专利权)人:北京航空航天大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1