一种无人机自组织网络信道接入方法技术

技术编号:33728164 阅读:10 留言:0更新日期:2022-06-08 21:22
本发明专利技术公开了一种无人机自组织网络信道接入方法,包括:当无人机节点有发送需求时,节点首先侦听信道,若无空闲信道则推迟传输,否则节点根据闲时接入概率决定是否接入、选择哪条空闲信道进行接入;节点做完决策后获得对应的反馈,根据当前节点与周围节点的决策相似度修改反馈的奖励值,并训练神经网络;下一次决策前,节点将历史决策和反馈作为状态输入神经网络,网络计算输出闲时接入概率指导节点的下一步决策;在每个时步重复以上过程,无人机决策体不断与环境交互学习,最终获得兼具自适应性、信道利用率和节点公平性的接入策略。信道利用率和节点公平性的接入策略。信道利用率和节点公平性的接入策略。

【技术实现步骤摘要】
一种无人机自组织网络信道接入方法


[0001]本专利技术涉及信道接入
,特别是涉及一种无人机自组织网络信道接入方法。

技术介绍

[0002]无人机自组织网络因为其具有广阔的应用前景而受到越来越多的研究关注,其中MAC协议控制着全网节点在接入无线信道时所遵循的规则,决定了如何最大限度使用有限的信道带宽,因此信道技术的好与坏直接决定了无线信道的利用率和整体的网络性能。目前无人机自组网主要依靠传统Ad Hoc网络中的竞争类协议进行信道接入的管控,但无人机自组网具有节点高速移动、拓扑动态变化的特点,现有协议无法满足性能要求,因而研究无人机自组网中的MAC技术具有很重要的意义。
[0003]网络动态性对于竞争类协议的影响在于信道的竞争环境会发生变化,例如活跃节点数、其他节点接入策略等的变化,这就要求各节点具有一定的反馈和调节能力,能以动态策略调整的方式进行信道接入。现有的基于CSMA机制的竞争类协支持节点快速入网/退网,但接入碰撞概率随着节点数的增加而增加,缺乏自适应性。
[0004]本专利技术在深度强化学习技术的基础上,将每个无人机节点作为决策体,提出一种分布式的自适应MAC算法,使节点与环境交互学习直到获得自适应性较强的接入策略,提高信道利用率和公平性,降低传输时延,具有可观的应用前景。

技术实现思路

[0005]有鉴于此,本专利技术的目的在于提供一种无人机自组织网络信道接入方法,用以在p

坚持CSMA协议的基础上,让信道接入概率p随着环境的改变而自适应调整,以提高信道利用率和公平性,降低传输时延。
[0006]为了实现上述目的,本专利技术采用如下技术方案:
[0007]一种无人机自组织网络信道接入方法,所述接入方法应用于基于无人机自组织网络的通信场景,将无人机自组织网络中的每个节点作为决策体,再基于深度强化学习算法,使得决策体与环境进行交互学习,得到具有自适应性的接入策略,所述接入方法具体包括如下步骤:
[0008]步骤S1、在某一时隙,当所述无人机自组织网络中一个或者多个节点在执行数据传输任务时,首先对信道进行载波侦听,判断是否有空闲信道,若所有道均为占用状态,则选择推迟接入,在下一个时隙再进行决策;
[0009]若存在至少一条空闲信道,则根据闲时接入概率,选择其中一条空闲信道进行接入,占用若干个时隙对接收节点进行数据包发送,或者,选择推迟接入,继续进行载波侦听;
[0010]步骤S2、定义节点在进行不同决策时,获得的信道反馈以及反馈对应的奖励值,包括:若节点选择推迟接入,则信道反馈为信道的忙闲状态,奖励值为0;若节点选择接入一条空闲信道且信道反馈为接入成功,则奖励值为1;若节点选择接入一条空闲信道且信道反馈
为节点碰撞,接入失败,则奖励值为C,其中,

1<C<0;
[0011]步骤S3、选择某一节点与其他其他节点进行交互学习,并且比较该节点与周围邻近无人机节点的决策,根据决策的相似程度修改步骤S2中的奖励值,其中,相似程度越高,其接入成功的奖励值就越大,其余奖励值保持不变;
[0012]步骤S4、构建深度Q网络以及训练用经验重放池,以该经验重放池作为输入对所述深度Q网络进行训练,通过梯度下降法更新网络中的参数,在进行多次迭代之后固定网络参数,得到信道分配模型,其中,经验重放池包括步骤S3中选择的节点,其当前与过去若干时步内的决策和反馈;
[0013]步骤S5、针对步骤S3中选择的节点,将其历史经验作为当前状态输入至步骤S4中得到的信道分配模型中,通过该模型计算出节点下一步进行不同决策对应的不同概率,即所述闲时接入概率;
[0014]步骤S6、针对该通信场景中所有具有数据传输任务的节点,重复步骤S1

步骤S5,根据闲时接入概率做下一个决策,直至各节点获得具有自适应性的接入策略。
[0015]进一步的,所述基于无人机自组织网络的通信场景,在该场景中,包括N个节点,M个信道,每个信道具有相同的带宽和接入条件,每条信道划分为多个时隙,其中,节点和信道的集合分别记为:和
[0016]进一步的,所述步骤S3具体包括:
[0017]步骤S301、设定节点在接入信道进行发送时,将当前决策对应的闲时接入概率附在数据包上发出;
[0018]步骤S302、每个节点记录收到的来自周围节点的闲时接入概率p,其中,p
min
为接收到的最小值,p
max
为接收到的最大值;
[0019]步骤S303、将区间[p
min
,p
max
]均匀分为8个小区间,按p所在区间的数量将8个小区间降序排序为{[It0,It1],[It1,It2],
······
,[It7,It8]},即在区间[It0,It1]中p值出现最频繁,8个区间对应的奖励值为
[0020]步骤S304、当节点当前决策是接入信道且接入成功,则根据决策的闲时接入概率p所在区间将本次决策的奖励值从1改为R
ACE

[0021]进一步的,在所述步骤S4中,采用两个结构相同但参数不同的深度Q网络进行训练,分别命名为主网络和目标网络,网络参数分别初始化为θ和θ

,每隔F个时步将主网络的参数赋值给目标网络,以降低数据之间的相关性,其中,所述的深度Q网络,其采用了循环神经网络RNN结构,包括一个输入层,两个隐藏层和一个输出层,其中两个隐藏层分别为长短期记忆层LSTM和一个前向传播层FNN。
[0022]进一步的,在所述步骤S4中,在训练之前,需要建立初始集合{s
t
,a
t
,r
t+1
,s
t+1
},其中,s
t
为时步t的状态,a
t
为时步t采取的决策,r
t+1
为时步t采取决策后获得的奖励,s
t+1
为时步t的下一个时步的状态;节点在时步t可能采取的动作a
t
∈{0,1,2,...,M},a
t
为0时,节点选择推迟接入,a
t
为m,且m不为0时,节点选择信道m进行接入;状态s
t+1
=[c
t

Ω+2
,...,c
t
,c
t+1
],其中c
t+1
=[a
t
,z
t
]T
,z
t
为节点在时步t采取决策后获得的反馈,表达式为:
分别代表了载波侦听的结果和接入信道的结果,Ω为状态历史长度。
[0023]进一步的,所述状态历史长度,其值满足:16≤Ω≤32。
[0024]进一步的,在所述步骤S4中,在进行训练时,以s
t
作为网络输入,其网络输出为:
[0本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种无人机自组织网络信道接入方法,其特征在于,所述接入方法应用于基于无人机自组织网络的通信场景,将无人机自组织网络中的每个节点作为决策体,再基于深度强化学习算法,使得决策体与环境进行交互学习,得到具有自适应性的接入策略,所述接入方法具体包括如下步骤:步骤S1、在某一时隙,当所述无人机自组织网络中一个或者多个节点在执行数据传输任务时,首先对信道进行载波侦听,判断是否有空闲信道,若所有道均为占用状态,则选择推迟接入,在下一个时隙再进行决策;若存在至少一条空闲信道,则根据闲时接入概率,选择其中一条空闲信道进行接入,占用若干个时隙对接收节点进行数据包发送,或者,选择推迟接入,继续进行载波侦听;步骤S2、定义节点在进行不同决策时,获得的信道反馈以及反馈对应的奖励值,包括:若节点选择推迟接入,则信道反馈为信道的忙闲状态,奖励值为0;若节点选择接入一条空闲信道且信道反馈为接入成功,则奖励值为1;若节点选择接入一条空闲信道且信道反馈为节点碰撞,接入失败,则奖励值为C,其中,

1<C<0;步骤S3、选择某一节点与其他其他节点进行交互学习,并且比较该节点与周围邻近无人机节点的决策,根据决策的相似程度修改步骤S2中的奖励值,其中,相似程度越高,其接入成功的奖励值就越大,其余奖励值保持不变;步骤S4、构建深度Q网络以及训练用经验重放池,以该经验重放池作为输入对所述深度Q网络进行训练,通过梯度下降法更新网络中的参数,在进行多次迭代之后固定网络参数,得到信道分配模型,其中,经验重放池包括步骤S3中选择的节点,其当前与过去若干时步内的决策和反馈;步骤S5、针对步骤S3中选择的节点,将其历史经验作为当前状态输入至步骤S4中得到的信道分配模型中,通过该模型计算出节点下一步进行不同决策对应的不同概率,即所述闲时接入概率;步骤S6、针对该通信场景中所有具有数据传输任务的节点,重复步骤S1

步骤S5,根据闲时接入概率做下一个决策,直至各节点获得具有自适应性的接入策略。2.根据权利要求1所述的一种无人机自组织网络信道接入方法,其特征在于,所述基于无人机自组织网络的通信场景,在该场景中,包括N个节点,M个信道,每个信道具有相同的带宽和接入条件,每条信道划分为多个时隙,其中,节点和信道的集合分别记为:和3.根据权利要求2所述的一种无人机自组织网络信道接入方法,其特征在于,所述步骤S3具体包括:步骤S301、设定节点在接入信道进行发送时,将当前决策对应的闲时接入概率附在数据包上发出;步骤S302、每个节点记录收到的来自周围节点的闲时接入概率p,其中,p
min
为接收到的最小值,p
max
为接收到的最大值;步骤S303、将区间[p
min
,p
max
]均匀分为8个小区间,按p所在区间的数量将8个小区间降序排序为{[It0,It1],[It1,It2],
······
,[It7,It8]},即在区间[It0,It1]中p值出现
最频繁,8个区间对应的奖励值为步骤S304、当节点当前决策是接入信道且接入成功,则根据决策的闲时接入概率p所在区间将本次决策的奖励值从1改为R
ACE
。4.根据权利要求3所述的一种无人机自组织网络信道接入方法,其特征在于,在所述步骤S4中,采用两个结构相同但参数不同的深度Q网络进行训练,分别命名为主网络和目标网络,网络参数分别初始化为θ和θ

,每隔F个时步将主网络的参数赋值给目标网络,以降低数...

【专利技术属性】
技术研发人员:燕锋杭天阳李昊丁凯唐琪夏玮玮沈连丰
申请(专利权)人:中国人民解放军六三九八三部队
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1