System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种基于元强化学习的无人机自组网跨层路由方法技术_技高网

一种基于元强化学习的无人机自组网跨层路由方法技术

技术编号:41005775 阅读:12 留言:0更新日期:2024-04-18 21:42
本发明专利技术公开了一种基于元强化学习的无人机自组网自适应跨层路由方法,具体为:针对无人机自组织网在不同负载环境下的跨层路由问题,在训练阶段,无人机智能体与环境交互获得多个相关任务,输入至推理网络来捕获与当前任务相关的潜在上下文隐变量,再将其整合至每个智能体的策略之中以捕获当前任务的特征,并通过在上下文的后验分布来调节策略来进行自适应。本方法使用互信息网络来生成潜在上下文变量的先验分布,通过约束潜在变量和上下文之间的互信息,使得潜在变量可以包含对任务适应至关重要的基本上下文信息,从而减轻对训练任务过拟合的影响。为进一步探索各智能体最优的跨层路由策略,本方法通过将所有智能体的Q值输入至中央策略网络来获取系统Q值,从而学习到智能体之间最优的协作式跨层路由策略。相较于传统方法,本发明专利技术缩短了无人机自组网的数据包路由时间、降低了整个网络丢包率同时提升了整个网络吞吐量,为无人机网络提供了通信保障。

【技术实现步骤摘要】

本专利技术属于无线移动网络中的通信,具体涉及一种基于元强化学习的无人机自组网跨层路由方法


技术介绍

1、近年来,无人机由于其灵活性强、成本低、部署简单等优点,已经不仅局限于军事任务上的应用,其在民用领域也得到了广泛的青睐。与传统的自组织网络相比,无人机建立的移动网络在特定环境下完成复杂任务的效率更高,更适用于执行紧急和危险的任务。(hao x,li w,wei h,et al.a survey on uav applications in smart citymanagement:challenges,advances,and opportunities[j].ieee journal of selectedtopics in applied earth observations and remote sensing,2023,16:8982-9010.)

2、与单无人机相比,多无人机自组网可以通过协调和合作完成更复杂的任务。此外,不同无人机之间可以共享信息、资源和任务负载,从而提高整体性能和效率;另一方面,由于多个无人机可以同时搜集数据,且多无人机自组网可以覆盖更大的区域,并收集到更全面和详细的信息,因此,多无人机自组网可以通过分布式数据处理,从而加快数据的处理速度。(m.g,p.r,m.et al.unmanned aerial vehicle communications for civilapplications:a review[j].ieee access,2022,10:102492-102531.)

3、在多无人机自组网中,当无人机规模较大时,无人机之间的信息交互可能会受到通信能力上限的限制,导致信息拥塞现象。为了确保多无人机之间的可靠通信,每架无人机都需要配备相应的通信设备。然而,在覆盖范围较广的情况下,这就要求通信设备具备高功率和高性能,从而增加了无人机的成本和能耗。因此,在对多无人机移动自组织网络的研究中,引入了跨层设计的思想来优化现有的路由方案,改善网络性能。多无人机组网中的跨层设计和优化,就是通过各无人机的应用层、网络层、数据链路层以及物理层之间的信息交互来改善无线网络总的系统性能,诸如网络吞吐量、时延、丢包率以及对大量业务的服务质量(quality of service,qos)的支持等。

4、传统路由通常分为主动式路由以及按需式路由。在主动式路由中,每个节点都会维护并更新一个或者多个表,这些表包含着此节点到其他节点的路由信息。当网络拓扑发生变化时,所有的节点都能知道并更新路由表。在主动式路由中,路由表记录了当前节点到其它所有节点的最新路由信息。优点是时延小,但是缺点是路由开销较大(m.e,r.m,a.e.performance evaluation of destination-sequenced distance-vector(dsdv)routing protocol[c].in:international conference on future networks.2009.186–190)。按需路由协议又名被动式路由。在动式路由中,它的主要设计目标是在需要进行通信时才建立路由路径,而不是提前建立全网的路由表。然而,按需路由协议也存在一些缺点,即由于按需路由协议需要在通信前先建立路由路径,因此可能会引入一定的延迟(perkinsc,belding-royer e,das s.ad hoc on-demand distance vector(aodv)routing[m].united states:rfc editor,2003.)。

5、在此基础上,基于元强化学习的路由方案也逐步登上历史舞台,智能体能够利用先前任务的经验,即通过设计和构建多个相关任务并在这些任务上进行训练,使智能体能够从中学习到可迁移的知识和策略,从而快速适应新任务。因此,部分学者受到强化学习和元学习的启发,提出了多智能体元近端策略优化,以在固定和时变的流量需求下优化网络性能(l.chen,b.hu,et al.multiagent meta-reinforcement learning for adaptivemultipath routing optimization[j].ieee transactions on neural networks andlearning systems,2022,33(10):5374-5386.)。


技术实现思路

1、本专利技术旨在提供一种基于元强化学习的无人机自组网跨层路由方法,将无人机建模为智能体并从环境中获取先验知识,从而达到启发智能体的学习过程,加速学习速度,帮助智能体在相似任务上更快地找到有效的策略。

2、实现本专利技术目的的技术解决方案为:一种基于元强化学习的无人机自组网跨层路由方法,具体步骤为:

3、步骤1:初始化智能体探索率、各网络的权重、经验池、上下文采样器以及无人机自组网的环境参数;

4、步骤2:对上下文潜在的隐变量进行抽样;

5、步骤3:每个无人机依据从环境中获取的观测以及隐变量来执行相应的动作并计算奖励;

6、步骤4:将无人机与环境交互的轨迹存入经验池之中,并对智能体的探索率进行退火;

7、步骤5:更新上下文并将其存入上下文采样器;

8、步骤6:从上下文采样其中抽取最近的轨迹并从经验池中随机抽取一小批数据;

9、步骤7:对上下文潜在的隐变量进行抽样;

10、步骤8:计算损失函数,并更新各网络参数;

11、步骤9:检查是否完成路由任务或者系统的达到最大训练步长,结束当前回合,重置无人自组网环境,开始下一轮的训练。

12、进一步地,将连续时间离散化,即将时间分为t个相等的时隙,则其时隙集合表示为假设网络中有n个无人机,可以用来表示。假设推理网络,策略网络,目标网络,中心策略网络,中心目标网络以及互信息网络的参数分别为φ,ψ,ψ',θ,θ'以及ω。

13、进一步的,步骤1中所述的无人机自组网网络环境,其无人机自组网网络环境包含:

14、(1)网络模型:无人机按照高斯马尔可夫移动模型移动,假设无人机n在时隙t的位置为wn=[xn(t),yn(t)]。因此,无人机n与无人机n'在时隙t的欧氏距离可以表示为ln,n'(t)=||wn(t)-wn'(t)||2。假设每个无人机可以以固定的功率p将数据包传输至另一个无人机,因此,无人机n和无人机n'可以建立一条有效的通信链路en,n'(t)或en',n(t),当两者接收到来自对方的信号功率和均超过预先设定好的功率阈值pth,即将网络在时隙t的拓扑图建模为无向图,将网络中的无人机视为节点,将无人机之间的有效通信链路视为图的边,即将所构建的图表示为其中是有效通信链路的集合,即图中边的集合。假设是无人机n在时隙t的邻居节点的集合。

15、(2)跨层路由模型:在应用层中,数据包考虑三种优先级:1)实时语音数据包,2本文档来自技高网...

【技术保护点】

1.一种基于元强化学习的无人机自组网跨层路由方法,其特征在于,具体步骤为:

2.根据权利要求1所述的基于元强化学习的无人机自组网跨层路由方法,其特征在于,将连续时间离散化,即将时间分为T个相等的时隙,则其时隙集合表示为假设网络中有N个无人机,可以用来表示。假设推理网络,策略网络,目标网络,中心策略网络,中心目标网络以及互信息网络的参数分别为φ,ψ,ψ',θ,θ'以及ω。

3.根据权利要求1所述的基于元强化学习的无人机自组网跨层路由方法,其特征在于,步骤1中所述的无人机自组网网络环境,其无人机自组网网络环境包含:

4.根据权利所述的基于元强化学习的无人机自组网跨层路由方法,其特征在于,步骤2中对上下文潜在的隐变量进行抽样,即从潜在上下文中学习一个隐变量z,该策略可以通过转换智能体与环境交互的轨迹为条件来适应新的任务,该轨迹在本小节中表示为上下文c,将上下文输出至参数为φ的推理网络中来推断出潜在隐变量z。具体而言,将无人机与环境交互得到的MDP元组输入至推理网络中Iφ(z|c)中,以此来寻求潜在隐变量z基于上下文c的后验分布g(z|c)。

<p>5.根据权利要求1所述的基于元强化学习的无人机自组网跨层路由方法,其特征在于,步骤3中每个无人机依据从环境中获取的观测以及隐变量z来执行相应的动作并计算奖励,具体为:

6.根据权利要求1所述的基于元强化学习的无人机自组网跨层路由方法,其特征在于,步骤4中将无人机与环境交互的轨迹存入经验池之中,并对智能体的探索率进行退火。具体为,将元组(s(t),a(t),r(t),s'(t))存入经验池中。假设无人机的初始探索率为εt,则其退火过程为εt=εt·εdecay。

7.根据权利要求1所述的基于元强化学习的无人机自组网跨层路由方法,其特征在于,步骤4中更新上下文,即将无人机与环境交互的得到的MDP元组存入上下文采样器中。

8.根据权利要求1所述的基于元强化学习的无人机自组网跨层路由方法,其特征在于,步骤5中从上下文采样器中抽取最近的轨迹并从经验池中随机抽取一小批数据用来训练。

9.根据权利要求1所述的基于元强化学习的无人机自组网跨层路由方法,其特征在于,步骤8中,计算损失函数,并更新各网络参数的方法,具体为

...

【技术特征摘要】

1.一种基于元强化学习的无人机自组网跨层路由方法,其特征在于,具体步骤为:

2.根据权利要求1所述的基于元强化学习的无人机自组网跨层路由方法,其特征在于,将连续时间离散化,即将时间分为t个相等的时隙,则其时隙集合表示为假设网络中有n个无人机,可以用来表示。假设推理网络,策略网络,目标网络,中心策略网络,中心目标网络以及互信息网络的参数分别为φ,ψ,ψ',θ,θ'以及ω。

3.根据权利要求1所述的基于元强化学习的无人机自组网跨层路由方法,其特征在于,步骤1中所述的无人机自组网网络环境,其无人机自组网网络环境包含:

4.根据权利所述的基于元强化学习的无人机自组网跨层路由方法,其特征在于,步骤2中对上下文潜在的隐变量进行抽样,即从潜在上下文中学习一个隐变量z,该策略可以通过转换智能体与环境交互的轨迹为条件来适应新的任务,该轨迹在本小节中表示为上下文c,将上下文输出至参数为φ的推理网络中来推断出潜在隐变量z。具体而言,将无人机与环境交互得到的mdp元组输入至推理网络中iφ(z|c)中,以此来寻求潜在隐变量z基于上下文c的后验分布g(z|c...

【专利技术属性】
技术研发人员:杨乾泽林艳张一晋
申请(专利权)人:南京理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1