一种基于分层深度强化学习的无人机采集路径规划方法技术

技术编号:29488040 阅读:91 留言:0更新日期:2021-07-30 18:59
本发明专利技术提供了一种基于分层深度强化学习的无人机采集路径规划方法,首先对无人机数据采集场景中的通信模型、能耗模型进行建模;其次,考虑数据新鲜度的最大化和无人机的续航,将优化问题建模为一个半马尔科夫决策过程;最后,提出了一种基于分层深度强化学习的无人机路径规划方法,高层策略根据当前环境状态决定无人机在当前应该采集哪个传感设备的数据,低层策略根据当前状态和高层策略的目标来设计无人机的移动轨迹,无人机通过与环境的交互获得瞬时奖励,并基于这些信息进行训练。训练完成后,将策略网络部署到具有一定计算能力的无人机中,无人机可以进行实时的路径规划,执行长时间的数据采集任务,以提高整个任务执行期间的数据新鲜度。

【技术实现步骤摘要】
一种基于分层深度强化学习的无人机采集路径规划方法
本专利技术涉及无线通信
,特别涉及一种基于分层深度强化学习的无人机数据采集路径规划方法。
技术介绍
近年来,随着科技的进步,无人机机型向着小型化、低成本的方向不断发展。凭借着易部署、可控制、移动性的优点,无人机尤其是可悬停的旋翼无人机被大量应用在民用和商用领域,比如目标跟踪与检测、物流、辅助通信等等。其中,无人机辅助无线通信是目前的一个新兴的研究热点。在无人机辅助无线通信中,无人机可以通过安装小型的通信设备,为地面用户提供通信服务、作为中继节点为距离较远的收发设备建立连接、或作为移动汇聚节点采集地面无线传感网络的数据。本专利研究的场景就是无人机作为移动汇聚节点采集地面无线传感网络数据。无人机执行数据采集任务具有很大的优势。首先,大部分传感设备由于尺寸限制,资源是受限的,受能耗制约,很难支持长距离的通信,而多跳的通信方式会导致某些节点能耗耗尽,缩短无线传感网络的质量和寿命。无人机可以飞到传感设备上方进行数据采集任务,能够有效的缩短通信距离,且采取一跳的通信方式,能够有效减少无线传感网本文档来自技高网...

【技术保护点】
1.一种基于分层深度强化学习的无人机采集路径规划方法,其特征在于,步骤如下:/n(1)根据实际需求对无人机数据采集场景进行建模/n(1.1)建立系统模型:建立一个边长为l的目标区域,该区域中分布有N个地面传感器、一个控制中心/基站和一个无人机;无人机从控制中心起飞,在规定期间内对目标区域内的传感设备进行数据采集,最后返回控制中心;为了简化场景本文,将目标区域离散化为M×M个大小相同的正方形子区域且每个子区域内最多只有一个待采集的传感设备,每个子区域的中心为无人机可悬停的航点;整个执行周期被划分为T个长度为δ的时隙,无人机在每个时隙执行以下几种动作:{a

【技术特征摘要】
1.一种基于分层深度强化学习的无人机采集路径规划方法,其特征在于,步骤如下:
(1)根据实际需求对无人机数据采集场景进行建模
(1.1)建立系统模型:建立一个边长为l的目标区域,该区域中分布有N个地面传感器、一个控制中心/基站和一个无人机;无人机从控制中心起飞,在规定期间内对目标区域内的传感设备进行数据采集,最后返回控制中心;为了简化场景本文,将目标区域离散化为M×M个大小相同的正方形子区域且每个子区域内最多只有一个待采集的传感设备,每个子区域的中心为无人机可悬停的航点;整个执行周期被划分为T个长度为δ的时隙,无人机在每个时隙执行以下几种动作:{al,ar,au,ad,ac,ae},al,ar,au,ad分别表示移动到左邻、右邻、上邻、下邻子区域的中心;ac表示对当前所处子区域内的传感设备进行数据采集,ae表示无人机在控制中心执行充电动作;
(1.2)建立通信模型:使用空对地信道模型对无人机基站和地面用户之间的信道进行建模,无人机基站由于飞行高度,相比于地面基站更容易与地面用户建立视距链路LoS,在LoS情况下,无人机基站和传感设备之间的路径损耗模型为:



其中,η表示额外路径损耗系数,c表示光速,fc表示子载波频率,α表示路径损失指数,d表示无人机和传感设备之间的欧式距离,规定无人机始终飞行在固定的高度h;根据路径损失,信道增益表示为根据信道增益,无人机基站和传感设备之间在时隙t的数据传输速率为:



其中,pt表示地面设备的发射功率,σ2表示加性高斯白噪声功率;
(1.3)无人机能耗模型:在无人机辅助通信中,无人机的能耗主要分为两个部分:通信能耗和推进能耗;在实际应用中,通信能耗相对于推进能耗是很小的,因此忽略通信能耗,只研究通信能耗;无人机的推进能耗包括叶片轮廓能耗、推进能耗和克服重力所造成的能耗:



其中,P0和P1分别表示无人机在悬停状态下的叶片轮廓能耗和Derived能耗;Vt表示无人机在时隙t的飞行速度,Utip表示旋翼无人机叶片旋转的端速,v0表示悬停状态下的平均旋翼诱导速度,d0表示机身阻力比,ρ表示空气密度,s0表示转子稳定性,Ar表示旋翼的面积;当无人机处于悬停状态即Vt=0时,无人机的能耗为Eu(0)=P0+P1;规定无人机以匀速飞行,当无人机执行移动动作时,无人机在该时隙的能耗为Eu(vu)×δ,其中当无人机悬停执行数据采集任务时,无人机在该时隙的能耗为Eu(0)×δ;
(1.4)数据新鲜度建模:使用信息年龄AoI作为衡量数据新鲜度的指标;AoI被定义为无人机当前所拥有的最新的感知数据自源节点生成以来,所经历的时间,因此在第t个时隙,第n个设备的AoI表示为:
Δn(t)=t-Un(t)
其中,Un(t)表示在时隙t目前无人机所拥有的第n个设备的最新传感数据的生成时间;但是AoI只是衡量数据新鲜度的一种通用指标,不同的应用对数据新鲜度的敏感性不同,只使用AoI不能很好地刻画应用的服务质量;因此提出一种基于AoI的utility函数u(Δ)来描述应用QoS随AoI的变化;awΔ函数需要具备non-increasing特性,其中0<a<1是一个常数,w表示权重;因此在每个时刻,整个系统的基于数据新鲜度的平均QoS表示为:



其中,un(Δ)表示第n个设备的基于AoI的utility函数,Δ表示数据新鲜度,是该函数的自变量;其中a是一个介于0和1之间的常数,设a=0.8;wn表示第n个设备的时间敏感权重;
(2)将问题建模为马尔科夫决策过程
在该系统中,无人机相当于一个智能体;在每一个时隙中,无人机根据当前系统状态S(t)和决策函数,从动作集A中选择动作a(t),以最大化折扣总期望奖励其中γ∈(0,1)为折扣系数,r(t)表示智能体在t时刻获得的瞬时奖励;
系统状态集合S(t)={o(t),e(t),Δ(t)},分别包含无人机当前的位置状态o(t)={x(t),y(t)}为无人机的位置坐标,e(t)表示无人机当前剩余能量,Δ(t)={Δ1(t),…,ΔN(t)}表示当前所有地面传感设备的AoI;

【专利技术属性】
技术研发人员:覃振权刘中豪卢炳先王雷朱明王治国
申请(专利权)人:大连理工大学
类型:发明
国别省市:辽宁;21

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1