【技术实现步骤摘要】
基于强化学习的抗干扰无人机轨迹控制方法及其系统
[0001]本专利技术属于无人机轨迹控制
,具体涉及一种基于强化学习的轨迹控制方法及其系统,以探索未知干扰环境,实现自主轨迹规划。
技术介绍
[0002]因具有部署速度快、资金成本低等优点,无人机被认为是数据采集和应急通信潜在有前途的选择,但是无人机在执行任务过程中需要基站(Base Station,BS)的协助。BS可以提供访问通道来给出轨迹控制信息,无人机也需要及时将收集到的数据卸载回BS,为下一个任务节省自己的缓存空间,无人机和BS能够相互协调,形成无人机
‑
BS网络。
[0003]现有技术主要通过凸优化技术和集中优化解决轨迹优化,而不是分布式和自动调整。但全局信息有时难以获取,尤其是在不确定的干扰环境中,考虑抗干扰要求的联合优化问题在现有技术中也很少被研究。
技术实现思路
[0004]针对上述问题,本专利技术提出了一种基于强化学习的抗干扰无人机轨迹控制方法及其系统,本专利技术的目的在于使无人机在未知干扰环境下,实现自主轨迹 ...
【技术保护点】
【技术特征摘要】
1.基于强化学习的抗干扰无人机轨迹控制方法,其特征是包括以下步骤:步骤S1、设置无人机数据;步骤S2、计算无人机能耗;步骤S3、通过强化学习算法处理探索与未知的干扰环境并搜索最佳可能轨迹。2.如权利要求1所述基于强化学习的抗干扰无人机轨迹控制方法,其特征是:步骤S1中,无人机数据包括无人机原位置和目标位置参数;考虑无人机在地面上固定高度飞行的三维坐标系,采用曼哈顿网络模型对目标区域进行建模;定义投影在当前位置和下一个位置的水平面上的坐标:l
t
=[x
t
,y
t
]and l
t+1
=[x
t+1
,y
t+1
]
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(1)其中,l
t
和l
t+1
分别为当前t时刻和t+1时刻坐标函数的映射,x
t
和x
t+1
分别为当前t时刻和t+1时刻投影在水平面的横坐标,y
t
和y
t+1
分别为当前t时刻和t+1时刻投影在水平面的纵坐标;定义无人机的速度v
u;
无人机选择四种运动选择:向前、向后、向左、向右;进入相邻的网格区域i.e.,‖l
t
‑
l
t+1
‖≤1,前式左边代表l
t
到l
t+1
的曼哈顿距离,得:‖l
t
‑
l
t+1
‖=|x
t
‑
x
t+1
|+|y
t
‑
y
t+1
|
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(2)。3.如权利要求2所述基于强化学习的抗干扰无人机轨迹控制方法,其特征是:步骤S2具体如下:无人机的总能耗包括:推进能耗、数据卸载能耗;无人机推进能耗为:S
v
=e1L
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(3)其中,e1为单位飞行能耗,L为无人机经过的曼哈顿距离;数据卸载能耗为:S
c,i
=e2D
i
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(4)D
i
=C
i
T
i
其中,C
i
为用香农公式计算出的该网格的数据传输速率;T
i
为在该网格传输任务数据的时间;D
i
为第i个网格的卸载数据流量,e2为单位采集比特能耗;无人机通过点对点飞行中能量储备E
o
的限制下,轨迹控制和波束切换卸载尽可能多的数据:s.t.∑
i
S
c,i
+S
v
≤E
o
其中,r
i
表示来自第i个网格的接收器的信噪比,r
th
表示能够正常工作的信噪比,δ表示条件判决,当网格单元中没有空余信道,或者该网格的信道衰落非常严重时,无人机无法进入该网格,δ=0;反之δ=1;S
c,i
表示无人机在第i个网格中完成数据传输所需的能量,S
v
表示无人机运动所需的能量;ξ=[l
s
,l2…
l
i
…
,l
d
]为无人机从起点l
s
到目标的轨迹l
d
。4.如权利要求3所述基于强化学习的抗干扰无人机轨迹控制方法,其特征是:步骤S3中,对目标区域以离散的方式进行网格划分和路径规划;在这种情况下,选择下一个网格是轨迹所必需的规划;同时,该选择仅与当前网格和可用动作空间相关,而与上一选择无关,
因此,将其视作一个马尔可夫决策问题;抗干扰轨迹控制问题建模为4元组马尔可夫决策问题,具有状态空间S、操作空间A、奖励函数R和动态转移概率Pr,通过一个基于强化学习的抗干扰轨迹控制算法来寻找最佳轨迹;状态空间定义为当前位置:{s
t
∈S|S=l1,l2,
…
,L
N
},其中N=X
×
Y是所有网格的数量,X和Y是对应的二维边长;行动空间定义为:{a
t
∈A|A=a1,a2,a3,a4}
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(6)其中,a
t
表示在t时刻无人机将要选择的动作;a...
【专利技术属性】
技术研发人员:李沛,倪家豪,邱承宇,苏义炯,梁雪松,
申请(专利权)人:浙江省瑞安市塘下职业中等专业学校,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。