基于行为克隆和改进DQN算法的无人机集群避障方法技术

技术编号:38086164 阅读:14 留言:0更新日期:2023-07-06 08:54
本申请公开了一种基于行为克隆和改进DQN算法的无人机集群避障方法,包括如下步骤:预先基于障碍物配置无人机避障行为;基于配置的无人机避障行为训练行为克隆网络,以利用所述行为克隆网络进行行为克隆指导;将所述行为克隆网络作为的DQN网络的子网络,以在训练过程中利用行为克隆网络的更新参数进行协同更新所述DQN网络;将训练好的DQN网络用于无人机集群避障。本申请实施例的无人机集群控制方法在传统强化学习DQN算法中引入距离权,并使用行为克隆的神经网络进行辅助决策,可大大加快算法收敛速度、提升任务成功率。提升任务成功率。提升任务成功率。

【技术实现步骤摘要】
基于行为克隆和改进DQN算法的无人机集群避障方法


[0001]本申请涉及无人机
,尤其涉及一种基于行为克隆和改进DQN算法的无人机集群避障方法。

技术介绍

[0002]随着智能无人技术的快速发展,利用规模无人机组成集群,执行侦察、探测、打击等多种任务成为可能。由于无人机集群在任务的高效性、低能耗性、鲁棒性、容错性、可扩展性等方面具有诸多优势,已成为未来执行危险任务的首选,呈现出逐渐替代有人机的发展趋势。替代有人集群执行特定任务已经成为必然趋势。在无人系统中,无人机集群在任务的高效性、低能耗性、鲁棒性、容错性、可扩展性等方面具有诸多优势,因此成为执行各项任务的首选代表。
[0003]无人机集群的自主任务执行离不开编队控制、任务分配、路径规划、避碰避障等技术的支持。其中,无人机集群避障规划是在满足一定约束条件下,规划出从起始点到目标点的路径,使得指定的性能指标最优。约束条件主要指环境约束、任务约束、空间协同约束、时序协同约束、无人机自身约束等。性能指标可以包括路径长度、路径光滑程度、路径安全性、任务完成时间等。
[0004]传统路径规划算法
[0005]A*算法。通过引入启发式搜索思想改进Dijkstra算法,能更快找到最短路径,原理简单易实现。
[0006]人工势场法(APF)。将物理学中“势场”的概念引入无人机集群任务场景,核心思想是场景中的障碍物对无人机产生斥力,目标点对无人机产生引力,无人机在合力作用下运动。该算法实时性好,规划路径平滑,适用于局部路径规划。
[0007]采样法。不需要对整个环境空间进行建模,以采样点重构环境,计算量相对较少。
[0008]智能优化算法
[0009]遗传算法。是一种基于生物遗传进化过程的自适应方法,可以用来解决搜索和优化问题。其优势在于不受问题领域限制,具备快速启发式搜索的能力。
[0010]蚁群算法。是一种随机搜索算法,核心思想是利用蚁群的信息素,通过正反馈的方式寻求问题的最优解。
[0011]粒子群算法。源于对鸟群捕食行为的研究。核心思想是群体中每个粒子共享自己找到的极值,获得整个粒子群的最值,然后对每个粒子进行调整,最终找到全局最优解。
[0012]在传统路径路径规划算法中,A*算法搜索领域太小、路径转角太大,导致规划路径不平滑;人工势场法在无人机集群任务中应用时,由于场景元素复杂,合力为零的点较多,易陷入局部最优;采样算法存在较大的随机性,收敛慢。
[0013]在智能优化算法中,遗传算法的劣势在于易早熟,易陷入局部最优解;蚁群算法自身收敛慢、易陷入局部最优解;而粒子群算法在相对较复杂的环境中同样容易陷入局部最优。

技术实现思路

[0014]本申请实施例提供一种基于行为克隆和改进DQN算法的无人机集群避障方法,在传统强化学习DQN算法中引入距离权,并使用行为克隆的神经网络进行辅助决策,可大大加快算法收敛速度、提升任务成功率。
[0015]本申请实施例提供一种基于行为克隆和改进DQN算法的无人机集群避障方法,包括如下步骤:
[0016]预先基于障碍物配置无人机避障行为;
[0017]基于配置的无人机避障行为训练行为克隆网络,以利用所述行为克隆网络进行行为克隆指导;
[0018]将所述行为克隆网络作为的DQN网络的子网络,以在训练过程中利用行为克隆网络的更新参数进行协同更新所述DQN网络;
[0019]将训练好的DQN网络用于无人机集群避障。
[0020]可选的,预先基于障碍物配置无人机避障行为包括:
[0021]获取数帧图像数据,并将各帧图像数据转换为基于距离的深景图,其中所述深景图为0

1的灰度图像,且障碍物距离无人机的距离越近,颜色越深,灰度值越接近1,非障碍物的灰度值为0;
[0022]将所述深景图,在指定方向上分割为多个子图像;
[0023]配置障碍阈值,超过所述障碍阈值的像素点记为障碍像素,以统计各子图像中障碍像素所占比例;
[0024]在子图像中障碍像素所占比例超过预设比例阈值的情况下,认定该子图像为障碍区域;
[0025]根据障碍区域在深景图中的位置,执行无人机的动作选择。
[0026]可选的,在指定方向上分割为多个子图像是在竖直方向上进行分割的;
[0027]根据障碍区域在深景图中的位置,执行无人机的动作选择包括:
[0028]若深景图中间位置为障碍区域,则从位于左右的子图像选取非障碍区域偏转,且优先向障碍像素占比低的区域偏转。
[0029]可选的,基于配置的无人机避障行为训练行为克隆网络包括:基于动作选择结果为各帧图像数据添加训练标签,以训练所述行为克隆网络。
[0030]可选的,将所述行为克隆网络作为的DQN网络的子网络,以在训练过程中利用所述行为克隆网络的更新参数进行协同更新所述DQN网络包括:
[0031]为当前无人机引入其他无人机的带距离权的目标卷积网络,以利用如下方式协同更新所述DQN网络:
[0032][0033]其中,α,β,γ均表示衰减因子,ε表示权重系数调节因子,分别表示无人机i、j的Q网络和无人机i的行为克隆网络,d
i.j
表示无人机i、j之间的距离,N
i
表示无人机i通信范围内所有无人机的集合。
[0034]可选的,将所述行为克隆网络作为的DQN网络的子网络,以在训练过程中利用所述
行为克隆网络的更新参数进行协同更新所述DQN网络还包括:
[0035]将所述DQN网络的无人机奖励函数设置为:
[0036]单步损耗奖励R1、障碍物碰撞奖励R2、到达目标点奖励R3、目标点接近奖励障碍物接近奖励其中d
tar
表示当前无人机与目标的距离,d
edg
表示当前无人机与障碍物的距离。
[0037]本申请实施例还提出一种无人机控制器,包括处理器和存储器,所述存储器上存储有计算机程序,所述计算机程序被处理器执行时实现前述的无人机集群避障方法的步骤。
[0038]本申请实施例还提出一种无人机,包括前述的无人机控制器。
[0039]本申请实施例的无人机集群控制方法在传统强化学习DQN算法中引入距离权,并使用行为克隆的神经网络进行辅助决策,可大大加快算法收敛速度、提升任务成功率。
[0040]上述说明仅是本申请技术方案的概述,为了能够更清楚了解本申请的技术手段,而可依照说明书的内容予以实施,并且为了让本申请的上述和其它目的、特征和优点能够更明显易懂,以下特举本申请的具体实施方式。
附图说明
[0041]通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本申请的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
[0042]图1为本申请实施例的无人机集群避障方法的本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于行为克隆和改进DQN算法的无人机集群避障方法,其特征在于,包括如下步骤:预先基于障碍物配置无人机避障行为;基于配置的无人机避障行为训练行为克隆网络,以利用所述行为克隆网络进行行为克隆指导;将所述行为克隆网络作为的DQN网络的子网络,以在训练过程中利用行为克隆网络的更新参数进行协同更新所述DQN网络;将训练好的DQN网络用于无人机集群避障。2.如权利要求1所述的无人机集群避障方法,其特征在于,预先基于障碍物配置无人机避障行为包括:获取数帧图像数据,并将各帧图像数据转换为基于距离的深景图,其中所述深景图为0

1的灰度图像,且障碍物距离无人机的距离越近,颜色越深,灰度值越接近1,非障碍物的灰度值为0;将所述深景图,在指定方向上分割为多个子图像;配置障碍阈值,超过所述障碍阈值的像素点记为障碍像素,以统计各子图像中障碍像素所占比例;在子图像中障碍像素所占比例超过预设比例阈值的情况下,认定该子图像为障碍区域;根据障碍区域在深景图中的位置,执行无人机的动作选择。3.如权利要求2所述的无人机集群避障方法,其特征在于,在指定方向上分割为多个子图像是在竖直方向上进行分割的;根据障碍区域在深景图中的位置,执行无人机的动作选择包括:若深景图中间位置为障碍区域,则从位于左右的子图像选取非障碍区域偏转,且优先向障碍像素占比低的区域偏转。4.如权利要求3所述的无人机集群避障方法,其特征在于,基于配置的无人机避障行为训练行为克隆网络包括:基于动作选择结果为各帧图像数据...

【专利技术属性】
技术研发人员:董琦齐天杨尚晓舟王亮陈雨
申请(专利权)人:中国电子科技集团公司电子科学研究院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1