一种无人机路径规划方法技术

技术编号:34621645 阅读:23 留言:0更新日期:2022-08-20 09:29
本发明专利技术公开了一种无人机路径规划方法,获取智能体当前位置信息、下一任务点位置信息,通过深度Q网络方法获取第一动作;通过人工势场法选择下降最快的方向上的动作记为第二动作;计算第一动作与第二动作之间的夹角,当夹角小于动作角度阀值时,将第一动作作为最终动作;当夹角大于等于动作角度阀值时,将第二动作作为最终动作;执行最终动作,更新智能体的位置信息;循环执行,当前一次行进路径的长度与当前行进路径长度差值小于阈值时,则当前路径为最佳路径。本发明专利技术在人工势场法与深度Q网络产生的动作之间设置一个选择动作的角度阈值,能解决人工势场法搜索路径可能陷入局部最优的问题,同时减少深度Q网络的试错频率,增加算法鲁棒性。算法鲁棒性。

【技术实现步骤摘要】
一种无人机路径规划方法


[0001]本专利技术涉及无人机
,具体涉及一种无人机路径规划方法。

技术介绍

[0002]无人机因其小巧、便捷、灵活等诸多优点在娱乐、医药、采矿、救援、教育、军事、航空航天、农业检测、电力巡检等诸多科研领域得到了广泛的应用,在加速科技发展,改善生活水平上的作用至关重要。然而多数无人机所能搭载的能源十分有限,导致无人机的续航时间不能充分满足任务的需要,对无人机的活动范围有很大影响,极大的限制了无人机的使用。为适应任务需要并在能量约束条件下提升无人机完成作业要求的能力,需要对无人机的飞行路径进行规划。
[0003]无人机高效完成作业任务的重要前提之一是规划合理的最优移动路径,无人机路径规划是指为了保证无人机完成特定的飞行任务,并且在完成任务的过程中根据无人机自身的能量限制与实际任务需求,躲避障碍、威胁区域而设计出最优航迹路线的过程。现有的路径规划算法可分为三大类,第一类为根据预先载入的环境信息,应用传统图论与其他一些知识解决问题的经典算法,包括概率路图法(PRM)、快速搜索随机树(RRT)、A

star算法、人工势场法(APF)等算法。第二类为模拟某种形式的人的推理、知识和专业知识以解决一个(或多个)给定问题的智能算法,包括遗传算法、粒子群算法、蚁群算法、模拟退火算法等。第三类为机器学习算法,路径规划上最常用的机器学习方法之一为强化学习,包括根据现有的专家策略训练智能体的模仿学习算法、深度Q网络(DQN),深度确定性策略梯度(DDPG)与等算法。
[0004]人工势场法(Artifical Potential Field,APF)是解决路径规划问题的常用方法之一。人工势场法假设智能体在空间中受到虚拟力场的作用,目标点对无人机会产生引力,引导智能体前进,障碍物会对智能体产生斥力,使智能体能够避开障碍物。这种方法易于表达和实现,易于与其他算法结合,然而当目标点附近存在一个或多个障碍物时,会产生目标点不可达的问题。
[0005]强化学习作为机器学习的一个重要领域,讨论的是智能体如何在一个不确定的环境中去极大化它能获得的回报或者实现特定的目标。深度Q网络是强化学习解决路径规划问题的常用方法之一,当状态空间和可选动作数量庞大或者连续时,起到将状态空间映射到动作空间作用的Q表也会十分复杂,深度Q网络使用神经网络简化了这一映射过程。虽然状态空间到动作空间的映射通过神经网络得到了简化,但是深度Q网络仍然需要通过智能体的不断试错不断与环境交互来逐渐收敛到理想的结果,这将需要花费一定的时间成本,消耗较多的计算资源。
[0006]模仿学习是强化学习一个重要的分支领域,也是解决路径规划问题的常用方法之一。不同于深度Q网络,模仿学习中智能体需要从提供的人类专家的决策数据中进行学习,通过训练使模型生成的分布与人类专家决策生成的分布相匹配。然而这种方法需要在模型训练之前收集大量的专家决策数据,并且由于强化学习是序列决策的过程,模型策略与人
类专家策略的误差会在轨迹搜索的过程中不断累积,导致最终结果无法满足要求。

技术实现思路

[0007]本专利技术提供了一种无人机路径规划方法,以解决现有技术中采用深度DQN网络进行路径规划时效率不够高的问题。
[0008]本专利技术提供了一种无人机路径规划方法,具体步骤如下:
[0009]步骤1:获取无人机的待进行路径规划环境的信息,对环境信息进行预处理;
[0010]步骤2:预设奖励函数的折扣率、奖励函数的参数、动作角度阀值、经验重放缓冲区;
[0011]步骤3:获取智能体当前位置信息、下一任务点位置信息,通过深度Q网络方法获取第一动作;通过人工势场法选择下降最快的方向上的动作记为第二动作;
[0012]步骤4:计算第一动作与第二动作之间的夹角,当夹角小于动作角度阀值时,将第一动作作为最终动作;当夹角大于等于动作角度阀值时,将第二动作作为最终动作;
[0013]步骤5:执行最终动作,更新智能体的位置信息;将当前智能体的位置信息通过人工势场法选择下降最快的方向上的动作记为第三动作;
[0014]将当前智能体的位置信息、前一次智能体的位置信息、最终动作、第二动作、第三动作、当前奖励函数的奖励值存入经验重放缓冲区;
[0015]步骤6:当经验重放缓冲区更新若干数据时,将经验重放缓冲区的数据作为训练集对深度Q网络进行更新;
[0016]步骤7:循环执行步骤3至步骤6直至智能体所有行进任务完成,记录行进路径;
[0017]步骤8:循环执行步骤3至步骤7,当前一次行进路径的长度与当前行进路径长度差值小于阈值时,则认为智能体完成训练,当前路径为最佳路径。
[0018]进一步地,所述动作角度阀值的选取范围为45
°
至90
°

[0019]进一步地,所述深度Q网络包括两个输出层,分别输出动作对应的Q值、动作分布。
[0020]进一步地,所述通过训练集对深度Q网络进行更新的具体方法为:
[0021]步骤61:将前一次智能体的位置信息、最终动作输入进深度Q网络的策略网络中得到第一Q值;将当前智能体的位置信息、当前奖励函数的奖励值、第三动作输入进深度Q网络的目标网络中得到第二Q值,计算第一Q值与第二Q值的均方误差;
[0022]步骤62:将前一次智能体的位置信息输入进深度Q网络的策略网络中得到动作分布,计算动作分布与第二动作的交叉熵损失;
[0023]步骤63:计算均方误差与交叉熵损失的加权和作为深度Q网络的损失函数,并根据获取的损失函数对深度Q网络进行更新。
[0024]进一步地,所述奖励函数的公式为:
[0025][0026]其中,d
s
‑1与d
s
是智能体前一个位置和当前位置与终点之间的距离,ob
i
是智能体当前位置与第i个障碍物之间的距离,battery为当前智能体电池的电量,α、β、δ为用于平衡重要性的参数,f
i
∈{0,1}为当前执行任务的标志,当第i个子任务被激活时f
i
=1,当第i个子
任务待激活或者执行完毕时f
i
=0。
[0027]本专利技术的有益效果:
[0028]1、人工势场法与深度Q网络产生的动作之间设置一个选择动作的角度阈值,能解决人工势场法搜索路径可能陷入局部最优的问题,同时也能减少深度Q网络智能体搜索路径时的试错频率,增加算法的鲁棒性。
[0029]2、采用了具有两种输出的神经网络结构,其中该网络输出的动作分布能提高Q值收敛的速度,对Q值的更新起到了辅助作用。
[0030]3、将网络输出Q值的均方误差损失与动作分布的交叉熵损失的加权和作为最终损失,提高了网络的更新效率。
[0031]4、本专利技术所采用的奖励函数将智能体的历史位置、当前位置以及与障碍物的距离以及智能体当前的电量信息都考虑进去了,且能够适应环境中存在多任务本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种无人机路径规划方法,其特征在于,包括如下步骤:步骤1:获取无人机的待进行路径规划环境的信息,对环境信息进行预处理;步骤2:预设奖励函数的折扣率、奖励函数的参数、动作角度阀值、经验重放缓冲区;步骤3:获取智能体当前位置信息、下一任务点位置信息,通过深度Q网络方法获取第一动作;通过人工势场法选择下降最快的方向上的动作记为第二动作;步骤4:计算第一动作与第二动作之间的夹角,当夹角小于动作角度阀值时,将第一动作作为最终动作;当夹角大于等于动作角度阀值时,将第二动作作为最终动作;步骤5:执行最终动作,更新智能体的位置信息;将当前智能体的位置信息通过人工势场法选择下降最快的方向上的动作记为第三动作;将当前智能体的位置信息、前一次智能体的位置信息、最终动作、第二动作、第三动作、当前奖励函数的奖励值存入经验重放缓冲区;步骤6:当经验重放缓冲区更新若干数据时,将经验重放缓冲区的数据作为训练集对深度Q网络进行更新;步骤7:循环执行步骤3至步骤6直至智能体所有行进任务完成,记录行进路径;步骤8:循环执行步骤3至步骤7,当前一次行进路径的长度与当前行进路径长度差值小于阈值时,则认为智能体完成训练,当前路径为最佳路径。2.如权利要求1所述的无人机路径规划方法,其特征在于,所述动作角度阀值的选取范围为45
°
至90
°
。3.如权利要求1所述的无...

【专利技术属性】
技术研发人员:王琦孔富晨王栋高尚于化龙崔弘杨
申请(专利权)人:江苏科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1