一种分布式鼓励时空数据探索的无人机路径规划系统及方法技术方案

技术编号:24167103 阅读:47 留言:0更新日期:2020-05-16 01:47
一种分布式鼓励时空数据探索的无人机路径规划系统,包括:主更新节点和多个子计算节点;其中每个子计算节点对多个无人机进行计算;子计算节点,用于基于神经网络学习算法对多个无人机以及巡检区域内设备的状态信息进行计算,并将神经网络参数的梯度推送给主更新节点;还用于从主更新节获取网络参数,并基于网络参数进行无人机位置规划和动作规划;并将无人机位置规划和动作规划广播给计算节点对应的所有无人机;主更新节点,用于根据所有子计算节点推送的梯度更新网络参数,并发布给所有子节点;本发明专利技术的技术方案增加了计算效率,同时解决无人机充电问题。

A distributed path planning system and method for UAV to encourage spatiotemporal data exploration

【技术实现步骤摘要】
一种分布式鼓励时空数据探索的无人机路径规划系统及方法
本专利技术涉及路径规划领域,具体讲涉及一种分布式鼓励时空数据探索的无人机路径规划系统及方法。
技术介绍
无人驾驶飞机,简称无人机,其价值在于形成空中平台,替代人类完成空中作业。随着运动相机、激光雷达、夜视仪、变焦镜头等感知仪器在无人机上的成功部署,无人机技术日渐成熟,制造成本大幅降低,在各个领域得到了广泛的应用,如:智慧交通、灾害救助、军事协同作战、农业植保、地质勘探、环境监测、森林防火等。例如,利用无人机巡航高度大、通讯距离长、拍摄视角全的特点,加强辖区重点路段、热点景区、特别时段交通流量的检测和研判,最大限度的发挥了现有警力资源的效能。再如,美国亚马逊公司启用了无人机,开启了无人机送快递到家的服务。减少了人力成本和货物的损坏,加快了送货的速度,实现了快递公司与客户的双赢。但是,无人机的大规模部署受到两个技术瓶颈的制约:第一,如何为无人机规划合理的路线。受限于城市中鳞次栉比的高楼以及复杂多变的路况,使用简单的最短路线往往无法满足无人机安全行驶的要求。无人机需要更高效、合理的路径规划算法,去支持其提供高质量的服务;第二,如何保持无人机续航。市场上无人机的续航能力一般在20分钟至30分钟之间。如此低的续航能力无法支持其连续长期执行任务。针对技术瓶颈一中的无人机的路径规划问题,传统的方法是先对目标点进行聚类,再使用各类搜索算法对无人机路径进行规划。这类做法存在两个问题:一是没有考虑到目标点分布的不均匀性,对于目标点集中的地点,无人机应该加强巡逻次数;二是在目标点数量巨大且分散的情况下,此类搜索算法的时间复杂度将非常高,在现实生活中将不再适用。随着人工智能技术的发展,研究者们开始使用深度强化学习方法来解决无人机路径规划问题。首先,将无人机路径规划问题分解为马尔可夫决策过程,再人为设计奖励函数,最后使用强化学习模型训练,得出一个无人机路径规划模型。相比于传统方法,此类算法对于复杂的场景具有更强的适应性与鲁棒性。但是仍存在两个问题:一是强化学习的训练需要产生大量的训练数据,进行成百万次的迭代才能训练出一个有效的模型,训练效率极低;二是奖励函数是基于目标点定的,而在现实生活中,面对巨大的巡逻空间,目标点之间可能非常分散,这种情况下,很多时候无人机可能大部分时间花费在目标点之间,没有得到奖励,这种情况下基于强化学习的训练方法可能会失效。针对技术瓶颈二种的无人机续航能力不足的问题,不论是传统的搜索方法还是基于神经网络的方法,都只把无人机的电量当作一次性的使用量,而没有考虑到无人机的自主充电问题。
技术实现思路
为解决上述问题,本专利技术提供了一种分布式鼓励时空数据探索的无人机路径规划系统及方法,引入了一个路径规划模块,在为无人机进行路径规划的同时,对无人机的充电问题进行决策。可以实现无人机在执行任务的同时,自主充电,减少了人力维护的成本,解决了无人机无法连续执行长期任务的缺点。而且,还引入了一个基于无人机位置信息的时空数据探索模块,以无人机的位置信息为依据,通过产生内在奖励,激励无人机前往少探索的目标点进行巡逻,从而解决巨大探索空间下目标点分布不均匀的问题。一种分布式鼓励时空数据探索的无人机路径规划系统,包括:主更新节点和多个子计算节点;其中每个子计算节点对多个无人机进行计算;所述子计算节点,用于基于神经网络学习算法对多个无人机以及巡检区域内设备的状态信息进行计算,并将所述神经网络参数的梯度推送给主更新节点;还用于从所述主更新节获取网络参数,并基于所述网络参数进行无人机位置规划和动作规划;并将所述无人机位置规划和动作规划广播给所述计算节点对应的所有无人机;所述主更新节点,用于根据所有子计算节点推送的梯度更新网络参数,并发布给所有子节点;其中,所述无人机以及巡检区域内设备的状态包括:巡检区域内障碍物的位置、充电桩位置、目标点的位置、无人机的位置和剩余电量信息。优选的,所述子计算节点包括:局部探索模块、局部路径规划模块、局部模拟环境和局部样本池;所述局部样本池用于:存储无人机以及巡检区域内设备的状态、无人机位置规划和动作规划;所述局部模拟环境用于,对巡检区域内的多种障碍物、随机分布的目标点、多个充电桩以及多个无人机位置进行模拟;所述局部规划模块用于:根据神经网络中的网络参数以及所述局部环境模块中模拟的巡检区域内的障碍物、目标点、充电桩以及无人机的位置,对无人机提供路径规划策略,同时计算损失函数,并使用反向传播算法,计算网络参数的梯度,并将所述梯度传递给主更新节点,并存储于所述局部样本池中;所述局部探索模块用于:根据所述局部样本池中的数据,基于神经网络算法计算损失函数,并使用反向传播算法,计算网络参数的梯度,并将所述梯度传递给主更新节点;其中,所述路径规划是指为每一个无人机决定其下一步要到达的位置;所述动作规划,用于当无人机每次到达一个地点,要执行的动作;所述动作包括:巡逻或充电中的一种。优选的,所述局部路径规划模块的神经网络包括状态特征提取网络、策略网络和值函数网络;所述状态特征提取网络,用于基于局部样本池中的当前时刻无人机以及巡检区域内设备的状态进行特征提取与降维得到一维实向量的状态特征;所述值函数网络,用于基于当前时刻无人机以及巡检区域内设备的状态特征到无人机巡逻结束对应的状态特征,对所述无人机获得的累积回报进行值估计,并基于值估计采用神经网络算法计算值函数网络的损失和代理目标,并使用反向传播算法,计算网络参数的梯度,并将所述梯度传递给主更新节点;所述策略网络,用于基于当前时刻无人机以及巡检区域内设备的状态特征和所述值函数网络的损失和代理目标结合激励机制对无人机进行路径规划与动作规划。优选的,所述值估计按下式计算:At=Vt-Gt式中,Gt累计回报值;At:策略网络的更新基准;Vt:预估值。优选的,所述值函数网络的损失,按下式计算:式中,Gt为从当前t时刻开始,到巡逻T时刻结束,获得的奖励累积和;νt:由值函数网络得到的预估值;T:巡逻时刻。优选的,所述代理目标按下式计算:式中,at:t时刻无人机的动作;st:代表策略神经网络的输入;At:策略网络更新的基准;∈:取0.1。优选的,所述局部探索模块的神经网络包括:位置特征映射网络和位置特征预测网络;所述位置特征映射网络,用于将局部样本池中当前无人机位置映射为一个一维实向量的位置特征;所述位置特征预测网络,根据无人机当前时刻的位置特征与动作规划,预测每个无人机下一个位置特征,并在无人机走完下一个位置之后,基于下一个位置特征的实际值和之前下一个位置的预测值计算损失函数,并使用反向传播算法计算位置特征预测网络的网络参数梯度,并将所述网络参数梯度传递给主更新节点;优选的,所述损失函数如下式所示:式中:第i个无人机在第t+1时刻的实际位置特征向量,预测的第t+1时刻的位置特征;在t+1时刻第i个无人机本文档来自技高网
...

【技术保护点】
1.一种分布式鼓励时空数据探索的无人机路径规划系统,其特征在于,包括:主更新节点和多个子计算节点;其中每个子计算节点对多个无人机进行计算;/n所述子计算节点,用于基于神经网络学习算法对多个无人机以及巡检区域内设备的状态信息进行计算,并将所述神经网络参数的梯度推送给主更新节点;还用于从所述主更新节获取网络参数,并基于所述网络参数进行无人机位置规划和动作规划;并将所述无人机位置规划和动作规划广播给所述计算节点对应的所有无人机;/n所述主更新节点,用于根据所有子计算节点推送的梯度更新网络参数,并发布给所有子节点;/n其中,所述无人机以及巡检区域内设备的状态包括:巡检区域内障碍物的位置、充电桩位置、目标点的位置、无人机的位置和剩余电量信息。/n

【技术特征摘要】
1.一种分布式鼓励时空数据探索的无人机路径规划系统,其特征在于,包括:主更新节点和多个子计算节点;其中每个子计算节点对多个无人机进行计算;
所述子计算节点,用于基于神经网络学习算法对多个无人机以及巡检区域内设备的状态信息进行计算,并将所述神经网络参数的梯度推送给主更新节点;还用于从所述主更新节获取网络参数,并基于所述网络参数进行无人机位置规划和动作规划;并将所述无人机位置规划和动作规划广播给所述计算节点对应的所有无人机;
所述主更新节点,用于根据所有子计算节点推送的梯度更新网络参数,并发布给所有子节点;
其中,所述无人机以及巡检区域内设备的状态包括:巡检区域内障碍物的位置、充电桩位置、目标点的位置、无人机的位置和剩余电量信息。


2.如权利要求1所述的系统,其特征在于,所述子计算节点包括:局部探索模块、局部路径规划模块、局部模拟环境和局部样本池;
所述局部样本池用于:存储无人机以及巡检区域内设备的状态、无人机位置规划和动作规划;
所述局部模拟环境用于,对巡检区域内的多种障碍物、随机分布的目标点、多个充电桩以及多个无人机位置进行模拟;
所述局部规划模块用于:根据神经网络中的网络参数以及所述局部环境模块中模拟的巡检区域内的障碍物、目标点、充电桩以及无人机的位置,对无人机提供路径规划策略,同时计算损失函数,并使用反向传播算法,计算网络参数的梯度,并将所述梯度传递给主更新节点,并存储于所述局部样本池中;
所述局部探索模块用于:根据所述局部样本池中的数据,基于神经网络算法计算损失函数,并使用反向传播算法,计算网络参数的梯度,并将所述梯度传递给主更新节点;
其中,所述路径规划是指为每一个无人机决定其下一步要到达的位置;所述动作规划,用于当无人机每次到达一个地点,要执行的动作;所述动作包括:巡逻或充电中的一种。


3.如权利要求2所述的系统,其特征在于,所述局部路径规划模块的神经网络包括状态特征提取网络、策略网络和值函数网络;
所述状态特征提取网络,用于基于局部样本池中的当前时刻无人机以及巡检区域内设备的状态进行特征提取与降维得到一维实向量的状态特征;
所述值函数网络,用于基于当前时刻无人机以及巡检区域内设备的状态特征到无人机巡逻结束对应的状态特征,对所述无人机获得的累积回报进行值估计,并基于值估计采用神经网络算法计算值函数网络的损失和代理目标,并使用反向传播算法,计算网络参数的梯度,并将所述梯度传递给主更新节点;
所述策略网络,用于基于当前时刻无人机以及巡检区域内设备的状态特征和所述值函数网络的损失和代理目标结合激励机制对无人机进行路径规划与动作规划。


4.如权利要求3所述的系统,其特征在于,所述值估计按下式计算:



式中,Gt累计回报值;At:策略网络的更新基准;:预估值。
优选的,所述值函数网络的损失,按下式计算:



式中,Gt为从当前t时刻开始,到巡逻T时刻结束,获得的奖励累积和;:由值函数网络得到的预估值;T:巡逻时刻;
优选的,所述代理目标按下式计算:



式中,at:t时刻无人机的动作;st:代表策略神经网络的输入;At:策略网络更新的基准;∈:取0.1。


5.如权利要求2所述的系统,其特征在于,所述局部探索模块的神经网络包括:位置特征映射网络和位置特征预测网络;
所述位置特征映射网络,用于将局部样本池中当前无人机位置映射为一个一维实向量的位置特征;
所述位置特征预测网络,根据无人机当前时刻的位置特征与动作规划,预测每个无人机下一个位置特征,并在无人机走完下一个位置之后,基于下一个位置特征的实际值和之前下一个位置的预测值计算损失函数,并使用反向传播算法计算位置特征预测网络的网络参数梯度,并将所述网络参数梯度传递给主更新节点;优选的,所述损失函数如下式所示:



式中:第i个无人机在第t+1时刻的实际位置特征向量,预测的第t+1时刻的位置特征;在t+1时刻第i个无人机的位置;
优选的,所述激励机制包括内在奖励机制和外在奖励机制;
所述内在奖励机制由当前路径规划策略确定;
所述外在奖励机制用于,基于无人机收集的数据量和充电量确定;
优选的,所述内在奖励机制按下式计算内在奖励:



式中,为内在奖励,η为0.3;第i个无人机在第t+1时刻的实际位置特征向量,预测的第t+1时刻的位置特征;
优选的,所述外在奖励机制按下式计算外在奖励:



式中,Υ1为针对无人机收集数据的外在奖励;Υ2:针对无人机的充电量给予的外在奖励。


6.如权利要求2所述...

【专利技术属性】
技术研发人员:刘驰赵一诺
申请(专利权)人:北京理工大学
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1