路径规划和任务分配方法、装置、服务设备及存储介质制造方法及图纸

技术编号:35451975 阅读:18 留言:0更新日期:2022-11-03 12:07
本发明专利技术提供一种路径规划和任务分配方法、装置、服务设备及存储介质,该方法包括:在目标区域内,获取多个位置,位置包括至少一个无人车的当前位置及至少一个任务点位置;根据多个位置,基于预设的马尔可夫决策网络,得到多个位置对应的路径开销矩阵;根据路径开销矩阵,利用蚁群算法,确定至少一个无人车中每个无人车对应的任务分配策略;根据目标任务分配策略,控制目标无人车执行相应任务,目标无人车为至少一个无人车中的任一无人车。该方法可以通过获取的路径开销矩阵来代替传统的直线路径,可有效降低任务执行所花费的开销,此外,可协同规划至少一个无人车的任务分配策略,以保证每个无人车按照最优路径执行相应任务,提高任务执行的效率。任务执行的效率。任务执行的效率。

【技术实现步骤摘要】
路径规划和任务分配方法、装置、服务设备及存储介质


[0001]本专利技术涉及无人车执行任务
,尤其涉及一种路径规划和任务分配方法、装置、服务设备及存储介质。

技术介绍

[0002]随着车联网技术的发展,人民生活与工业生产对智能化生产水平的要求逐渐增高,越来越多的研究人员对无人车的相关研究领域进行了较为深刻的探索。在一些普通场景中,无人车可以被用来替代人类去完成大量工作或完成人类所不能完成的工作,而在一些紧急和危险的场景中,该无人车甚至是不可替代的。
[0003]在无人的复杂环境下,至少一个无人车在执行任务时,现有的大多数任务分配方法是基于任务点位置间的直线距离得到的,然而,这些任务分配方法在应用于至少一个无人车时,会使得这至少一个无人车产生较大的额外开销,同时,这至少一个无人车可能无法以最优路径执行相应任务,从而导致任务执行的效率较低。

技术实现思路

[0004]本专利技术提供一种路径规划和任务分配方法、装置、服务设备及存储介质,该方法考虑到了更现实的三维(3Dimensions,3D)环境地理因素,建立综合了路径距离和地势起伏等多种因素的路径开销模型,利用深度强化学习(Deep Reinforcement Learning,DRL)算法探索和学习多个位置间的最优路径并获得相应的路径开销矩阵,并基于此路径开销矩阵,利用蚁群算法,解决至少一个无人车与至少一个任务点之间的最优任务分配问题。
[0005]本专利技术提供一种路径规划和任务分配方法,包括:
[0006]在目标区域内,获取多个位置,该位置包括至少一个无人车的当前位置及至少一个任务点位置;
[0007]根据该多个位置,基于预设的马尔可夫决策网络,得到该多个位置对应的路径开销矩阵;
[0008]根据该路径开销矩阵,利用蚁群算法,确定该至少一个无人车中每个无人车对应的任务分配策略;
[0009]根据该目标任务分配策略,控制该目标无人车执行相应任务,该目标无人车为该至少一个无人车中的任一无人车。
[0010]根据本专利技术提供的一种路径规划和任务分配方法,该在目标区域内,获取多个位置,包括:在目标区域内,获取至少一个任务点位置,并接收至少一个无人车分别发送的当前位置。
[0011]根据本专利技术提供的一种路径规划和任务分配方法,该根据该多个位置,基于预设的马尔可夫决策网络,得到该多个位置对应的路径开销矩阵,包括:根据该多个位置,基于预设的马尔可夫决策网络,确定该多个位置对应的至少一条路径及该至少一条路径分别对应的奖励;根据该奖励,确定该至少一条路径分别对应的开销;根据至少一个开销,确定该
多个位置对应的路径开销矩阵。
[0012]根据本专利技术提供的一种路径规划和任务分配方法,该预设的马尔可夫决策网络包括目标网络;该预设的马尔可夫决策网络是基于以下步骤得到的:从该多个位置中,确定该目标无人车的当前位置状态;基于当前位置状态,选择该当前位置状态对应的运行动作,确定该运行动作对应的奖励及该当前位置状态对应的下一位置状态,并存储至记忆库中;将该记忆库中随机采样的N个样本输入至该目标网络,更新该目标网络对应的位置状态和运行动作对应的目标行为值函数Q1,并更新预设的马尔可夫决策网络对应的参数,N为大于等于1的整数。
[0013]根据本专利技术提供的一种路径规划和任务分配方法,该预设的马尔可夫决策网络包括初始化网络,该基于当前位置状态,选择该当前位置状态对应的运行动作,获得该运行动作对应的奖励及该当前位置状态对应的下一位置状态,包括:将该当前位置状态输入至该初始化网络,得到该当前位置状态和所有运行动作对应的当前行为值函数Q2;利用贪婪算法,根据随机概率按照随机选择动作或者最大值函数选择动作,得到该当前位置状态对应的运行动作;获取该当前位置状态对应的第一高度、障碍点信息、下一位置状态及该下一位置状态对应的第二高度;根据该第一高度、该障碍点信息及该第二高度,确定该运行动作对应的奖励。
[0014]根据本专利技术提供的一种路径规划和任务分配方法,该更新预设的马尔可夫决策网络对应的参数,包括:根据该目标行为值函数Q1及该当前行为值函数Q2,得到损失函数;根据该损失函数,更新预设的马尔可夫决策网络对应的参数。
[0015]根据本专利技术提供的一种路径规划和任务分配方法,该基于当前位置状态,选择该当前位置状态对应的运行动作,确定该运行动作对应的奖励及该当前位置状态对应的下一位置状态,并存储至记忆库中,包括:基于当前位置状态,选择该当前位置状态对应的运行动作,确定该运行动作对应的奖励及该当前位置状态对应的下一位置状态;将该当前位置状态、该运行动作、该奖励及该下一位置状态作为样本存储在记忆库中,并将该下一位置状态作为新的当前位置状态。
[0016]本专利技术还提供一种任务执行装置,包括:
[0017]获取模块,用于在目标区域内,获取多个位置,该位置包括至少一个无人车的当前位置及至少一个任务点位置;
[0018]路径规划模块,用于根据该多个位置,基于预设的马尔可夫决策网络,得到该多个位置对应的路径开销矩阵;
[0019]任务分配模块,用于根据该路径开销矩阵,利用蚁群算法,确定该至少一个无人车中每个无人车对应的任务分配策略;
[0020]执行模块,用于根据该目标任务分配策略,控制该目标无人车执行相应任务,该目标无人车为该至少一个无人车中的任一无人车。
[0021]本专利技术还提供一种服务设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述路径规划和任务分配方法。
[0022]本专利技术还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述路径规划和任务分配方法。
technology,5G)及无线保真技术(Wireless Fidelity,WiFi)等。
[0037]如图1所示,是本专利技术提供的路径规划和任务分配方法的场景示意图。在图1中,对路径规划和任务分配方法进行仿真实验,可得到环境模型10。在该环境模型10中,服务设备101与无人车102之间可通过无线通信技术进行连接,无人车102的数量为m个,m≥1。这m个无人车102可向服务设备101上传局部环境信息;服务设备101可向m个无人车102分别下发全局路径规划模型及每个无人车对应的任务分配策略。
[0038]其中,局部环境信息可以包括但不限于当前位置和无人车102所在当前位置的地势情况等。
[0039]任务分配策略可以包括无人车需要执行的任务集合及该任务集合中任务的执行顺序。
[0040]在该环境模型10中,无人车102所在的目标区域可以仿真为一个尺寸为W*W的栅格离散环境ω,ω∈R2,R表示实数。在ω中,每个栅格的边长可表示为λ;所有的栅格作为一个栅格集合,该栅格集合可表示为G
f
={c1,

,c
W
×
W
},其中,第i本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种路径规划和任务分配方法,其特征在于,包括:在目标区域内,获取多个位置,所述位置包括至少一个无人车的当前位置及至少一个任务点位置;根据所述多个位置,基于预设的马尔可夫决策网络,得到所述多个位置对应的路径开销矩阵;根据所述路径开销矩阵,利用蚁群算法,确定所述至少一个无人车中每个无人车对应的任务分配策略;根据所述目标任务分配策略,控制所述目标无人车执行相应任务,所述目标无人车为所述至少一个无人车中的任一无人车。2.根据权利要求1所述的方法,其特征在于,所述在目标区域内,获取多个位置,包括:在目标区域内,获取至少一个任务点位置,并接收至少一个无人车分别发送的当前位置。3.根据权利要求1或2所述的方法,其特征在于,所述根据所述多个位置,基于预设的马尔可夫决策网络,得到所述多个位置对应的路径开销矩阵,包括:根据所述多个位置,基于预设的马尔可夫决策网络,确定所述多个位置对应的至少一条路径及所述至少一条路径分别对应的奖励;根据所述奖励,确定所述至少一条路径分别对应的开销;根据至少一个开销,确定所述多个位置对应的路径开销矩阵。4.根据权利要求3所述的方法,其特征在于,所述预设的马尔可夫决策网络包括目标网络;所述预设的马尔可夫决策网络是基于以下步骤得到的:从所述多个位置中,确定所述目标无人车的当前位置状态;基于当前位置状态,选择所述当前位置状态对应的运行动作,确定所述运行动作对应的奖励及所述当前位置状态对应的下一位置状态,并存储至记忆库中;将所述记忆库中随机采样的N个样本输入至所述目标网络,更新所述目标网络对应的位置状态和运行动作对应的目标行为值函数Q1,并更新预设的马尔可夫决策网络对应的参数,N为大于等于1的整数。5.根据权利要求4所述的方法,其特征在于,所述预设的马尔可夫决策网络包括初始化网络,所述基于当前位置状态,选择所述当前位置状态对应的运行动作,获得所述运行动作对应的奖励及所述当前位置状态对应的下一位置状态,包括:将所述当前位置状态输入至所述初始化网络,得到所述当前位置状态和所有运行动作对应的当前行为值函数Q2;利用贪婪算法...

【专利技术属性】
技术研发人员:孙阳金冰慧吴文君高强司鹏搏
申请(专利权)人:北京工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1