一种路径规划方法、装置、电子设备以及存储介质制造方法及图纸

技术编号:32210448 阅读:12 留言:0更新日期:2022-02-09 17:16
本公开提供了一种路径规划方法、装置、电子设备以及存储介质,涉及深度学习及时空大数据技术领域,尤其涉及路径规划的领域。具体实现方案为:构建栅格地图;获取Q表;从Q表中确定智能体当前的栅格状态数据所属的第一对应关系;根据第一对应关系中的动作数据执行相应的动作并返回下一个栅格状态数据和奖励值;根据奖励值和深度强化学习模型的参数对第一对应关系的Q值进行更新,得到更新后的Q表;判断是否满足终止条件,若满足终止条件,则根据智能体经过的栅格得到路径;若不满足终止条件,则返回执行从Q表中确定智能体当前的栅格状态数据所属的第一对应关系的操作。本公开的方法具有时效性高、鲁棒性强的效果,同时规划的路线更加科学。更加科学。更加科学。

【技术实现步骤摘要】
一种路径规划方法、装置、电子设备以及存储介质


[0001]本公开涉及深度学习及时空大数据领域,尤其涉及路径规划领域的一种路径规划方法、装置、电子设备以及存储介质。

技术介绍

[0002]海洋运输发展至今已经有几百年历史,海洋运输的发展受限于船舶航线路径规划科学性。传统的海洋路径规划主要依赖于船员通过人工手段绘制,这既消耗了大量的人力,同时规划出来的路线也不够准确。

技术实现思路

[0003]本公开提供了一种路径规划方法、装置、电子设备以及存储介质。
[0004]根据本公开的一方面,提供了一种路径规划方法,包括:
[0005]构建智能体的栅格地图,所述栅格地图中的每个栅格对应了一个栅格状态数据;
[0006]获取Q表,所述Q表用于记录栅格状态数据和动作数据的对应关系,以及表征该对应关系的Q值;
[0007]从所述Q表中确定所述智能体当前的栅格状态数据所属的第一对应关系;
[0008]根据第一对应关系中的动作数据执行相应的动作以使所述智能体移动到下一个栅格,并返回所述智能体的下一个栅格状态数据;
[0009]根据奖励函数返回下一个栅格状态数据对应的奖励值;
[0010]根据所述奖励值和深度强化学习模型的参数对所述第一对应关系的Q值进行更新,得到更新后的Q表;
[0011]判断是否满足终止条件,若满足终止条件,则根据智能体经过的栅格得到路径;若不满足终止条件,则返回执行所述从所述Q表中确定所述智能体当前的栅格状态数据所属的第一对应关系的操作。<br/>[0012]根据本公开的另一方面,提供了一种路径规划装置,包括:
[0013]构建模块,用于构建智能体的栅格地图,所述栅格地图中的每个栅格对应了一个栅格状态数据;
[0014]获取模块,用于获取Q表,所述Q表用于记录栅格状态数据和动作数据的对应关系,以及表征该对应关系的Q值;
[0015]确定模块,用于从所述Q表中确定所述智能体当前的栅格状态数据所属的第一对应关系;
[0016]执行模块,用于根据第一对应关系中的动作数据执行相应的动作以使所述智能体移动到下一个栅格,并返回所述智能体的下一个栅格状态数据;
[0017]还用于根据奖励函数返回下一个栅格状态数据对应的奖励值;
[0018]更新模块,用于根据所述奖励值和深度强化学习模型的参数对所述第一对应关系的Q值进行更新,得到更新后的Q表;
[0019]判断模块,用于判断是否满足终止条件,若满足终止条件,则根据智能体经过的栅格得到路径;若不满足终止条件,则返回执行所述从所述Q表中确定所述智能体当前的栅格状态数据所属的第一对应关系的操作。
[0020]根据本公开的又一方面,提供了一种电子设备,包括:
[0021]至少一个处理器;以及
[0022]与所述至少一个处理器通信连接的存储器;其中,
[0023]所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行所述的路径规划方法。
[0024]根据本公开的又一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行所述的路径规划方法。
[0025]根据本公开的又一方面,提供了一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现所述的路径规划方法。
[0026]应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
[0027]附图用于更好地理解本方案,不构成对本公开的限定。其中:
[0028]图1是根据本公开实施例提供的一种路径规划方法的流程示意图;
[0029]图2是根据本公开实施例提供的栅格地图的示意图;
[0030]图3是根据本公开实施例提供的一种路径规划装置的示意图;
[0031]图4是用来实现本公开实施例的路径规划方法的电子设备的框图。
具体实施方式
[0032]以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
[0033]路径规划是运动规划的主要研究内容之一,运动规划由路径规划和轨迹规划组成,连接起点位置和终点位置的序列点或曲线称之为路径,构成路径的策略称之为路径规划。
[0034]路径规划在很多领域都具有广泛的应用,例如机器人的自主无碰行动、无人机的避障突防飞行、海洋船舶的路径规划等。其中,机器人、无人机、船只等都属于智能体。传统的海洋路径规划主要依赖于船员通过人工手段绘制,这既消耗了大量的人力,同时规划出来的路线也不够准确;另外采用遗传算法、退火算法、粒子群等算法时效性低。
[0035]为了解决上述问题,本公开一实施例提供了一种路径规划方法,该路径规划方法适用的智能体不仅限于船只,如图1所示,该方法包括:
[0036]步骤S101、构建智能体的栅格地图,所述栅格地图中的每个栅格对应了一个栅格状态数据。
[0037]利用栅栏法对海洋环境进行建模,根据输入数据将海洋原始地图构建成栅格地
图,输入数据包括气象数据、海洋数据、地理环境数据以及船舶数据。
[0038]气象数据包括:风速、风向、温度、湿度等;
[0039]海洋数据包括:水流速度、水流方向;
[0040]地理环境数据包括:岛屿、暗礁、禁航区等;
[0041]船舶数据包括:船只大小、载重、行船角度约束、时间约束等条件。
[0042]如图2所示为利用栅栏法对海洋环境进行切割得到的栅格地图,栅格地图尺寸为10
×
10,共100个栅格,其中每一个栅格代表1个状态,则图2所示的栅格地图共有100个状态。若栅格地图尺寸为20
×
20,共400个栅格,则该栅格地图共有400个状态。为了保障行船安全性,对岛屿、暗礁以及禁航区等区域求解最小外接矩阵方式进行区域替换,如图2所示,0代表岛屿、暗礁等不可行进区域、1和2代表利用海洋数据以及风向数据构建的可行进区域,其中2的区域与1的区域相比,2的区域代表着气象环境和海洋环境越有利于行进,3代表船只的起始地。为了便于描述栅格地图,用坐标(x,y)表示栅格地图中的每一个栅格的位置,横坐标x表示行,x自左向右增大,纵坐标y表示列,y自上向下增大,例如(1,1)表示第一行第一列的栅格,(2,5)表示第二行第五列的栅格。
[0043]如图2的栅格地图中有两只船只,现在需要获取两只船只由各自的起始地到达各自的目的地的航行路线,即船只的最优路径。本公开最优路径需满足以下要求:(1)、不同航线的船只在本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种路径规划方法,包括:构建智能体的栅格地图,所述栅格地图中的每个栅格对应了一个栅格状态数据;获取Q表,所述Q表用于记录栅格状态数据和动作数据的对应关系,以及表征该对应关系的Q值;从所述Q表中确定所述智能体当前的栅格状态数据所属的第一对应关系;根据第一对应关系中的动作数据执行相应的动作以使所述智能体移动到下一个栅格,并返回所述智能体的下一个栅格状态数据;根据奖励函数返回下一个栅格状态数据对应的奖励值;根据所述奖励值和深度强化学习模型的参数对所述第一对应关系的Q值进行更新,得到更新后的Q表;判断是否满足终止条件,若满足终止条件,则根据智能体经过的栅格得到路径;若不满足终止条件,则返回执行所述从所述Q表中确定所述智能体当前的栅格状态数据所属的第一对应关系的操作。2.根据权利要求1所述的方法,所述得到更新后的Q表后,该方法还包括:更新目标值Q网络的权重和状态值Q网络的权重。3.根据权利要求2所述的方法,其中,所述深度强化学习模型的参数包括:最大迭代周期、学习率、折扣因子以及探索度。4.根据权利要求3所述的方法,其中,所述深度强化学习模型的参数还包括:经验池容量、目标值Q网络权重更新周期。5.根据权利要求4所述的方法,其中,所述更新目标值Q网络的权重和状态值Q网络的权重,包括:根据所述学习率、所述折扣因子、奖励值以及下一状态最大的Q值确定目标Q值;根据所述目标Q值更新状态值Q网络的权重;间隔目标Q网络权重更新周期,更新一次目标值Q网络的权重,使得目标值Q网络的权重等于状态值Q网络的权重。6.根据权利要求1所述的方法,其中,所述奖励函数设置为:若智能体碰到障碍物,得到奖励值

b;若智能体正常行驶,得到奖励值

c;若智能体到达目的地,得到奖励值d;其中,b、c、d均为正整数,且b>d>c。7.根据权利要求1所述的方法,其中,所述终止条件为深度强化学习模型的迭代时间大于最大迭代周期或智能体到达目的地。8.一种路径规划装置,包括:构建模块,用于构建智能体的栅格地图,所述栅格地图中的每个栅格对应了一个栅格状态数据;获取模块,用于获取Q表,所述Q表用于记录栅格状态数据和动作数据的对应关系,以及表征该对应关系的Q值;确定模块,用于从所述Q表中确定所述智能体当前的栅格状态数...

【专利技术属性】
技术研发人员:周英敏
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1