一种基于深度强化学习和A星算法的无人车路径规划方法技术

技术编号:37190778 阅读:14 留言:0更新日期:2023-04-20 22:52
本发明专利技术公开了基于深度强化学习和A星算法的无人车路径规划方法,属于无人驾驶汽车技术。驾驶无人车在越野环境中采集3D点云数据,记录无人车行驶路径;从采集的点云数据中生成多张栅格障碍图,从无人车行驶过的路径中生成当前栅格图中的目标点;利用栅格障碍图以及一张表示无人车的矩形构建仿真环境;利用A星算法从每张障碍图中生成引导路径;根据引导路径的长度和光滑度为不同障碍图设定不同的难度;并利用引导路径设计奖励函数;利用近端策略优化算法和奖励函数,使用深度神经网络和数据增强、课程学习在仿真环境中训练无人车智能体;利用无人车走过的路径当作对应障碍图的路径规划结果。本发明专利技术适用于不同越野场景和不同尺寸的无人车路径规划。寸的无人车路径规划。寸的无人车路径规划。

【技术实现步骤摘要】
一种基于深度强化学习和A星算法的无人车路径规划方法


[0001]本专利技术属于无人驾驶汽车技术,具体涉及一种面向定位受限,没 有全局信息和大尺度越野环境下的路径规划方法。

技术介绍

[0002]自动驾驶是人工智能领域的长远目标,其所需要的智能水平超过 迄今为止所有人工智能技术所达到的水平。自动驾驶的困难在于需要 让无人车拥有对环境以及环境动态性的理解,以使其能够在每一时刻 能通过行为决策来选择最优行为,并安全、快速地驶向目的地。路径 规划是无人车的关键模块,其中大多数方法依赖于高清地图和高精度 定位系统。目前的路径规划算法主要包括全局路径规划和局部路径规 划。全局路径规划算法主要有Dijkstra算法(Dijkstra E W.A note ontwo problems in connexion with graphs[J].)和A星搜索算法(Hart P E, Nilsson N J,Raphael B.A formal basis for the heuristic determination ofminimum cost paths[J].),需要准确的环境模型和先验信息,例如卫星 图和拓扑路网。局部路径规划算法依赖感知算法的性能和传感器的精 确度,其规划结果往往不是全局最优的。由于缺乏先验信息和复杂的 路况,并且高清地图的维护成本太过昂贵和缺乏精确的定位系统,这 些方法不能直接应用于农村和越野等复杂和未知的环境。
[0003]另一方面,基于深度强化学习的方法在解决现实世界的决策任务 中越来越受欢迎,因为它能够在没有先验知识的情况下实现端到端的 控制。然而,将深度强化学习应用于复杂越野环境下的自动驾驶仍面 临诸多问题。首先是无人车不能直接使用深度强化学习方法在现实世 界环境中进行迭代训练,因为机械损耗太高。此外,许多端到端深度 强化学习方法将图像作为输入,而深度强化学习方法泛化能力不强, 并且越野环境的视觉外观因季节而异,导致在特定场景下训练的智能 体无法用在其他环境中。
[0004]因此,在先验信息受限的大尺度越野环境下的路径规划方法具有 重要的研究价值。针对现有方法的不足,本专利技术提出了一种基于深度 强化学习和A星搜索算法的路径规划方法。

技术实现思路

[0005]本专利技术的目的在于提供一种无人车在先验信息受限的大尺度越 野环境下的路径规划方法,该方法无需先验高精度的度量地图或拓扑 地图,也不需要让无人车在越野环境下直接训练,并且具有一定泛化 能力,适用于不同越野场景和不同尺寸的无人车。
[0006]为达到以上目的,本专利技术提出一种基于深度强化学习和A星搜 索算法的路径规划方法,包括以下步骤:
[0007]S1:驾驶无人车在越野环境中行驶并采集3D点云数据,记录无人 车行驶过的路径;
[0008]S2:从S1采集的点云数据中生成多张栅格障碍图,从无人车行驶 过的路径中生成
当前栅格图中的目标点;
[0009]S3:利用S2中的栅格障碍图以及一张表示无人车的矩形构建仿 真环境,矩形上标有箭头,用来标识无人车的方向;
[0010]S4:利用A星算法从S2中的每张障碍图中生成引导路径;
[0011]S5:根据S4中引导路径的长度和光滑度为不同障碍图设定不同 的难度;
[0012]S6:利用S4中的引导路径设计奖励函数;
[0013]S7:利用近端策略优化算法和S6中的奖励函数,使用深度神经网 络和数据增强、课程学习在S3中的仿真环境中训练无人车智能体;
[0014]S8:利用S7中无人车走过的路径当作对应障碍图的路径规划结 果。
[0015]优选地,步骤S2进一步包括:
[0016]S200:采用基于高斯过程回归的地面分割算法,将以车为中心的 100米
×
100米区域内的三维点云数据转化成500
×
500二维的栅格 障碍图。每个栅格的分辨率为0.2米。
[0017]S201:将障碍图裁剪成尺寸为256
×
256,便于深度神经网络训 练。
[0018]S202:将当前障碍图中走过的路径的最后一个点当做目标点。
[0019]优选地,步骤S3进一步包括:
[0020]S300:利用Pygame工具,将S2中的障碍图用作环境,用矩形 表示无人车,构建出一个简单的操控无人车在障碍图中行驶的仿真环 境,仿真环境中在障碍物坐标处绘制点,可通行区域不绘制任何图像, 并用星形表示目标点,仿真环境的截图被用作深度强化学习算法的训 练数据;
[0021]S301:每当无人车执行一个动作,游戏界面会刷新,将无人车绘 制在新的坐标。无人车的线加速度为l
a
,角速度为a
v
,当前的角度O, 则无人车的坐标计算方式为:
[0022]x=x+l
a
×
cos(O+a
v
),
[0023]y=y

l
a
×
sin(O+a
v
)。
[0024]优选地,步骤S4进一步包括:
[0025]S400:记录S2中每个障碍图中障碍物的坐标。根据环境来设定 膨胀系数并进行障碍物膨胀。
[0026]S401:利用膨胀后的障碍物重新绘制障碍图,并保存障碍物坐标。
[0027]S402:在新的障碍图中执行A星算法,得到并记录每条最短路 径。
[0028]S403:从最短路径中均匀选取包含起点和目标点的10个点,用 作引导路径。
[0029]优选地,步骤S5进一步包括:
[0030]S500:计算所有A星搜索出来的路径长度的平均值和曲率的平 均值
[0031]S501:利用S500中的路径长度平均值和曲率平均值计算每条 最短路径的难度,计算方法为:
[0032][0033]其中,i为障碍图和最短路径的序号,L
i
表示第i条路径的长度, C
i
表示第i条路径的曲率。
[0034]优选的,步骤S6进一步包括:
[0035]S600:计算无人车当前坐标距目标点的距离与上一时刻坐标距 目标点的距离之
差δ
goal

[0036]S601:计算无人车当前坐标距目标点的距离与上一时刻坐标距 目标点的距离之差δ
start

[0037]S602:计算无人车当前位置与引导路径上每个点的距离,并选取 最短距离记为d
min

[0038]S603:以引导路径设计奖励函数R
astar

[0039][0040]其中W
v
为无人车的宽度。
[0041]S604:以无人车当前角度O
t
与上一时刻角度O
t
‑1之差的绝对值设 计奖励函数R
orient<本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于深度强化学习和A星搜索算法的路径规划方法,其特征在于,包括如下步骤:S1:驾驶无人车在越野环境中行驶并采集3D点云数据,记录无人车行驶过的路径;S2:从S1采集的点云数据中生成多张栅格障碍图,从无人车行驶过的路径中生成当前栅格图中的目标点;S3:利用S2中的栅格障碍图以及一张表示无人车的矩形构建仿真环境,矩形上标有箭头,用来标识无人车的方向;S4:利用A星算法从S2中的每张障碍图中生成引导路径;S5:根据S4中引导路径的长度和光滑度为不同障碍图设定不同的难度;S6:利用S4中的引导路径设计奖励函数;S7:利用近端策略优化算法和S6中的奖励函数,使用深度神经网络和数据增强、课程学习在S3中的仿真环境中训练无人车智能体;S8:利用S7中无人车走过的路径当作对应障碍图的路径规划结果。2.根据权利要求1所述的一种基于深度强化学习和A星搜索算法的路径规划方法,其特征在于,所述步骤S2包括如下步骤:S200:采用基于高斯过程回归的地面分割算法,将以车为中心的100米
×
100米区域内的三维点云数据转化成500
×
500二维的栅格障碍图,每个栅格的分辨率为0.2米;S201:将障碍图裁剪成尺寸为256
×
256,便于深度神经网络训练;S202:将当前障碍图中走过的路径的最后一个点当做目标点。3.根据权利要求2所述的一种基于深度强化学习和A星搜索算法的路径规划方法,其特征在于,所述步骤S3包括如下步骤:S300:利用Pygame工具,将S2中的障碍图用作环境,用矩形表示无人车,构建出一个简单的操控无人车在障碍图中行驶的仿真环境,仿真环境中在障碍物坐标处绘制点,可通行区域不绘制任何图像,并用星形表示目标点,仿真环境的截图被用作深度强化学习算法的训练数据;S301:每当无人车执行一个动作,游戏界面会刷新,将无人车绘制在新的坐标,无人车的线加速度为l
a
,角速度为a
v
,当前的角度O,则无人车的坐标计算方式为:x=x+l
a
×
cos(O+a
v
)y=y

l
a
×
sin(O+a
v
)。4.根据权利要求3所述的一种基于深度强化学习和A星搜索算法的路径规划方法,其特征在于,所述步骤S4包括如下步骤:S400:记录S2中每个障碍图中障碍物的坐标,根据环境来设定膨胀系数并进行障碍物膨胀;S401:利用膨胀后的障碍物重新绘制障碍图,并保存障碍物坐标;S402:在新的障碍图中执行A星算法,得到...

【专利技术属性】
技术研发人员:王旭商尔科聂一鸣肖良赵大伟戴斌
申请(专利权)人:中国人民解放军军事科学院国防科技创新研究院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1