一种基于强化学习的运动规划与自动泊车方法技术

技术编号：31674461 阅读：16 留言：0更新日期：2022-01-01 10:18

本发明专利技术公开一种基于强化学习的运动规划与自动泊车方法，其主要包括几个问题：1、通过传感器获取并绘制停车场邻近区域的图像，包括道路、可停泊区域和道路标识等。2、然后通过本发明专利技术算法识别道路标识、绘制车辆停泊的轨迹。3、通过本发明专利技术算法规划出的运动轨迹操作车辆准确停泊入指定位置，从而实现自动泊车。这即为整个自动泊车的过程，但本发明专利技术的算法需要经过强化学习的训练才能运行，本发明专利技术的训练过程主要分为几个部分：包括数据集收集、深度学习框架搭建与参数设置、模型训练和模型应用。本发明专利技术通过结合了传统的基于规划的自动泊车系统和基于强化学习的自动驾驶的方法的优点来完成自动泊车，提高了自动泊车过程中的速度与效率。效率。效率。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于强化学习的运动规划与自动泊车方法

[0001]本专利技术涉及自动驾驶
具体涉及一种基于强化学习的运动规划与自动泊车方法。

技术介绍

[0002]随着汽车保有量迅速增加，停车位紧张的现象逐渐加剧，由此引发了较多泊车事故，近年来为缓解此类泊车事故的发生，提高人们出行安全，自动泊车系统应运而生。目前关于自动泊车控制策略的研究方向有两个：1.基于经验的泊车运动控制策略；2.基于路径规划与路径跟踪的泊车控制策略。而基于经验的泊车运动控制策略需要大量的经验数据，将经验转化为泊车控制策略需要经历繁杂的步骤，同时使用的算法过于复杂(模糊控制、神经网络)，很难满足系统实时性要求，并且对于不同的泊车环境，往往需要不同的泊车经验数据，适用性较差，不利于实际应用。
[0003]基于路径规划与路径跟踪的泊车运动策略先结合车辆的运动学约束规划泊车路径，再使用控制算法进行路径跟踪。(先通过传感器来进行车位以及车身姿态的估算，再规划最优泊车路径)。传统的规划方法(ex.圆弧法)虽然可以满足需求，但约束条件会相应增加，求解过程变得更加复杂，降低了规划精度与响应速度。为了进一步提高自动泊车系统的控制精度和实效性，并且使其在不同泊车环境下都有较好的适用性，本专利技术使用基于强化学习的自动泊车算法。

技术实现思路

[0004]为解决上述问题，本专利技术提供一种基于强化学习的运动规划与自动泊车方法，其主要包括几个问题:1.通过传感器获取并绘制停车场邻近区域的图像，包括道路、可停泊区域和道路标识等，然后模拟进训练系统。2...

【技术保护点】

【技术特征摘要】
1.一种基于强化学习的运动规划与自动泊车方法，其特征在于，第一，收集强化学习所需要用到的停车经验数据集；第二，建立自动泊车系统中车辆的动力学系统，包括不同车辆的初始位置中心点坐标的坐标集p0＝{(x0,y0),(x1,y1),(x2,y2),(x3,y3),(x4,y4)..}，由于模拟过程是将车辆放入一个二维平面进行模拟，因此此处的x，y表示车辆的横纵坐标；车辆默认初始速度V0均为0，车辆的加速度的范围被限制在区间(0,A
m
)之间；车辆的速度被限制在区间(0,V
m
)之间，车辆的转动方向由转动角限制在(
‑
α,α)之间，车辆最小转弯半径限制在(R1,R2)之间；设置停车场边界线四点坐标{(x0,y0),(x1,y1),(x2,y2),(x3,y3),(x4,y4)}，停车位四点坐标{(x0,y0),(x1,y1),(x2,y2),(x3,y3),(x4,y4)}，停车场内每个物体都由数量不等的坐标集构成{(x0,y0),(x1,y1),(x2,y2),(x3,y3),(x4,y4)..}；第三，使用Q
‑
learning的强化学习方法针对已有的模型数据进行训练：初始化所有(状态，动作)的Q(s,a)，就是在某一时刻的s状态下(s∈S)，采取强化学习所使用的经验数据集中的动作a(a∈A)能够获得收益的期望，环境会根据agent的动作反馈相应的回报r，所以算法是将State与Action构建成一张Q
‑
table来存储Q值，然后根据Q值来选取能够获得最大的收益的动作。2.根据权利要求1所述的一种基于强化学习的自动驾驶与运动规划方法，其特征在于，停车训练过程中使用了基于强化学习用到的停车经验数据集和基于运动规划的两个策略进行训练；在进行初始化时，给予一个概率值e_greedy0，当处于环境f时，按照算法中的强化学习所需要用到的停车经验数据集中的停车路线策略进行动作选择的概率为e_greedy(S
f
,A
f
)(表示车辆处于状态f下选择动作f的概率)，而为了避免局部最优以及进行更多的探索，在不同的训练迭代过程中被训练的自动驾驶车辆会按照不同的e_greedy的概率进行随机选择。3.根据权利要求2所述的一种基于强化学习的运动规划与自动泊车方法，其特征在于，在车辆未停止时：根据当前Q
‑

【专利技术属性】
技术研发人员：赵奕帆，封霆谚，郝祁，范知，
申请(专利权)人：赵奕帆，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人