当前位置: 首页 > 专利查询>赵奕帆专利>正文

一种基于强化学习的运动规划与自动泊车方法技术

技术编号:31674461 阅读:16 留言:0更新日期:2022-01-01 10:18
本发明专利技术公开一种基于强化学习的运动规划与自动泊车方法,其主要包括几个问题:1、通过传感器获取并绘制停车场邻近区域的图像,包括道路、可停泊区域和道路标识等。2、然后通过本发明专利技术算法识别道路标识、绘制车辆停泊的轨迹。3、通过本发明专利技术算法规划出的运动轨迹操作车辆准确停泊入指定位置,从而实现自动泊车。这即为整个自动泊车的过程,但本发明专利技术的算法需要经过强化学习的训练才能运行,本发明专利技术的训练过程主要分为几个部分:包括数据集收集、深度学习框架搭建与参数设置、模型训练和模型应用。本发明专利技术通过结合了传统的基于规划的自动泊车系统和基于强化学习的自动驾驶的方法的优点来完成自动泊车,提高了自动泊车过程中的速度与效率。效率。效率。

【技术实现步骤摘要】
一种基于强化学习的运动规划与自动泊车方法


[0001]本专利技术涉及自动驾驶
具体涉及一种基于强化学习的运动规划与自动泊车方法。

技术介绍

[0002]随着汽车保有量迅速增加,停车位紧张的现象逐渐加剧,由此引发了较多泊车事故,近年来为缓解此类泊车事故的发生,提高人们出行安全,自动泊车系统应运而生。目前关于自动泊车控制策略的研究方向有两个:1.基于经验的泊车运动控制策略;2.基于路径规划与路径跟踪的泊车控制策略。而基于经验的泊车运动控制策略需要大量的经验数据,将经验转化为泊车控制策略需要经历繁杂的步骤,同时使用的算法过于复杂(模糊控制、神经网络),很难满足系统实时性要求,并且对于不同的泊车环境,往往需要不同的泊车经验数据,适用性较差,不利于实际应用。
[0003]基于路径规划与路径跟踪的泊车运动策略先结合车辆的运动学约束规划泊车路径,再使用控制算法进行路径跟踪。(先通过传感器来进行车位以及车身姿态的估算,再规划最优泊车路径)。传统的规划方法(ex.圆弧法)虽然可以满足需求,但约束条件会相应增加,求解过程变得更加复杂,降低了规划精度与响应速度。为了进一步提高自动泊车系统的控制精度和实效性,并且使其在不同泊车环境下都有较好的适用性,本专利技术使用基于强化学习的自动泊车算法。

技术实现思路

[0004]为解决上述问题,本专利技术提供一种基于强化学习的运动规划与自动泊车方法,其主要包括几个问题:1.通过传感器获取并绘制停车场邻近区域的图像,包括道路、可停泊区域和道路标识等,然后模拟进训练系统。2.通过本专利技术算法识别道路标识、绘制停泊轨迹。3.通过本专利技术算法所规划的运动轨迹操作车辆准确停泊入指定位置,从而实现自动泊车,此即为整个自动泊车过程。本专利技术就是要对收集的停车经验数据集进行训练,使得其更加有利于自动泊车的进行。本专利技术的算法需要经过强化学习的训练才能运行,整体训练过程主要分为几个部分:数据集收集(该数据集是基于经验的停车轨迹的规划,通过对多种情况下完整停车轨迹的搜集,来形成本专利技术的数据集)、深度学习框架搭建与参数设置、模型训练和模型应用。本专利技术结合了传统的基于规划的自动泊车系统和基于(经验的,也就是强化学习)强化学习的自动驾驶方法之优点完成自动泊车系统的训练,以提高自动泊车过程中的速度与效率。
[0005]两种方法结合的优点具体表现为降低了决策树的深度与广度,从而大大减少了强化学习方法一次迭代所需要的时间,从而提高了训练过程的效率。同时传统的基于规划的自动泊车系统的轨迹数据的精度较高,可以较好地用于强化学习。
[0006]本专利技术的技术解决方案为:一种基于强化学习的运动规划与自动泊车方法:
[0007]第一,收集强化学习所需要的用到的停车经验数据集;其包含停车开始到结束过
程中车辆的坐标信息、速度信息、转向角信息和环境中障碍物的具体坐标信息;
[0008]第二,建立自动泊车系统中车辆的动力学系统,包括不同车辆的初始位置中心点坐标的坐标集p0={(x0,y0),(x1,y1),(x2,y2),(x3,y3),(x4,y4)..},由于模拟过程是将车辆放入一个二维平面进行模拟,因此此处的x,y表示车辆的横纵坐标;车辆默认初始速度V0均为0,车辆的加速度的范围被限制在区间(0,A
m
)之间;车辆的速度被限制在区间(0,V
m
)之间,车辆的转动方向由转动角限制在(

α,α)之间,车辆最小转弯半径限制在(R1,R2)之间;设置停车场边界线四点坐标{(x0,y0),(x1,y1),(x2,y2),(x3,y3),(x4,y4)},停车位四点坐标{(x0,y0),(x1,y1),(x2,y2),(x3,y3),(x4,y4)},停车场内每个物体都由数量不等的坐标集构成{(x0,y0),(x1,y1),(x2,y2),(x3,y3),(x4,y4)..};
[0009]第三,使用Q

learning的强化学习方法针对已有的模型数据进行训练:初始化所有(状态,动作)的Q(s,a),就是在某一时刻的s状态下(s∈S),采取经验数据集中的动作a(a∈A)能够获得收益的期望,环境会根据agent的动作反馈相应的回报r,算法是将State与Action构建成一张Q

table来存储Q值,然后根据Q值来选取能够获得最大的收益的动作。
[0010]优选的,停车训练过程中使用了基于强化学习用到的停车经验数据集和基于运动规划的两个策略进行训练;在进行初始化时,给予一个概率值e_greedy0,当处于环境1时,按照算法中的强化学习所需用到的停车经验数据集中的停车路线策略进行动作选择的概率为e_greedy(S1,A1)(表示车辆处于状态1下选择动作1的概率),而为了避免局部最优以及进行更多的探索,在不同的训练迭代过程中被训练的自动驾驶车辆会按照不同的e_greedy的概率进行随机选择。在算法中所用到的概率的计算是通过所在状态和选择的动作得到的,其值正比于所选动作的权重值大小。
[0011]优选的,在车辆未停止时:
[0012]根据当前Q

values的估计值estimates(Q(s,*)),选择当前状态s的动作a;运行动作a,得到r和输出的新状态s

并更新Q(s,a)的表项。
[0013]优选的,
[0014]Q(s,a)=Q(s,a)+α[r+γmax Q(s

,a

)

Q(s,a)][0015](α:learningrate,γ:discount factor)
[0016]在获取下一步环境的实际情况之后再进行学习,学习函数对Q

Table表更新的重要参数之一就是获取下一步的环境的实际情况;具体来说,在进行学习过程时,Q

Learning的对象会根据所处的当前环境下所获得的积累得分和下一步的环境的实际情况(最大得分)对当前环境的Q

Table表进行更新;其中α为学习速率(learning rate),γ为折扣因子(discount factor),学习速率决定了对先前的训练结果的保留程度,也即α越大,保留先前的训练成果越少;折扣因子γ决定了项max Q(s

,a

)的作用程度,该项是先前训练的步骤获取到的收益,而项Q(s,a)是当前的训练步骤期望获得的收益,也即折扣因子γ越大,模型会更注重过往经验,该值越小模型会更注重眼前的收益;
[0017]所有的动作会有一个起始收益值(也即后文提到的回报值),该值取决于提供给强化学习的数据中的动作出现的频率,也即原数据集中同一动作出现的频率越高,收益值越大。在强化学习的迭代过程中,成功的学习结果会“强化”轨迹中所有动作的收益值,也就使得我们预期获得的结果更接近最优的结果。
[0018]这个过程会基于本专利技术通过环境获取到的环境信息进本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于强化学习的运动规划与自动泊车方法,其特征在于,第一,收集强化学习所需要用到的停车经验数据集;第二,建立自动泊车系统中车辆的动力学系统,包括不同车辆的初始位置中心点坐标的坐标集p0={(x0,y0),(x1,y1),(x2,y2),(x3,y3),(x4,y4)..},由于模拟过程是将车辆放入一个二维平面进行模拟,因此此处的x,y表示车辆的横纵坐标;车辆默认初始速度V0均为0,车辆的加速度的范围被限制在区间(0,A
m
)之间;车辆的速度被限制在区间(0,V
m
)之间,车辆的转动方向由转动角限制在(

α,α)之间,车辆最小转弯半径限制在(R1,R2)之间;设置停车场边界线四点坐标{(x0,y0),(x1,y1),(x2,y2),(x3,y3),(x4,y4)},停车位四点坐标{(x0,y0),(x1,y1),(x2,y2),(x3,y3),(x4,y4)},停车场内每个物体都由数量不等的坐标集构成{(x0,y0),(x1,y1),(x2,y2),(x3,y3),(x4,y4)..};第三,使用Q

learning的强化学习方法针对已有的模型数据进行训练:初始化所有(状态,动作)的Q(s,a),就是在某一时刻的s状态下(s∈S),采取强化学习所使用的经验数据集中的动作a(a∈A)能够获得收益的期望,环境会根据agent的动作反馈相应的回报r,所以算法是将State与Action构建成一张Q

table来存储Q值,然后根据Q值来选取能够获得最大的收益的动作。2.根据权利要求1所述的一种基于强化学习的自动驾驶与运动规划方法,其特征在于,停车训练过程中使用了基于强化学习用到的停车经验数据集和基于运动规划的两个策略进行训练;在进行初始化时,给予一个概率值e_greedy0,当处于环境f时,按照算法中的强化学习所需要用到的停车经验数据集中的停车路线策略进行动作选择的概率为e_greedy(S
f
,A
f
)(表示车辆处于状态f下选择动作f的概率),而为了避免局部最优以及进行更多的探索,在不同的训练迭代过程中被训练的自动驾驶车辆会按照不同的e_greedy的概率进行随机选择。3.根据权利要求2所述的一种基于强化学习的运动规划与自动泊车方法,其特征在于,在车辆未停止时:根据当前Q

【专利技术属性】
技术研发人员:赵奕帆封霆谚郝祁范知
申请(专利权)人:赵奕帆
类型:发明
国别省市:

相关技术
    暂无相关专利
网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1