一种基于人工势场法和强化学习的智能车路径规划方法技术

技术编号:38751392 阅读:15 留言:0更新日期:2023-09-09 11:18
本申请公开了一种基于人工势场法和强化学习的智能车路径规划方法,针对传统人工势场法存在的“最小陷阱”问题,通过APF加权将先验环境虚拟化为总人工势场,并计算适当的学习值。该算法成功地解决了已知和未知环境下路径规划问题。将Q

【技术实现步骤摘要】
一种基于人工势场法和强化学习的智能车路径规划方法


[0001]本申请涉及自动驾驶
,尤其涉及一种基于人工势场法和强化学习的智能车路径规划方法。

技术介绍

[0002]路径规划是自动驾驶的关键技术之一,是自动驾驶汽车安全行驶的必要条件。人工势场法(APF)是路径规划领域比较成熟和实时性较好的规划方法,工作原理是将环境信息抽象为引力场函数和斥力场函数,通过合力场函数来规划出一条从起始点到目标点的无碰撞路径。传统人工势场法无法保证路径规划的效率,原因在于其存在两大缺陷:车辆可能陷入局部最小点问题以及某些条件下目标不可达。
[0003]针对上述传统人工势场在智能车路径规划中存在的问题,通过建立道路边界斥力势场以限制汽车的行驶区域;通过改进障碍物斥力势场函数来解决局部最优和目标不可达的问题;通过建立速度斥力势场来更加准确的描述障碍物的信息,以解决汽车与障碍物的碰撞问题。贝绍轶等专利技术了一种基于改进型人工势场法的无人车局部路径规划方法(CN202111673751.6),在引力函数中设定距离阈值,在斥力函数中增加斥力场调节因子,当无人车陷入局部最优解时,在满足无人车自身转向约束的前提下,采用基于较小转向角的跳出局部最优解的策略,但增加了算法的计算量和复杂度。时培成等专利技术了一种改进人工势场算法的智能车路径规划方法(CN202011307835.3),自动根据局部极小值点影响区域大小调整移出影响区域的步长和轨迹,来智能车陷入局部极小值点时自动逃离,但其整体轨迹规划计算量过大,规划的路径不够平滑。
[0004]强化学习算法是一种不需要先验知识的学习方法。它强调与环境的互动学习,并通过不断尝试获得环境反馈来积累奖励,然后选择最佳行动来完成路径规划任务。在路径规划领域应用最为广泛的强化学习算法是Q

learning算法,Q

learning算法是强化学习中基于值的算法,在特定状态下尝试一个动作,并根据它收到的即时奖励或惩罚以及它对所采取的状态的价值的估计来更新Q值。通过反复尝试所有状态下的所有动作,然后根据Q值来选取能够获得最大收益的动作。

技术实现思路

[0005]本申请提出了一种基于人工势场法和强化学习的智能车路径规划方法,在传统人工势场方法上加入强化学习算法,通过利用APF加权引导Q

learning不仅克服了传统势场法自身存在的局部极小值等问题,还加快了经典Q

learning的收敛速度,解决了智能车辆在复杂环境下的路径规划问题。
[0006]为达到上述目的,本申请采用如下技术方案:一种基于人工势场法和强化学习的智能车路径规划方法,包括以下步骤:
[0007]步骤S1:获取环境图像,建立格栅地图;
[0008]步骤S2:定义强化学习状态空间和动作空间;
[0009]步骤S3:初始化算法参数;
[0010]步骤S4:在状态集中随机选取初始状态;
[0011]步骤S5:构建人工势场,势场由引力势场和斥力势场叠加而成;
[0012]步骤S6:在动作空间中,采用APF加权或ε

贪婪策略选择动作;
[0013]步骤S7:在状态s执行当前动作,得到新状态s
t+
1和奖励r;
[0014]步骤S8:更新Q值;
[0015]步骤S9:每一步选择Q值最大的动作,得出最优路径;
[0016]步骤S10:复执行6,7,8步,直到达到一定步数或一定收敛条件为止;
[0017]步骤S11:生成从起点q0到目标点q
f
的路径,将最终生成的路径发送到智能车的控制中心,智能车按照此路径进行行驶。
[0018]进一步的,所述步骤S1的具体操作如下:基于智能车摄像头获得环境图像,并将图像分割成25
×
25的栅格,采用栅格法建立环境模型,如果在格栅中发现障碍物,则定义该栅格为障碍物位置,智能车不能经过;如果格栅中发现目标点,则定于该格栅为目标位置,为智能车最终要到达的位置;其他的栅格定义为无障碍物的栅格,智能车可以经过。
[0019]进一步的,所述步骤S2的具体操作如下:定义强化学习的状态空间为智能体的当前位置坐标和上一位置坐标,动作空间为上、下、左、右四个方向的动作,每次执行动作之后智能体朝相应的方向移动一个栅格。
[0020]进一步的,所述步骤S3中的算法参数包括学习率α∈(0,1),折扣因子γ∈(0,1),贪婪因子ξ∈(0,1),最大迭代次数,奖励函数r;把所有Q值初始化为0。
[0021]进一步的,所述步骤S5的具体操作如下:根据障碍物与目标点的位置,构建目标点的引力场:
[0022][0023]其中U
att
(q)为目标点在位置q产生的引力场,k
att
为目标点的引力系数,q为位置坐标,q
f
为目标点所在坐标。
[0024]构建障碍物的斥力场:
[0025][0026]其中U
rep
(q)为障碍物所产生的斥力势场,k
rep
为障碍物的斥力系数,ρ表示斥力势场影响的极限距离,ρ0表示当前位置到障碍物的最短距离。
[0027]总人工势场包括两项,吸引势函数和排斥势函数。总的人工势场U(q)则是这两个势函数的和:
[0028]U(q)=U
att
(q)+U
rep
(q)
[0029]进一步的,所述步骤S6的具体操作如下:生成均匀随机数。如果均匀随机数大于判决率ξ∈(0,1),则将执行APF加权过程。否则,将执行探索

利用方法。
[0030]对于APF加权,我们将采用摩尔邻域,其被定义在二维正方形晶格上并且由中心单元(在这种情况下,当前智能车状态st)和围绕它的八个单元组成。
[0031]分配给st的相邻单元的概率与它们的总人工势场成反比。具有最低总人工势场的相邻小区具有被分配给st+1的最大概率,而具有最高总人工势场的相邻小区具有被分配给st+1的最低概率。
[0032]计算选择区域的概率p
i
(i=1,...,k),其中k是相邻小区的数量。选择哪一个区域的概率为:
[0033][0034]计算标准(单元)APF加权函数。APF加权函数σ:
[0035][0036]其中i=1,...k,R
k

(0,1)
k
,p=(p1,...,p
k
)∈R
k
[0037]由APF加权函数获得的累积概率用于选择状态s
t
中的动作a
t
。首先,对p所包含的概率进行排序。然后,生成零和一之间的随机数。从列表的顶部开始,选择累积概率大于随机数的第一相邻小区用于状态s
t+1

[0038]由APF加权函数获得的累积概本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于人工势场法和强化学习的智能车路径规划方法,其特征在于,包括以下步骤:步骤S1:获取环境图像,建立格栅地图;步骤S2:定义强化学习状态空间和动作空间;步骤S3:初始化算法参数;步骤S4:在状态集中随机选取初始状态;步骤S5:构建人工势场,势场由引力势场和斥力势场叠加而成;步骤S6:在动作空间中,采用APF加权或ε

贪婪策略选择动作;步骤S7:在状态s执行当前动作,得到新状态s
t+1
和奖励r;步骤S8:更新Q值;步骤S9:每一步选择Q值最大的动作,得出最优路径;步骤S10:复执行6,7,8步,直到达到一定步数或一定收敛条件为止;步骤S11:生成从起点q0到目标点q
f
的路径,将最终生成的路径发送到智能车的控制中心,智能车按照此路径进行行驶。2.根据权利要求1所述的一种基于人工势场法和强化学习的智能车路径规划方法,其特征在于,所述步骤S1的具体操作如下:基于智能车摄像头获得环境图像,并将图像分割成25
×
25的栅格,采用栅格法建立环境模型,如果在格栅中发现障碍物,则定义该栅格为障碍物位置,智能车不能经过;如果格栅中发现目标点,则定于该格栅为目标位置,为智能车最终要到达的位置;其他的栅格定义为无障碍物的栅格,智能车可以经过。3.根据权利要求2所述的一种基于人工势场法和强化学习的智能车路径规划方法,其特征在于,所述步骤S2的具体操作如下:定义强化学习的状态空间为智能体的当前位置坐标和上一位置坐标,动作空间为上、下、左、右四个方向的动作,每次执行动作之后智能体朝相应的方向移动一个栅格。4.根据权利要求3所述的一种基于人工势场法和强化学习的智能车路径规划方法,其特征在于,所述步骤S3中的算法参数包括学习率α∈(0,1),折扣因子γ∈(0,1),贪婪因子ξ∈(0,1),最大迭代次数,奖励函数r;把所有Q值初始化为0。5.根据权利要求4所述的一种基于人工势场法和强化学习的智能车路径规划方法,其特征在于,所述步骤S5的具体操作如下:根据障碍物与目标点的位置,构建目标点的引力场:其中U
att
(q)为目标点在位置q产生的引力场,k
att
为目标点的引力系数,q为位置坐标,q
f
为目标点所在坐标;构建障碍物的斥力场:
其中U
rep
(q)为障碍物所产生的斥力势场,k
rep
为障碍物的斥力系数,ρ表示斥力势场影响的极限距离,ρ0表示当前位置到障碍物的最短距离,总人工势场包括两项,吸引势函数和排斥势函数,总的人工势场U(q)则是这两个势函数的和:U(q)=U
att
(q)+U
rep
(q)。6.根据权利要求5所述的一种基于人工势场法和强化学习的智能车路径规划方法,其特征在于,所述步骤S6的具体操作如下:生成均匀随机数,如果均匀随机数大于判决率ξ∈(0,1),则将执行APF加权过程,否则,将执行探索

利用方法;对于APF加权,我们将采用摩尔邻域,其被定义在二维正方形晶格上并且由中心单元(在这种情况下,当前智能车状态st)和围绕它的八个单元组成;分配给st的相邻单元的概率与它们的总人工势场成反比,具有最低总人工势场的相邻小区具有被分配给st+1的最大概率,而具有最高总人工势场的相邻小区具有被分配给st+1的最低概率;计算选择区域的概率p
i
(i=1,...,k),其中k是相邻小...

【专利技术属性】
技术研发人员:杨泽远杨刚陶发展何晓鹏熊心和匡海军宋兵汪洋杨一博
申请(专利权)人:重庆市荣冠科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1