基于自学习最优控制的车辆路径规划方法技术

技术编号:35098203 阅读:16 留言:0更新日期:2022-10-01 17:02
本发明专利技术涉及车辆路径规划领域技术领域,且公开了基于自学习最优控制的车辆路径规划模块组,包括store_transition模块、choose_action模块、learn模块,基于自学习最优控制的车辆路径规划方法,包括以下步骤:S1:移动车辆简化并建立模型;S2:将动作离散化成标准动作;S3:车辆位姿表示;S4:简化车辆的运动学模型;S5:车辆移动过程奖励函数。采用ReLU激活函数,执行动作网络用于预测状态行为q值,会及时更新网络中的参数值,不断提升,目标网络用于预测目标q值,它采用若干步之前的执行动作网络中的参数值,每隔一定频率进行更新,在训练的过程中,采用均方误差损失函数,通过梯度下降的方法更新网络中的参数,达到高效灵活控制网络中参数的效果。络中参数的效果。络中参数的效果。

【技术实现步骤摘要】
忽略车辆垂直方向的运动,将车辆描述为一个二维平面上运动的物体,(2)针对车辆的结构,将车辆前面两个轮胎的角度、转速视为相同,同样后面两个轮胎也视为相同,即前后轮胎各用一个轮胎表示,(3)假设车辆的运动中,前轮控制车辆的转向角,以车辆后轴中心点为参考点,其中θ是车身方向相对于X轴逆时针方向的角度,v是θ方向的速度, L是车辆的轴距,(x,y)是车辆的坐标。
[0014]作为优选,所述S2,将动作离散化成标准动作的方式,以此来降低动作空间的维度,同时通过设置短距离内车辆的转弯半径和转向角度,降低状态维度,有效缓解了维数灾难问题,简化了问题的求解过程。
[0015]作为优选,所述S3,车辆的路径规划过程中,使用车辆在任意时刻的位姿表示车辆在当前环境中所处的状态,其中坐标(x,y)的取值应在场景边界范围内,以车辆自身为原点,车身方向为y轴建立局部坐标系,角度θ

为车辆在局部坐标系下的角度,θ

满足车辆前轮最大转向角的约束,这里取值为35,此时θ

取值为55≤θ

≤125,通过局部坐标系与全局坐标系的变换即可得到对应的全局角度θ。
[0016]作为优选,所述S4,假设车辆移动过程中速度保持不变,只能通过转动方向盘调整车辆行驶时的角度,以此简化车辆的运动学模型,当车辆实际运动时,通过转动方向盘给前轮一个转向角α改变车辆前进的轨迹,α∈[55,125],如果保持转向角a不变行驶一段距离,则在此过程中,车辆是以一定的转弯半径r做圆弧运动到点p,设圆弧轨迹的转角为θ,op的距离为l。
[0017]作为优选,所述S4,为保证算法的准确性,θ的取值应尽可能的小,r的取值满足 r≥R
min
,R
min
表示车辆前轮的最小转弯半径,这样当己知车辆在场景中的位置,通过给定—组(α,r,θ)即可确定车辆在场景中的下一位置,在车辆的移动过程中,为了尽量简化问题的复杂度,这里不考虑车辆后移的动作,规定车辆只在向前[55,125]的角度区间内匀速运动,并将动作空间进行离散化表示,为尽可能模拟真实情况。
[0018]作为优选,所述S4,在[55,125]区间内,从正前方即90度的方向分别向左右两边每间隔5度取一个角度值作为车辆前轮的转向角,从而构成角度集合 Angle[55,60,65,70,75,80,85,90,95,100,105,110,115,120,125],车辆的动作即为在某个角度α下采取以(r,θ)作为参数的圆弧运动,所以动作空间A共有15个值,记为{左 1,左2,左3,左4,左5,左6,左7,直行,右1,右2,右3,右4,右5,右 6,右7},每一个动作都以相等的概率随机被选择,由于在路径规划的过程中,状态空间非常大,采用无模型算法中的DDQN来进行计算。
[0019]作为优选,所述S5,车辆移动过程中主要考虑的因素有是否出边界、是否与障碍物发生碰撞、是否经过可停靠站位、到终点的距离是否发生变化、是否到达终点,因此对于车辆移动时采取某一动作a后,设置如下的奖励函数:当坐标位置超出边界时,奖励为

1,当与障碍物发生碰撞时,奖励为

1,当与前一时刻相比靠近终点时,奖励为0.001,当与前一时刻相比远离终点时,奖励为

0.001,当经过可停靠站位时,奖励为

0.005,当到达终点时,奖励为1。
[0020]有益效果
[0021]本专利技术提供了基于自学习最优控制的车辆路径规划方法。具备以下有益效果:
[0022](1)该基于自学习最优控制的车辆路径规划方法,随机初始化所有状态行为对应的 Q值,初始化当前Q网络的参数w,初始化目标网络Q'的参数w

,清空经验回放列表
[0023]D,初始化迭代参数i=0,1,

T,进行迭代,将S输入到Q网络中,得到Q网络中所
[0024]有动作对应的Q值输出。使用ε

贪婪法在所有的Q值输出中选择对应的动作A,执行
[0025]S

A状态动作对,得到新状态S

、奖励R、终止态判定is_end,将{S,A,R,S

,is_end} 五元组存入经验回放列表D中,令S=S

,从经验回放列表D中抽取m个样本{S,A,R, S

,is_end},j∈[1,m],计算当前目标的Q值y
j

[0026]使用均方误差损失函数通过梯度反向传播更新Q网络的参数w,如果达到目标网络更新频率C,则更新目标网络参数w=w

,如果S

为终止状态,当前轮迭代完毕,否则按照上述步骤继续进行采样更新,动作在[55,125]区间内,从正前方即90度的方向分别向左右两边每间隔5度取一个角度值作为车辆前轮的转向角,从而构成角度集合 Angle[55,60,65,70,75,80,85,90,95,100,105,110,115,120,125],车辆的动作即为在某个角度α下采取以(r,θ)作为参数的圆弧运动,所以动作空间A共有15个值,记为{左 1,左2,左3,左4,左5,左6,左7,直行,右1,右2,右3,右4,右5,右 6,右7},达到了使每一个动作都以相等的概率随机被选择的效果,减小路径规划的计算量。
[0027](2)该基于自学习最优控制的车辆路径规划方法,动作值函数对应一共有两个网络,分别是执行动作网络和目标函数网络,这两个网络的结构完全相同,均含两个隐层,每层包含100个神经元,输入状态维度为3,输出动作空间为15,采用ReLU激活函数,执行动作网络用于预测状态行为q值,会及时更新网络中的参数值,不断提升,目标网络用于预测目标q值,它采用若干步之前的执行动作网络中的参数值,不会立即更新,而是每隔一定频率进行更新,在训练的过程中,采用均方误差损失函数,通过梯度下降的方法更新网络中的参数,达到高效灵活控制网络中参数的效果。
[0028](3)该基于自学习最优控制的车辆路径规划方法,移动车辆简化并建立模型,主要基于如下几个假设:(1)忽略车辆垂直方向的运动,将车辆描述为一个二维平面上运动的物体,(2)针对车辆的结构,将车辆前面两个轮胎的角度、转速视为相同,同样后面两个轮胎也视为相同,即前后轮胎各用一个轮胎表示,(3)假设车辆的运动中,前轮控制车辆的转向角,以车辆后轴中心点为参考点,其中θ是车身方向相对于X轴逆时针方向的角度,v是θ方向的速度,L是车辆的轴距,(x,y)是车辆的坐标,达到了简化建立模型的效果,避免建模数据占用空间。
[0029](4)动作的选择策略采取ε

贪婪策略,定义为0.9,减小的步长为0.0001,即在开始阶段以0.9的概率选择eval_net网络生成的所有动作值中,最大值对应的动作,以0.1 的概率选择随机行为,随着时间的推移的值不断减小,达到本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于自学习最优控制的车辆路径规划模块组,其特征在于:包括store_transition模块、choose_action模块、learn模块,所述store_transition模块用来存放所有执行过的步,将状态动作的转移信息<s,a,r,s

>即经验保存到记忆缓存中,通过在记忆缓存中随机小批量采样的方式训练网络,记忆缓存的容量固定为3000,以队列的方式存储,当超出容量时,需要删除旧的信息,choose_action模块用于制定智能体在某一状态下选择行为的策略,实验中采取ε

贪婪策略,定义ε为0.9,减小的步长为0.0001,即在开始阶段以0.9的概率选择eval_net网络生成的所有动作值中,最大值对应的作,以0.1的概率选择随机行为,随着时间的推移ε的值不断减小,较好地解决了学习过程中探索与利用的平衡问题,learn模块定义了Double DQN网络的学习过程,涉及eval_net和target_net的交互,首先检测是否达到了替换目标网络参数的步数replace_target_iter,如果当前步数大于replace_target_iter则替换目标网络的参数,然后从记忆缓存中随机抽取小批量样本分别获取eval_net和target_net的q值,并且训练eval_net。2.基于自学习最优控制的车辆路径规划方法,其特征在于:包括以下步骤:S1:移动车辆简化并建立模型;S2:将动作离散化成标准动作;S3:车辆位姿表示;S4:简化车辆的运动学模型;S5:车辆移动过程奖励函数。3.根据权利要求2所述的基于自学习最优控制的车辆路径规划方法,其特征在于:所述S1,移动车辆简化并建立模型,主要基于如下几个假设:(1)忽略车辆垂直方向的运动,将车辆描述为一个二维平面上运动的物体,(2)针对车辆的结构,将车辆前面两个轮胎的角度、转速视为相同,同样后面两个轮胎也视为相同,即前后轮胎各用一个轮胎表示,(3)假设车辆的运动中,前轮控制车辆的转向角,以车辆后轴中心点为参考点,其中θ是车身方向相对于X轴逆时针方向的角度,v是θ方向的速度,L是车辆的轴距,(x,y)是车辆的坐标。4.根据权利要求2所述的基于自学习最优控制的车辆路径规划方法,其特征在于:所述S2,将动作离散化成标准动作的方式,以此来降低动作空间的维度,同时通过设置短距离内车辆的转弯半径和转向角度,降低状态维度,有效缓解了维数灾难问题,简化了问题的求解过程。5.根据权利要求2所述的基于自学习最优控制的车辆路径规划方法,其特征在于:所述S3,车辆的路径规划过程中,使用车辆在任意时刻的位姿表示车辆在当前环境中所处的状态,其中坐标(x,y)的取值应在场景边界范围内,以车辆自身为原点,车身方向为y轴建立局部坐标系,角度θ

为车辆在局部坐标...

【专利技术属性】
技术研发人员:张鹏翼鞠鸿彬顾启佳张鹏朱振华闫钰天魏庆来
申请(专利权)人:中国船舶集团有限公司系统工程研究院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1