【技术实现步骤摘要】
忽略车辆垂直方向的运动,将车辆描述为一个二维平面上运动的物体,(2)针对车辆的结构,将车辆前面两个轮胎的角度、转速视为相同,同样后面两个轮胎也视为相同,即前后轮胎各用一个轮胎表示,(3)假设车辆的运动中,前轮控制车辆的转向角,以车辆后轴中心点为参考点,其中θ是车身方向相对于X轴逆时针方向的角度,v是θ方向的速度, L是车辆的轴距,(x,y)是车辆的坐标。
[0014]作为优选,所述S2,将动作离散化成标准动作的方式,以此来降低动作空间的维度,同时通过设置短距离内车辆的转弯半径和转向角度,降低状态维度,有效缓解了维数灾难问题,简化了问题的求解过程。
[0015]作为优选,所述S3,车辆的路径规划过程中,使用车辆在任意时刻的位姿表示车辆在当前环境中所处的状态,其中坐标(x,y)的取值应在场景边界范围内,以车辆自身为原点,车身方向为y轴建立局部坐标系,角度θ
′
为车辆在局部坐标系下的角度,θ
′
满足车辆前轮最大转向角的约束,这里取值为35,此时θ
′
取值为55≤θ
′
≤125,通过局部坐标系与全局坐标系的变换即可得到对应的全局角度θ。
[0016]作为优选,所述S4,假设车辆移动过程中速度保持不变,只能通过转动方向盘调整车辆行驶时的角度,以此简化车辆的运动学模型,当车辆实际运动时,通过转动方向盘给前轮一个转向角α改变车辆前进的轨迹,α∈[55,125],如果保持转向角a不变行驶一段距离,则在此过程中,车辆是以一定的转弯半径r做圆弧运动到点p,设圆弧轨迹的转角为θ,op的 ...
【技术保护点】
【技术特征摘要】
1.基于自学习最优控制的车辆路径规划模块组,其特征在于:包括store_transition模块、choose_action模块、learn模块,所述store_transition模块用来存放所有执行过的步,将状态动作的转移信息<s,a,r,s
′
>即经验保存到记忆缓存中,通过在记忆缓存中随机小批量采样的方式训练网络,记忆缓存的容量固定为3000,以队列的方式存储,当超出容量时,需要删除旧的信息,choose_action模块用于制定智能体在某一状态下选择行为的策略,实验中采取ε
‑
贪婪策略,定义ε为0.9,减小的步长为0.0001,即在开始阶段以0.9的概率选择eval_net网络生成的所有动作值中,最大值对应的作,以0.1的概率选择随机行为,随着时间的推移ε的值不断减小,较好地解决了学习过程中探索与利用的平衡问题,learn模块定义了Double DQN网络的学习过程,涉及eval_net和target_net的交互,首先检测是否达到了替换目标网络参数的步数replace_target_iter,如果当前步数大于replace_target_iter则替换目标网络的参数,然后从记忆缓存中随机抽取小批量样本分别获取eval_net和target_net的q值,并且训练eval_net。2.基于自学习最优控制的车辆路径规划方法,其特征在于:包括以下步骤:S1:移动车辆简化并建立模型;S2:将动作离散化成标准动作;S3:车辆位姿表示;S4:简化车辆的运动学模型;S5:车辆移动过程奖励函数。3.根据权利要求2所述的基于自学习最优控制的车辆路径规划方法,其特征在于:所述S1,移动车辆简化并建立模型,主要基于如下几个假设:(1)忽略车辆垂直方向的运动,将车辆描述为一个二维平面上运动的物体,(2)针对车辆的结构,将车辆前面两个轮胎的角度、转速视为相同,同样后面两个轮胎也视为相同,即前后轮胎各用一个轮胎表示,(3)假设车辆的运动中,前轮控制车辆的转向角,以车辆后轴中心点为参考点,其中θ是车身方向相对于X轴逆时针方向的角度,v是θ方向的速度,L是车辆的轴距,(x,y)是车辆的坐标。4.根据权利要求2所述的基于自学习最优控制的车辆路径规划方法,其特征在于:所述S2,将动作离散化成标准动作的方式,以此来降低动作空间的维度,同时通过设置短距离内车辆的转弯半径和转向角度,降低状态维度,有效缓解了维数灾难问题,简化了问题的求解过程。5.根据权利要求2所述的基于自学习最优控制的车辆路径规划方法,其特征在于:所述S3,车辆的路径规划过程中,使用车辆在任意时刻的位姿表示车辆在当前环境中所处的状态,其中坐标(x,y)的取值应在场景边界范围内,以车辆自身为原点,车身方向为y轴建立局部坐标系,角度θ
′
为车辆在局部坐标...
【专利技术属性】
技术研发人员:张鹏翼,鞠鸿彬,顾启佳,张鹏,朱振华,闫钰天,魏庆来,
申请(专利权)人:中国船舶集团有限公司系统工程研究院,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。