【技术实现步骤摘要】
基于高精地图的自动驾驶控制方法及自动驾驶控制装置
[0001]本公开涉及无人驾驶
,本公开涉及一种基于高精地图的自动驾驶控制方法、装置、电子设备、存储介质及程序产品。
技术介绍
[0002]强化学习(Reinforcement Learning,RL)作为一个强大的学习框架,其基本思想是智能体能够在不断的尝试与错误中学习策略解决问题,但是常规的强化学习算法如Q
‑
Learning等依赖大量的状态
‑
动作对记录,通过查询记录来决策下一步的行动,这使得其空间开销非常大,同时也缺少对从未记录过的新状态场景进行决策的泛化推断能力。为了克服这些问题,科学家们将深度学习(Deep Learning)和强化学习结合起来,深度强化学习(Deep Reinforcement Learning,DRL)应运而生。
[0003]深度强化学习在自动驾驶领域的决策规划应用是一个新型研究方向,目前绝大多数相关研究可以分为三类:
[0004]1、基于视觉的端到端深度强化学习研究,直接输入RGB图片 ...
【技术保护点】
【技术特征摘要】
1.一种基于高精地图的自动驾驶控制方法,其特征在于,包括:实时获取本车自身信息及本车周边环境信息,实时获取本车车载高精地图的路径规划信息;基于所述本车自身信息、本车周边环境信息及所述路径规划信息获取相对信息;基于所述本车自身信息、本车周边环境信息、路径规划信息及所述相对信息构建信息融合空间;从所述信息融合空间抽取关键信息构建状态空间,并输入至深度强化学习模型(Deep Reinforcement Learning,DRL);所述深度强化学习模型输出用于自动驾驶控制的控制变量;以及将所述控制变量转换为本车的行动指令数值;其中,所述路径规划信息以连续路径点表示,所述连续路径点为本车当前位置后续的预设数量的连续路径点;其中,所述相对信息包括本车与其他车辆的相对信息即相对车辆信息、本车与连续路径点的相对信息即相对路径点信息及本车与连续路径点轨迹连接线的相对信息即相对路径点连线信息;所述关键信息包括本车自身信息、其他车辆信息、相对路径点信息及车道交通信息;所述其他车辆信息基于所述本车周边环境信息获得;所述相对路径点信息基于所述路径规划信息获得;所述车道交通信息基于所述本车周边环境信息获得。2.根据权利要求1所述的基于高精地图的自动驾驶控制方法,其特征在于,所述路径点均产生在所述高精地图中的车道中心线上。3.根据权利要求1所述的基于高精地图的自动驾驶控制方法,其特征在于,所述本车自身信息包括本车速度、本车转角及本车累计移动距离。4.根据权利要求1所述的基于高精地图的自动驾驶控制方法,其特征在于,所述本车周边环境信息包括其他车辆信息及车道交通信息;所述其他车辆信息包括至少一个其他车辆的位置、速度及转角;所述车道交通信息包括车道宽度信息、十字路口信息、交通灯信息及左右侧危险检测信息。5.根据权利要求1所述的基于高精地图的自动驾驶控制方法,其特征在于,所述深度强化学习模型包括但不限于基于PPO(ProximalPolicy Optimization)算法的模型、基于SAC(Soft Actor
‑
Critic)算法的模型。6.根据权利要求1所述的基于高精地图的自动驾驶控制方法,其特征在于,所述深度强化学习模型为经过了奖励回报空间及现实驾驶规范信息训练之后的深度强化学习模型;其中,所述奖励回报空间至少基于所述状态空间构建;可选地,所述奖励回报空间包括以下回报奖励函数变量:速度奖励变量(r_speed),所述速度奖励变量关联所述本车自身信息及所述相对路径点信息;碰撞奖励变量(r_collision),所述碰撞奖励变量关联所述其他车辆信息、相对车辆信息、车道交通信息及本车自身信息;
转角奖励变量(r_steer),所述转角奖励变量关联所述本车自身信息及相对路径点信息;路线奖励变量(r_out),所述路线奖励变量关联所述相对路径点信息及所述相对路径点连线信息;终点奖励变量(r_dest),所述终点奖励变量关联所述本车自身信息、所述相对路径点信息及所述相对路径点连线信息;交通灯奖励变量(r_trafficlight),所述交通灯奖励变量关联所述本车自身信息及车道交通信息;可选地,所述奖励回报空间还包括以下回报奖励函数变量:位置缓动奖励变量(r_s...
【专利技术属性】
技术研发人员:蒋博韬,范圣印,李雪,金凌鸽,
申请(专利权)人:北京易航远智科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。