【技术实现步骤摘要】
本申请涉及自动驾驶,具体涉及一种用于自动驾驶的强化学习模型的训练方法及会车方法。
技术介绍
1、自动驾驶是指利用传感器、计算机视觉、人工智能和控制系统等技术,使车辆能够在没有人类驾驶员的情况下,自主感知环境、做出决策并完成驾驶任务的过程。会车场景作为常见的自动驾驶场景之一,特别是在狭窄路段、存在违停车辆、逆行超车等特殊情况下,导致自动驾驶决策任务极具挑战性。
2、当前会车场景下主流的自动驾驶方案是基于专家规则设计的自动驾驶算法,在设计专家规则时,可以参考交通规则,制定不同会车场景对应的解决方案,即自动驾驶算法(模型),以便基于自动驾驶算法控制车辆完成会车任务。但是基于专家规则设计自动驾驶算法,需要预先考虑多种会车场景,针对不同的会车场景,人为设计自动驾驶算法,耗费较多的人力和时间。并且在设计中,需要根据自动驾驶算法的结果人为调整算法的参数或者逻辑,影响设计自动驾驶算法的准确性。
技术实现思路
1、有鉴于此,本申请致力于提供一种用于自动驾驶的强化学习模型的训练方法及会车方法,以便
...【技术保护点】
1.一种用于自动驾驶的强化学习模型的训练方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述基于所述奖励函数对所述初始强化学习模型进行训练,得到训练好的目标强化学习模型,包括:
3.根据权利要求1或2所述的方法,其特征在于,所述方法还包括:
4.根据权利要求1所述的方法,其特征在于,所述基于所述预测动作和所述其他车辆的执行动作,确定动作奖励,包括:
5.根据权利要求1所述的方法,其特征在于,所述基于所述会车过程中的多个所述动作奖励,确定奖励函数,包括:
6.根据权利要求5所述的方法
...【技术特征摘要】
1.一种用于自动驾驶的强化学习模型的训练方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述基于所述奖励函数对所述初始强化学习模型进行训练,得到训练好的目标强化学习模型,包括:
3.根据权利要求1或2所述的方法,其特征在于,所述方法还包括:
4.根据权利要求1所述的方法,其特征在于,所述基于所述预测动作和所述其他车辆的执行动作,确定动作奖励,包括:
5.根据权利要求1所述的方法,其特征在于,所述基于所述会车过程中的多个所述动作奖励,确...
【专利技术属性】
技术研发人员:余舒,崔卫卫,胡旭妍,张峥,林志华,杨波,邓博,
申请(专利权)人:上海智华智联科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。