基于强化学习的自动驾驶控制方法、系统、设备及存储介质技术方案

技术编号：40746551 阅读：15 留言：0更新日期：2024-03-25 20:04

本发明专利技术公开了一种基于强化学习的自动驾驶控制方法、系统、设备及存储介质，属于自动驾驶技术领域，目的在于解决现有技术中存在的基于强化学习的自动驾驶尚不能适用于拥塞环境且多场景复杂驾驶任务的技术问题，其包括搭建网络模型、设置奖励函数、接收感知信息，并利用奖励函数以及感知信息进行模型的训练，且在训练时采用创新的强化学习算法，将Q函数与状态价值函数V和策略函数π进行关联，通过计算得到的Q函数可直接得到状态价值函数V、策略函数π，即状态价值函数和策略函数都以状态作为输入，并使用共享参数的神经网络来同时拟合这两个函数，不会有多余的参数量，也不需要再引入额外的策略优化步骤与状态价值函数的优化步骤。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术人属于自动驾驶，涉及一种多场景拥塞环境下的自动驾驶的控制，尤其涉及一种基于强化学习的自动驾驶控制方法、系统、设备及存储介质。

技术介绍

1、在经济持续发展的大背景下，道路上的车辆不断增多，在道路交通快速发展的同时，交通拥堵问题日益严重。根据世卫组织(world health organization)在2018年的报告，全球每年有135万人丧生于交通事故。根据美国国家公路交通安全管理局的统计，94％的交通事故是由人类失误引起的。针对这些问题，能够将人类从驾驶任务中解脱出来的自动驾驶(autonomous vehicle)成为了引人关注的解决方案。广泛部署自动汽车对缓解道路拥堵、减少事故伤亡、降低能源消耗以及通过重新分配驾驶时间增加社会生产力均有很大作用。

2、目前，社会对自动驾驶技术的发展需求与日俱增，伴随着计算机算力增长，深度学习展现出的强大能力推动着人工智能领域快速发展，而人工智能的成果促使自动驾驶从实验室走上了公路，例如tesla的models、google公司的waymo、百度的appolo go等已经经过...

【技术保护点】

1.一种基于强化学习的自动驾驶控制方法，其特征在于，包括如下步骤：

2.如权利要求1所述的一种基于强化学习的自动驾驶控制方法，其特征在于，步骤S1中，搭建的深度神经网络模型为包括输入层、输出层在内的三层结构的神经网络。

3.如权利要求1所述的一种基于强化学习的自动驾驶控制方法，其特征在于，步骤S2中，在设置奖励函数时，奖惩的事件包括偏离中线、碰撞、离开道路、离开路径、靠近前方车辆、靠近横向车辆、超速、过低俗以及环境奖励。

4.如权利要求1所述的一种基于强化学习的自动驾驶控制方法，其特征在于，步骤S3中，感知信息包括自动汽车与道路中线的横向距离Dm、自动...

【技术特征摘要】

1.一种基于强化学习的自动驾驶控制方法，其特征在于，包括如下步骤：

2.如权利要求1所述的一种基于强化学习的自动驾驶控制方法，其特征在于，步骤s1中，搭建的深度神经网络模型为包括输入层、输出层在内的三层结构的神经网络。

3.如权利要求1所述的一种基于强化学习的自动驾驶控制方法，其特征在于，步骤s2中，在设置奖励函数时，奖惩的事件包括偏离中线、碰撞、离开道路、离开路径、靠近前方车辆、靠近横向车辆、超速、过低俗以及环境奖励。

4.如权利要求1所述的一种基于强化学习的自动驾驶控制方法，其特征在于，步骤s3中，感知信息包括自动汽车与道路中线的横向距离dm、自动汽车当前朝向与前方导航路径上的10个路径点方向的角度偏差da、智能体控制自动汽车的当前车速v、智能体控制自动汽车当前的方向盘的旋转角度a、当前路段所有的车道中与自动汽车最近的前方车辆的纵向距离dh、在当前路段所有的车道中与自动汽车最近的前方车辆预计即将相撞或者错车的时间ta、当前路段中与自动汽车接近最快的前方车...

【专利技术属性】
技术研发人员：张海仙，谢敏，张懿，谌祖港，黄梁可汗，
申请(专利权)人：四川大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人