基于离线强化学习和师生智能体的自动驾驶方法和系统技术方案

技术编号：43281556 阅读：19 留言：0更新日期：2024-11-12 16:05

本申请涉及自动驾驶技术领域，特别涉及一种基于离线强化学习和师生智能体的自动驾驶方法和系统，其中，方法包括：获取训练数据集，其中，训练数据集包括真实交通场景的驾驶数据；构建教师智能体，基于训练数据集，利用离线强化学习训练教师智能体；构建学生智能体，根据训练后的教师智能体的输出和训练数据集，利用模仿学习训练学生智能体；基于训练完成的学生智能体控制车辆进行自动驾驶。由此，解决了现有技术中泛化能力不足、监督学习方法的局限性、强化学习在实际应用中的高风险以及仿真与现实差异等问题。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及自动驾驶，特别涉及一种基于离线强化学习和师生智能体的自动驾驶方法和系统。

技术介绍

1、在自动驾驶领域中，规划与控制作为核心技术，其挑战不容忽视。传统的基于规则的方法虽然稳定，但难以应对所有复杂多变的场景。而基于监督学习的方法，尽管能够模仿专家轨迹解决部分复杂场景下的驾驶问题，但其泛化能力在面对非训练集场景时显得捉襟见肘，难以适应现实世界中不断变化的交通环境。

2、强化学习作为一种具有自我更新能力的技术，理论上能够通过与环境的交互学习，适应复杂多变的交通场景。然而，在真实环境中进行强化学习训练存在着极高的风险。在机器人或自动驾驶汽车进行探索学习的过程中，一旦发生错误，可能导致硬件损坏或威胁到周围物体乃至人类的生命安全。因此，当前强化学习多采取先在仿真环境中进行训练，再逐步部署到真实环境中的策略。然而，由于仿真环境与实际环境之间的数据差异，强化学习在仿真环境中学到的策略在实际部署时往往难以取得令人满意的表现。

3、离线强化学习可以利用人类专家在真实交通环境中的交互数据进行离线训练，由于训练集的数据是预先在真实场景中一次性收集好的，训练过程中不再需要与环境进行交互，因此基于离线强化学习的方法避免了直接在真实环境中在线训练的危险，而且离线强化学习将真实环境采集的数据引入仿真环境中进行训练，没有仿真与真实的鸿沟需要后期处理，可以消除仿真中采集的数据与真实环境的差异。

4、在训练过程中，道路交通环境等信息是重要的决策依据，这类特权信息在仿真环境中可以显式告知智能体，但是在真实环境中智能体无法直

技术实现思路

1、本申请提供一种自动驾驶方法、装置、设备及介质，以解决现有技术中泛化能力不足、监督学习方法的局限性、强化学习在实际应用中的高风险以及仿真与现实差异等问题。

2、本申请实施例提供了一种基于离线强化学习和师生智能体的自动驾驶方法，包括以下步骤：获取驾驶员在真实场景中驾驶车辆的行驶数据，将所述驾驶车辆的行驶数据处理成智能体训练所需的状态集，动作集和奖励集合，并存储为训练轨迹，其中，所述智能体包括教师智能体和学生智能体，其中，所述教师智能体的状态集为所述学生智能体的状态集为所述教师智能体的动作集为al,t，奖励函数为rl,t，其中，l为轨迹数，t为每条轨迹的时间步；构建所述教师智能体，所述教师智能体包括教师策略神经网络，教师价值神经网络和教师估计神经网络，其中，根据所述教师智能体的状态集、所述教师智能体的动作集和所述奖励函数利用离线强化学习对所述教师智能体进行训练，得到所述教师策略神经网络，所述教师价值神经网络和所述教师估计神经网络，其中，教师策略网络输出的车辆控制参数为教师估计神经网络输出的道路特权信息的估计为构建所述学生智能体，所述学生智能体包括学生策略神经网络和学生估计神经网络，其中，根据所述学生智能体的状态集、所述教师策略网络的输出和所述教师估计神经网络的输出利用模仿学习对所述学生智能体进行训练，得到所述学生策略神经网络和所述学生估计神经网络，其中，所述学生策略神经网络输出的车辆控制参数为根据所述学生策略神经网络和所述学生估计神经网络部署到实车上，在实车上获取所述学生智能体的状态集，将所述学生智能体的状态集输入所述学生智能体，利用所述学生策略神经网络的输出对实车进行控制，其中，所述学生智能体的状态集为

3、可选地，所述教师智能体的状态集包括导航命令自车信息bev图像和道路交通环境的特权信息即所述学生智能体的状态集包括导航命令自车信息bev图像和导航命令和自车信息的历史信息即其中，所述教师智能体与所述学生智能体的公共状态集合为

4、所述教师智能体的动作集包括方向盘转向和加速度即其中，左转取正值，右转取负值；加速取正值，减速取负值；

5、所述奖励函数rl,t为：

6、

7、其中，为动作质量权重系数，为动作质量，为舒适性权重系数，为舒适性，wenergy为能量权重系数，为能耗，为终止条件。

8、可选地，所述动作质量为：

9、

10、其中，δp，δv，δθ分别是人类驾驶车辆形成轨迹与凸优化方法规划轨迹的位置差值，速度差值和朝向角差值，为位置差值的回报值，为速度差值的回报值，为朝向角差值的回报值，为位置差值的权重系数，为速度差值的权重系数，为朝向角差值的权重系数；

11、所述舒适性为：

12、

13、其中，是前后时刻方向盘转角变化对应的回报值，是前后时刻加速度变化对应的回报值，为方向盘转角变化对应的权重系数，为加速度变化对应的权重系数；

14、所述能耗为：

15、

16、其中，是t时刻的加速度值，是t-1时刻的加速度值，是t-2时刻的加速度值，δt为对应的时间差；

17、所述终止条件为：

18、

19、可选地，构建所述教师智能体，包括：根据拟合函数构建所述教师智能体的所述教师估计神经网络，其中，所述教师估计神经网络的状态输入是道路交通环境的特权信息，是对特权信息的特征估计；根据拟合函数构建所述教师智能体的所述教师策略神经网络，其中，是教师策略网络输出的车辆控制参数；根据拟合函数构建所述教师智能体的所述教师价值神经网络，其中，为教师策略网络输出的车辆控制参数的评价。

20、可选地，所述教师策略神经网络和所述教师估计神经网络的更新公式为：

21、

22、其中，是教师策略神经网络的参数，是教师估计神经网络的参数，l表示训练的总轨迹数，λ1是比例系数；

23、所述教师价值神经网络的更新公式为：

24、

25、其中，是教师价值神经网络的参数，γ是比例系数，是教师价值神经网络在t+1时刻的输出，为t+1时刻的导航命令，为t+1时刻的自车信息，为t+1时刻的bev图像，是t+1时刻对特权信息的特征估计，是t时刻教师价值神经网络输出的车辆控制参数的评价，为t+1时刻教师策略网络输出的车辆控制参数。

26、可选地，构建所述学生智能体，包括：根据拟合函数构建所述学生智能体的所述学生估计神经网络，其中，所述学生估计神经网络的状态输入是导航命令和自车信息的历史信息，是对特权信息的特征估计；根据拟合函数构建所述学生智能体的所述学生策略神经网络。

27、可选地，所述学生策略神经网络和所述学生估计神经网络的更新公式为：

28、

29、其中，是学生策略神经网络的参数，是学生估计神经网络的参数，λ2是比例系数。

30、本申请实施例还提供了一种基于离线强化学习和师生智能体的自动驾驶系统，包括：数据采集系统，用于获取驾驶员在真实场景中驾驶车辆的行驶数据，将所述驾驶车辆的行驶数据处理成本文档来自技高网...

【技术保护点】

1.一种基于离线强化学习和师生智能体的自动驾驶方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于离线强化学习和师生智能体的自动驾驶方法，其特征在于，所述教师智能体的状态集包括导航命令自车信息BEV图像和道路交通环境的特权信息即所述学生智能体的状态集包括导航命令自车信息BEV图像和导航命令和自车信息的历史信息即其中，所述教师智能体与所述学生智能体的公共状态集合为

3.根据权利要求2所述的基于离线强化学习和师生智能体的自动驾驶方法，其特征在于，所述动作质量为：

4.根据权利要求1所述的基于离线强化学习和师生智能体的自动驾驶方法，其特征在于，构建所述教师智能体，包括：

5.根据权利要求4所述的基于离线强化学习和师生智能体的自动驾驶方法，其特征在于，教师策略神经网络和所述教师估计神经网络的更新公式为：

6.根据权利要求1所述的基于离线强化学习和师生智能体的自动驾驶方法，其特征在于，构建所述学生智能体，包括：

7.根据权利要求6所述的基于离线强化学习和师生智能体的自动驾驶方法，其特征在于，所述学生策略神经网

8.一种基于离线强化学习和师生智能体的自动驾驶系统，其特征在于，包括：

9.一种电子设备，其特征在于，包括：存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，所述处理器执行所述程序，以实现如权利要求1-7任一项所述的基于离线强化学习和师生智能体的自动驾驶方法。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行，以用于实现如权利要求1-7任一项所述的基于离线强化学习和师生智能体的自动驾驶方法。

...

【技术特征摘要】

1.一种基于离线强化学习和师生智能体的自动驾驶方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于离线强化学习和师生智能体的自动驾驶方法，其特征在于，所述教师智能体的状态集包括导航命令自车信息bev图像和道路交通环境的特权信息即所述学生智能体的状态集包括导航命令自车信息bev图像和导航命令和自车信息的历史信息即其中，所述教师智能体与所述学生智能体的公共状态集合为

3.根据权利要求2所述的基于离线强化学习和师生智能体的自动驾驶方法，其特征在于，所述动作质量为：

4.根据权利要求1所述的基于离线强化学习和师生智能体的自动驾驶方法，其特征在于，构建所述教师智能体，包括：

5.根据权利要求4所述的基于离线强化学习和师生智能体的自动驾驶方法，其特征在于，教师策略神经网络和所述教师估计神经网络的更新公式为...

【专利技术属性】
技术研发人员：任亮，黄智超，陈远龙，谷俊丽，
申请(专利权)人：大卓智能科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人