一种基于强化学习网络训练的自动泊车方法技术

技术编号：20623836 阅读：22 留言：0更新日期：2019-03-20 15:00

本发明专利技术涉及一种基于强化学习网络训练的自动泊车方法，该方法包括步骤：1)对车辆判断是否进行实车训练，若是，则执行步骤2)后进入步骤6)，否则执行步骤3)后进入步骤4)～6)；2)针对自动泊车工况建立强化学习网络模型，并对强化学习网络进行训练，获取与车辆控制对应的驾驶策略模型；3)针对自动泊车工况建立强化学习网络模型，并对强化学习网络进行仿真训练，获取与车辆控制对应的驾驶策略模型；4)采用迁移学习将获取的驾驶策略模型应用于实车；5)完善驾驶策略模型，输出车辆的控制指令；6)根据驾驶策略模型输出的车辆的控制指令对车辆进行泊车控制。与现有技术相比，本发明专利技术具有加速收敛、具有较好的鲁棒性等优点。

An Automatic Parking Method Based on Intensive Learning Network Training

The invention relates to an automatic parking method based on reinforcement learning network training, which includes steps: 1) judging whether the vehicle is trained or not, if so, executing step 2) and then proceeding to step 6, otherwise executing step 3) and then proceeding to step 4-6; 2) establishing an reinforcement learning network model for automatic parking conditions, and training the reinforcement learning network to acquire and acquire vehicles. Control the corresponding driving strategy model; (3) Establish the reinforcement learning network model for automatic parking conditions, and conduct simulation training for the reinforcement learning network to obtain the corresponding driving strategy model with vehicle control; (4) Use transfer learning to apply the acquired driving strategy model to the real vehicle; (5) Perfect the driving strategy model and output the vehicle control instructions; (6) Transfer according to the driving strategy model. The control instructions of the vehicle are given to control the parking of the vehicle. Compared with the prior art, the invention has the advantages of accelerating convergence and better robustness.

全部详细技术资料下载

【技术实现步骤摘要】
一种基于强化学习网络训练的自动泊车方法
本专利技术涉及智能汽车自动泊车规划
，尤其是涉及一种基于强化学习网络训练的自动泊车方法。
技术介绍
传统采用轨迹规划和轨迹跟踪的自动泊车系统，因为可能存在轨迹跟踪误差、执行器控制误差、以及环境扰动等状况，导致规划的轨迹和实际的轨迹不一致，泊车效果不佳。强化学习是一种端到端的控制算法，强化学习理论上将跟踪和控制环节的误差考虑在了模型的策略之中，从而理论上跟踪和控制误差造成的负面影响。但是强化学习的建模和训练需要一定的经验和技巧，考虑到车载控制器的处理性能，强化学习网络的输入为相对自车的库位角点坐标，输出为方向盘转角、油门、刹车控制指令。现有技术中的强化学习的训练结果不稳定，且训练收敛速度不佳，存在大量试错和陷入局部最优的可能。
技术实现思路
本专利技术的目的就是为了克服上述现有技术存在的缺陷而提供一种训练结果稳定、提高收敛速度的基于强化学习的自动泊车方法。本专利技术的目的可以通过以下技术方案来实现：一种基于强化学习网络训练的自动泊车方法，该方法包括下列步骤：S1：对待泊车的车辆判断是否直接进行实车训练，若是，则执行步骤S2后进入步骤S6，否则，执行步骤S3后依次进入步骤S4、S5、S6。优选地，可根据需要选择是否直接进行实车训练，因实车训练具有一定的危险性，同时耗时较久，若先进行仿真训练再进行实车训练有利于加速训练过程。S2：针对自动泊车工况建立强化学习网络模型，并对强化学习网络进行训练，获取与车辆控制对应的驾驶策略模型，将车辆与库位的相对位姿及车辆的状态信息作为驾驶策略模型的输入，输出车辆的控制指令。S3：针对自动...

【技术保护点】
1.一种基于强化学习网络训练的自动泊车方法，其特征在于，该方法包括下列步骤：1)对待泊车的车辆判断是否直接进行实车训练，若是，则执行步骤2)后进入步骤6)，否则，执行步骤3)后进入步骤4)、5)、6)；2)针对自动泊车工况建立强化学习网络模型，并对强化学习网络进行训练，获取与车辆控制对应的驾驶策略模型，将车辆与库位的相对位姿及车辆的状态信息作为驾驶策略模型的输入，输出车辆的控制指令；3)针对自动泊车工况建立强化学习网络模型，并对强化学习网络进行仿真训练，获取与车辆控制对应的驾驶策略模型；4)采用迁移学习方法，将仿真训练获取的驾驶策略模型应用于实车；5)完善驾驶策略模型，将车辆与库位的相对位姿及车辆的状态信息作为驾驶策略模型的输入，输出车辆的控制指令；6)根据驾驶策略模型输出的车辆的控制指令对车辆进行泊车控制。

【技术特征摘要】
1.一种基于强化学习网络训练的自动泊车方法，其特征在于，该方法包括下列步骤：1)对待泊车的车辆判断是否直接进行实车训练，若是，则执行步骤2)后进入步骤6)，否则，执行步骤3)后进入步骤4)、5)、6)；2)针对自动泊车工况建立强化学习网络模型，并对强化学习网络进行训练，获取与车辆控制对应的驾驶策略模型，将车辆与库位的相对位姿及车辆的状态信息作为驾驶策略模型的输入，输出车辆的控制指令；3)针对自动泊车工况建立强化学习网络模型，并对强化学习网络进行仿真训练，获取与车辆控制对应的驾驶策略模型；4)采用迁移学习方法，将仿真训练获取的驾驶策略模型应用于实车；5)完善驾驶策略模型，将车辆与库位的相对位姿及车辆的状态信息作为驾驶策略模型的输入，输出车辆的控制指令；6)根据驾驶策略模型输出的车辆的控制指令对车辆进行泊车控制。2.根据权利要求1所述的一种基于强化学习网络训练的自动泊车方法，其特征在于，步骤3)具体包括以下步骤：301)通过行为克隆训练行为网络，获取行为网络参数；302)利用获取的行为网络参数对深度强化学习网络的行为网络进行初始化；303)在深度强化学习的训练初期阶段进行经验序列积累，针对车辆相对库位的初始位姿人工设定控制指令，并对人工设定的控制指令叠加噪声；304)在深度强化学习的训练过程中对输入的状态量中叠加符合传感器误差特性的噪声。3.根据权利要求2所述的一种基于强化学习网络训练的自动泊车方法，其特征在于，所述的深度强化学习网络包括AC网络、DDPG网络、DPG网络或PPO网络。4.根据权...

【专利技术属性】
技术研发人员：熊璐，严森炜，张培志，卫烨，许明煜，曾德全，付志强，康戎，
申请(专利权)人：同济大学，
类型：发明
国别省市：上海,31

全部详细技术资料下载我是这个专利的主人