一种基于强化学习的车速控制方法、装置、设备和介质制造方法及图纸

技术编号：38467232 阅读：18 留言：0更新日期：2023-08-11 14:44

本发明专利技术公开了一种基于强化学习的车速控制方法、装置、设备和介质。该方法包括：获取目标车辆对应的当前车速信息，其中，当前车速信息包括：当前整车车速和每个车轮对应的当前车轮转速；将当前车速信息输入至预设决策网络模型中进行轮缸压力动作的决策，预设决策网络模型是预先基于目标奖励函数进行强化学习获得的，目标奖励函数是基于车辆中每个车轮对应的车轮滑移率进行构建的；基于预设决策网络模型的输出，获得目标车辆中每个车轮对应的目标轮缸压力；基于目标轮缸压力对当前车速信息进行调整控制。通过本公开实施例的技术方案，可以有效控制车速，从而保持车辆制动或加速时的稳定性，进一步提高车辆行驶的安全性和用户的驾驶体验。驶体验。驶体验。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于强化学习的车速控制方法、装置、设备和介质

[0001]本专利技术涉及计算机
，尤其涉及一种基于强化学习的车速控制方法、装置、设备和介质。

技术介绍

[0002]随着汽车的发展，用户越来越注重车辆行驶的安全性。汽车的制动能力是影响车辆行驶安全性的重要因素之一。滑移率可用于表征车辆的制动能力。滑移率是指在刹车或加速时车轮和路面间所产生的滑移距离与车辆移动距离之间的比值。车辆在抓地性最佳的情况下仍会存在5％
‑
10％的滑移率，例如，车轮转动了100m的距离时车子只移动了90m
‑
95m。
[0003]目前，通常是利用汽车防抱死制动系统(Antilock Brake System,ABS)对车辆制动力进行控制。例如，ABS在汽车制动时防止车轮抱死，从而避免前轮和/或后轮发生侧滑，进而保持制动时的方向稳定性。在车辆进行制动或加速时，ABS会基于车辆出厂时标定的车轮线性特性和该车轮线性特性对应的滑动率控制方式对车速进行控制。然而，车辆在被使用后，每个车轮的磨损程度是不同的，还会存...

【技术保护点】

【技术特征摘要】
1.一种基于强化学习的车速控制方法，其特征在于，包括：获取目标车辆对应的当前车速信息，其中，所述当前车速信息包括：当前整车车速和每个车轮对应的当前车轮转速；将所述当前车速信息输入至预设决策网络模型中进行轮缸压力动作的决策，所述预设决策网络模型是预先基于目标奖励函数进行强化学习获得的，所述目标奖励函数是基于车辆中每个车轮对应的车轮滑移率进行构建的；基于所述预设决策网络模型的输出，获得所述目标车辆中每个车轮对应的目标轮缸压力；基于所述目标轮缸压力对所述当前车速信息进行调整控制。2.根据权利要求1所述的方法，其特征在于，基于车辆中每个车轮对应的车轮滑移率构建目标奖励函数，包括：基于车辆中每个车轮对应的车轮滑移率，确定每个车轮对应的车轮奖励函数；基于各个所述车轮奖励函数，构建目标奖励函数。3.根据权利要求2所述的方法，其特征在于，每个车轮对应的车轮奖励函数是关于车轮滑移率的分段奖励函数。4.根据权利要求3所述的方法，其特征在于，基于车辆中每个车轮对应的车轮滑移率，确定每个车轮对应的车轮奖励函数，包括：若车辆中的当前车轮对应的当前车轮滑动率小于预设最小滑动率，则基于第一权重值对当前车轮滑动率进行加权，获得当前车轮对应的第一分段奖励函数；若当前车轮滑动率大于或等于所述预设最小滑动率，且小于或等于预设最大滑动率，则将当前车轮滑动率作为当前车轮对应的第二分段奖励函数；若当前车轮滑动率大于所述预设最大滑动率，则基于第二权重值对当前车轮滑动率进行加权，获得当前车轮对应的第三分段奖励函数；其中，所述第一权重值小于所述第二权重值。5.根据权利要求2所述的方法，其特征在于，基于各个所述车轮奖励函数，构建目标奖励函数，包括：将各个所述车轮奖励函数进行相加，并将相加结果确定为目标奖励函数。6.根据权利要求1所述的方法，其特征在于，基于所述目标轮缸压力对所述当前车速信息进行调整控制，包括：将每个车轮对应的轮缸压力调整为相应的目标轮缸压力，使得所述目标车辆的当前整...

【专利技术属性】
技术研发人员：汪娟，周俊杰，
申请(专利权)人：南栖仙策南京高新技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人