一种基于强化学习和规则确定驾驶策略的方法与设备技术

技术编号：17913219 阅读：27 留言：0更新日期：2018-05-10 18:44

本申请的目的是提供一种基于强化学习和规则融合确定驾驶策略的方法或设备；基于车辆的驾驶参数信息，通过强化学习算法确定所述车辆的第一驾驶策略信息；基于所述驾驶参数信息及所述车辆的驾驶规则信息，对所述第一驾驶策略信息进行合理性检测；基于所述合理性检测的检测结果，确定所述车辆的目标驾驶策略信息。与现有技术相比，本申请对通过强化学习算法计算确定的第一驾驶策略信息用规则进行约束，使得本申请的驾驶策略的确定方法与现有的采用规则算法实现车辆控制的方法、或采用强化学习算法实现车辆控制的方法相比更加智能，并且提高了最终确定的驾驶策略的合理性和稳定性。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于强化学习和规则确定驾驶策略的方法与设备
本申请涉及自动驾驶领域，尤其涉及一种基于强化学习和规则确定驾驶策略的技术。
技术介绍
在现有的车辆行驶过程中，对于车辆，特别是自动驾驶车辆的车辆控制主要通过以下几种方法实现：基于规则的自动驾驶技术，即采用规则算法实现车辆控制，根据逻辑公式，由状态输入值直接得到输出控制值，此类算法实现简单，不需要训练，且控制算法的输出结果可预测，较稳定，但是该算法不具备智能性，在真实驾驶的复杂场景中，容易被抢夺路权，因此该算法无法有效应对真实驾驶的复杂场景；采用强化学习算法实现车辆控制，能够使得驾驶策略更加智能，但是强化学习模型训练的时间成本较高，无法应用到实际的自动驾驶当中，且算法的输出结果不可预测；而现有的将规则和强化学习融合的算法，只能将规则算法和强化学习算法确定的结果进行线性相加，模型训练的时间成本依然较高，并且需要不断试错，导致无法应用到实际的自动驾驶当中。
技术实现思路
本申请的目的是提供一种基于强化学习和规则确定驾驶策略的方法与设备。根据本申请的一个方面，提供了一种基于强化学习和规则确定驾驶策略的方法，包括：基于车辆的驾驶参数信息，通过强化学习算法确定所述车辆的第一驾驶策略信息；基于所述驾驶参数信息及所述车辆的驾驶规则信息，对所述第一驾驶策略信息进行合理性检测；基于所述合理性检测的检测结果，确定所述车辆的目标驾驶策略信息。根据本申请的另一个方面，提供了一种基于强化学习和规则确定驾驶策略的设备，包括：第一驾驶策略信息确定装置，用于基于车辆的驾驶参数信息，通过强化学习算法确定所述车辆的第一驾驶策略信息；检测装置，用于基于...
一种基于强化学习和规则确定驾驶策略的方法与设备

【技术保护点】
一种基于强化学习和规则确定驾驶策略的方法，其中，所述方法包括：基于车辆的驾驶参数信息，通过强化学习算法确定所述车辆的第一驾驶策略信息；基于所述驾驶参数信息及所述车辆的驾驶规则信息，对所述第一驾驶策略信息进行合理性检测；基于所述合理性检测的检测结果，确定所述车辆的目标驾驶策略信息。

【技术特征摘要】
1.一种基于强化学习和规则确定驾驶策略的方法，其中，所述方法包括：基于车辆的驾驶参数信息，通过强化学习算法确定所述车辆的第一驾驶策略信息；基于所述驾驶参数信息及所述车辆的驾驶规则信息，对所述第一驾驶策略信息进行合理性检测；基于所述合理性检测的检测结果，确定所述车辆的目标驾驶策略信息。2.根据权利要求1所述的方法，其中，所述基于所述驾驶参数信息及所述车辆的驾驶规则信息，对所述第一驾驶策略信息进行合理性检测包括：基于所述驾驶参数信息及所述车辆的驾驶规则信息，确定所述车辆的第二驾驶策略信息；基于所述第二驾驶策略信息对所述第一驾驶策略信息进行合理性检测。3.根据权利要求2所述的方法，其中，所述基于所述合理性检测的检测结果，确定所述车辆的目标驾驶策略信息包括：若所述合理性检测的检测结果包括所述第二驾驶策略信息与所述第一驾驶策略信息的距离大于或等于预定阈值，将所述第二驾驶策略信息确定为所述车辆的目标驾驶策略信息。4.根据权利要求1所述的方法，其中，所述驾驶参数信息包括以下至少任一项：车辆的速度信息；车辆的偏离轨道方向信息；车辆与轨道中心线的距离信息；车辆与轨道边沿的距离信息；障碍物感知信息；交通标志感知信息。5.根据权利要求1所述的方法，其中，所述方法还包括：基于所述目标驾驶策略信息...

【专利技术属性】
技术研发人员：许稼轩，周小成，
申请(专利权)人：驭势科技北京有限公司，
类型：发明
国别省市：北京,11

全部详细技术资料下载我是这个专利的主人