【技术实现步骤摘要】
模型训练方法、车辆控制方法、装置、电子设备及车辆
[0001]本申请涉及计算机
,尤其涉及一种模型训练方法、车辆控制方法、装置、电子设备及车辆。
技术介绍
[0002]智能驾驶车辆在进行决策规划时,基于道路拓扑信息和交通参与者信息对交通参与者未来可能的轨迹做出合理的决策行为。目前,在车辆汇入场景或车辆汇出场景下,通常也直接采用通用场景下的控制策略决策规划车辆的驾驶行为,而通用场景下的控制策略无法较好地适应车辆汇入场景或车辆汇出场景下复杂多变的交通环境,导致车辆控制效果较差。
技术实现思路
[0003]本申请提供了一种模型训练方法、车辆控制方法、装置、电子设备及车辆。
[0004]根据本申请的第一方面,提供了一种模型训练方法,所述方法包括:确定车辆汇入场景或车辆汇出场景下的第一车辆,以及所述第一车辆周围位于指定车道的目标障碍物,其中,所述指定车道包括第一车辆所在的第一车道,以及与所述第一车道存在交汇处的第二车道;根据所述第一车辆的行驶数据和所述目标障碍物的行驶数据确定所述第一车辆的第一状态信息;将 ...
【技术保护点】
【技术特征摘要】
1.一种模型训练方法,其特征在于,所述方法包括:确定车辆汇入场景或车辆汇出场景下的第一车辆,以及所述第一车辆周围位于指定车道的目标障碍物,其中,所述指定车道包括第一车辆所在的第一车道,以及与所述第一车道存在交汇处的第二车道;根据所述第一车辆的行驶数据和所述目标障碍物的行驶数据确定所述第一车辆的第一状态信息;将所述第一状态信息输入待训练的强化学习模型,得到所述强化学习模型输出的运动决策;根据以所述运动决策对所述第一车辆进行控制后所述第一车辆的第二状态信息,预测所述运动决策对应的评价奖励值,并以所述评价奖励值最大为目标训练所述强化学习模型,训练后的强化学习模型用于输出自动驾驶设备的控制策略。2.根据权利要求1所述的方法,其特征在于,预测所述运动决策对应的评价奖励值,包括:通过预先根据奖励函数训练后的所述强化学习模型预测所述运动决策对应的评价奖励值;其中,预先根据奖励函数训练所述强化学习模型,包括:基于预设的奖励函数确定期望奖励值,其中,所述奖励函数包括第一奖励项,所述第一奖励项与所述第一车辆和位于第二车道上的目标障碍物之间的碰撞风险负相关;以所述强化学习模型预测出的评价奖励值与所述期望奖励值之间的差异最小为目标,训练所述强化学习模型。3.根据权利要求2所述的方法,其特征在于,在第一距离及第二距离均大于预设阈值的情况下,所述第一奖励项与距离差值正相关,其中,所述距离差值为第一距离和第二距离之间的差值,所述第一距离为以所述运动决策对所述第一车辆进行控制后所述第一车辆与所述交汇处之间的距离,所述第二距离为以所述运动决策对所述第一车辆进行控制后位于第二车道上的目标障碍物与所述交汇处之间的距离;在所述第一距离小于所述预设阈值,或所述第二距离小于所述预设阈值的情况下,所述第一奖励项取第一预设值。4.根据权利要求2或3所述的方法,其特征在于,所述奖励函数还包括第二奖励项、第三奖励项及第四奖励项中的至少一项;其中,所述第二奖励项基于以所述运动决策对所述第一车辆进行控制后所述第一车辆是否发生碰撞确定;所述第三奖励项基于以所述运动决策对所述第一车辆进行控制后所述第一车辆的车速与所述第一车道的最大限速的差值确定;所述第四奖励项基于以所述运动决策对所述第一车辆进行控制后所述第一车辆的加速度确定。5.一种车辆控制方法,其特征在于,所述方法包括:确定车辆汇入场景或车辆汇出场景下的第二车辆,以及所述第二车辆周围位于指定车道的目标障碍物,其中,所述指定车道包括第二车辆所在的第三车道,以及与所述第三车道存在交汇处的第四车道;
根据所述第二车辆的行驶数据和所述目标障碍物的行驶数据确定所述第二车辆的第三状态信息;将所述第三状态信息输入预先训练的强化学习模型,得到所述强化学习模型输出的运动决策,其中,所述预先...
【专利技术属性】
技术研发人员:熊方舟,请求不公布姓名,请求不公布姓名,请求不公布姓名,
申请(专利权)人:北京集度科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。