【技术实现步骤摘要】
本申请涉及智能驾驶,具体而言,涉及一种针对多车强化学习的决策方法、装置、存储介质及设备。
技术介绍
1、随着人工智能的迅速发展,在自动驾驶领域,强化学习算法逐渐成为优化车辆决策的重要工具。这些算法通过对大量环境数据的学习和反馈,使车辆能够在复杂和动态的交通场景中进行自主决策。尤其在多车协同驾驶中,车辆间的交互与协调至关重要,多车强化学习提供了一种自适应的解决方案,使得多个车辆能够实时调整策略以应对突发情况。
2、而在复杂的的交通场景中,车辆流动具有高度动态性,车辆速度差异大,且驾驶者行为不可预测,增加了碰撞的风险。因此,现有的强化学习算法在此类场景中可能导致决策不稳定,难以兼顾多车的安全需求。强化学习算法的“黑箱”特性使得其决策过程缺乏可解释性,这在多车环境中尤为突出,当前的研究多集中于如何最大化整体系统的收益,忽视了单车安全性的考虑。例如,一些基于q-learning的算法侧重于协作或竞争场景的均衡决策,常常在动态和复杂的交通情况下产生不可预测的行为,未能有效应对多车辆互动中的潜在碰撞风险。
3、因此,如何提高
...【技术保护点】
1.一种针对多车强化学习的决策方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,按照预设优先级分配规则,为基于多车强化学习模型控制的每个自动驾驶车辆分配优先级指数,包括:
3.根据权利要求1所述的方法,其特征在于,基于所述当前自动驾驶车辆在所述第i时间步处的安全裕度,从有效动作集合中筛选出最佳动作,作为所述当前自动驾驶车辆在所述第i时间步内的实际动作,包括:
4.根据权利要求1所述的方法,其特征在于,所述方法还包括:
5.根据权利要求1-4中任一项所述的方法,其特征在于,在根据基于所述第i时间步
...【技术特征摘要】
1.一种针对多车强化学习的决策方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,按照预设优先级分配规则,为基于多车强化学习模型控制的每个自动驾驶车辆分配优先级指数,包括:
3.根据权利要求1所述的方法,其特征在于,基于所述当前自动驾驶车辆在所述第i时间步处的安全裕度,从有效动作集合中筛选出最佳动作,作为所述当前自动驾驶车辆在所述第i时间步内的实际动作,包括:
4.根据权利要求1所述的方法,其特征在于,所述方法还包括:
5.根据权利要求1-4中任一项所述的方法,其特征在于,在根据基于所述第i时间步内的探索性动作预测的轨迹和基于其他自动驾...
【专利技术属性】
技术研发人员:焦岩,孔德聪,肖秧,周明珂,方达龙,
申请(专利权)人:西部科学城智能网联汽车创新中心重庆有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。