针对多车强化学习的决策方法、装置、存储介质及设备制造方法及图纸

技术编号:44944662 阅读:30 留言:0更新日期:2025-04-12 01:19
本申请公开一种针对多车强化学习的决策方法、装置、存储介质及设备,包括:为基于多车强化学习模型控制的每个车辆分配优先级指数;按照优先级指数从高到低的顺序遍历每个车辆;针对遍历的当前车辆,获取多车强化学习模型输出的第i时间步内的探索性动作,判断当前车辆与其他车辆在第i时间步内是否存在碰撞风险;若不存在,则将第i时间步内的探索性动作作为当前车辆在第i时间步内的实际动作;否则基于当前车辆在第i时间步处的安全裕度,从有效动作集合中筛选出当前车辆在第i时间步内的实际动作;将i+1后获得新的i,并返回执行获取第i时间步内探索性动作的步骤,直至确定当前车辆在预设时间范围内每个时间步的实际动作后,继续遍历下一车辆。

【技术实现步骤摘要】

本申请涉及智能驾驶,具体而言,涉及一种针对多车强化学习的决策方法、装置、存储介质及设备


技术介绍

1、随着人工智能的迅速发展,在自动驾驶领域,强化学习算法逐渐成为优化车辆决策的重要工具。这些算法通过对大量环境数据的学习和反馈,使车辆能够在复杂和动态的交通场景中进行自主决策。尤其在多车协同驾驶中,车辆间的交互与协调至关重要,多车强化学习提供了一种自适应的解决方案,使得多个车辆能够实时调整策略以应对突发情况。

2、而在复杂的的交通场景中,车辆流动具有高度动态性,车辆速度差异大,且驾驶者行为不可预测,增加了碰撞的风险。因此,现有的强化学习算法在此类场景中可能导致决策不稳定,难以兼顾多车的安全需求。强化学习算法的“黑箱”特性使得其决策过程缺乏可解释性,这在多车环境中尤为突出,当前的研究多集中于如何最大化整体系统的收益,忽视了单车安全性的考虑。例如,一些基于q-learning的算法侧重于协作或竞争场景的均衡决策,常常在动态和复杂的交通情况下产生不可预测的行为,未能有效应对多车辆互动中的潜在碰撞风险。

3、因此,如何提高基于多车强化学习决策本文档来自技高网...

【技术保护点】

1.一种针对多车强化学习的决策方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,按照预设优先级分配规则,为基于多车强化学习模型控制的每个自动驾驶车辆分配优先级指数,包括:

3.根据权利要求1所述的方法,其特征在于,基于所述当前自动驾驶车辆在所述第i时间步处的安全裕度,从有效动作集合中筛选出最佳动作,作为所述当前自动驾驶车辆在所述第i时间步内的实际动作,包括:

4.根据权利要求1所述的方法,其特征在于,所述方法还包括:

5.根据权利要求1-4中任一项所述的方法,其特征在于,在根据基于所述第i时间步内的探索性动作预测的...

【技术特征摘要】

1.一种针对多车强化学习的决策方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,按照预设优先级分配规则,为基于多车强化学习模型控制的每个自动驾驶车辆分配优先级指数,包括:

3.根据权利要求1所述的方法,其特征在于,基于所述当前自动驾驶车辆在所述第i时间步处的安全裕度,从有效动作集合中筛选出最佳动作,作为所述当前自动驾驶车辆在所述第i时间步内的实际动作,包括:

4.根据权利要求1所述的方法,其特征在于,所述方法还包括:

5.根据权利要求1-4中任一项所述的方法,其特征在于,在根据基于所述第i时间步内的探索性动作预测的轨迹和基于其他自动驾...

【专利技术属性】
技术研发人员:焦岩孔德聪肖秧周明珂方达龙
申请(专利权)人:西部科学城智能网联汽车创新中心重庆有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1