【技术实现步骤摘要】
本专利技术涉及人工智能、自动驾驶技术和仿真,特别是涉及一种基于多智能体强化学习的自动驾驶关键场景生成方法。
技术介绍
1、在自动驾驶技术的研究与发展中,仿真模拟环境的构建与优化已成为一项核心任务,特别是在复杂交通环境的模拟方面。现有技术虽然已经在一定程度上实现了对真实世界的模拟,但在模拟多智能体交互行为、动态环境适应性以及处理关键交通事件等方面仍存在局限性。
2、首先,多智能体强化学习(marl)作为一种先进的机器学习方法,已被广泛应用于解决自动驾驶中的协同决策问题。然而,大多数现有marl方法并未充分考虑智能体的异构性,即不同车辆因其物理特性、行驶目标及行为规则的不同而在环境中扮演着不同的角色。在真实的交通环境中,异构智能体的交互十分复杂且频繁,要求模型能够理解和预测不同类型车辆的决策行为。
3、其次,模拟环境中智能体策略网络的设计对模拟效果至关重要。由于交通环境具有明显的时序性和动态性,简单的前馈神经网络无法有效捕获并利用历史信息。另外,随着注意力机制(attention mechanism)在深度学习领域的
...【技术保护点】
1.一种基于多智能体强化学习的自动驾驶关键场景生成方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的生产方法,其特征在于,所述步骤1中,具体包括以下步骤:
3.根据权利要求2所述的生产方法,其特征在于,所述步骤1.5中,对于目标车智能体,基于行驶距离、速度控制以及与其他车辆的安全距离,并惩罚碰撞或偏离道路的行为,定义其奖惩函数,最终目标是从道路起点出发,在不与其他车辆或道路边界发生碰撞的前提下行驶至道路终点。
4.根据权利要求2所述的生产方法,其特征在于,所述步骤1.5中,对于其他车智能体,基于最大化与目标车智能体的接近程度
...【技术特征摘要】
1.一种基于多智能体强化学习的自动驾驶关键场景生成方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的生产方法,其特征在于,所述步骤1中,具体包括以下步骤:
3.根据权利要求2所述的生产方法,其特征在于,所述步骤1.5中,对于目标车智能体,基于行驶距离、速度控制以及与其他车辆的安全距离,并惩罚碰撞或偏离道路的行为,定义其奖惩函数,最终目标是从道路起点出发,在不与其他车辆或道路边界发生碰撞的前提下行驶至道路终点。
4.根据权利要求2所述的生产方法,其特征在于,所述步骤1.5中,对于其他车智能体,基于最大化与目标车智能体的接近程度,并惩罚与目标车智能体的安全距离过近或不合理的驾驶行为,定义其奖惩函数,最终目的是与目标车智能体发生以目标车智能体为责任主体的碰撞;通过目标车和交通车差异化的奖惩函数,可以有效降低重复率,提高车辆智能体系统的性能和效率。
5.根据权利要求2所述的生产方法,其特征在于,所述步骤1.5中,所述奖惩函数分为以下五类:强奖励、弱奖励、强惩罚、弱惩罚和动作差异惩罚;在车辆智能体每次动作选择后,除了强奖励和强惩罚会终止当前轮训练外,其余奖惩都会进行计算,强奖励和强惩罚的数值为1,而弱奖励和弱惩罚的数值为0.01,动作差异惩罚为0.2,其中,强奖励表示智能体成功完成最终目标,而强惩罚则代表智能体任务失败,弱奖励和弱惩罚则...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。