当前位置: 首页 > 专利查询>天津大学专利>正文

一种基于多智能体强化学习的自动驾驶关键场景生成方法技术

技术编号:42300801 阅读:17 留言:0更新日期:2024-08-14 15:49
本发明专利技术公开了一种基于多智能体强化学习的自动驾驶关键场景生成方法,采用异构多智能体深度确定性策略梯度,能够处理不同智能体具有不同行动空间和观测空间,每个智能体都有自己的策略网络模型和目标网络(多任务价值网络)。提高了仿真驾驶场景中多智能体交互处理、动态环境适应性的能力,可以生成合理可交互的交通场景。针对异构多智能体的差异化奖励函数任务评估,本发明专利技术建立了一种新颖的多任务价值网络架构,通过共享隐藏层特征提取层并配以任务特定的价值函数头部,有效地评估了在不同任务情境下各类智能体(如交通车与目标车)的行为价值。同时本发明专利技术建立了一种策略网络模型,引入了循环神经网络意力机制,通过学习输入与输出之间的非线性关系,该网络结构能够泛化到未曾遇到过的场景,使智能体具备在不同情况下灵活调整行驶策略的能力。

【技术实现步骤摘要】

本专利技术涉及人工智能、自动驾驶技术和仿真,特别是涉及一种基于多智能体强化学习的自动驾驶关键场景生成方法


技术介绍

1、在自动驾驶技术的研究与发展中,仿真模拟环境的构建与优化已成为一项核心任务,特别是在复杂交通环境的模拟方面。现有技术虽然已经在一定程度上实现了对真实世界的模拟,但在模拟多智能体交互行为、动态环境适应性以及处理关键交通事件等方面仍存在局限性。

2、首先,多智能体强化学习(marl)作为一种先进的机器学习方法,已被广泛应用于解决自动驾驶中的协同决策问题。然而,大多数现有marl方法并未充分考虑智能体的异构性,即不同车辆因其物理特性、行驶目标及行为规则的不同而在环境中扮演着不同的角色。在真实的交通环境中,异构智能体的交互十分复杂且频繁,要求模型能够理解和预测不同类型车辆的决策行为。

3、其次,模拟环境中智能体策略网络的设计对模拟效果至关重要。由于交通环境具有明显的时序性和动态性,简单的前馈神经网络无法有效捕获并利用历史信息。另外,随着注意力机制(attention mechanism)在深度学习领域的兴起,其在自动驾驶模本文档来自技高网...

【技术保护点】

1.一种基于多智能体强化学习的自动驾驶关键场景生成方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的生产方法,其特征在于,所述步骤1中,具体包括以下步骤:

3.根据权利要求2所述的生产方法,其特征在于,所述步骤1.5中,对于目标车智能体,基于行驶距离、速度控制以及与其他车辆的安全距离,并惩罚碰撞或偏离道路的行为,定义其奖惩函数,最终目标是从道路起点出发,在不与其他车辆或道路边界发生碰撞的前提下行驶至道路终点。

4.根据权利要求2所述的生产方法,其特征在于,所述步骤1.5中,对于其他车智能体,基于最大化与目标车智能体的接近程度,并惩罚与目标车智能...

【技术特征摘要】

1.一种基于多智能体强化学习的自动驾驶关键场景生成方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的生产方法,其特征在于,所述步骤1中,具体包括以下步骤:

3.根据权利要求2所述的生产方法,其特征在于,所述步骤1.5中,对于目标车智能体,基于行驶距离、速度控制以及与其他车辆的安全距离,并惩罚碰撞或偏离道路的行为,定义其奖惩函数,最终目标是从道路起点出发,在不与其他车辆或道路边界发生碰撞的前提下行驶至道路终点。

4.根据权利要求2所述的生产方法,其特征在于,所述步骤1.5中,对于其他车智能体,基于最大化与目标车智能体的接近程度,并惩罚与目标车智能体的安全距离过近或不合理的驾驶行为,定义其奖惩函数,最终目的是与目标车智能体发生以目标车智能体为责任主体的碰撞;通过目标车和交通车差异化的奖惩函数,可以有效降低重复率,提高车辆智能体系统的性能和效率。

5.根据权利要求2所述的生产方法,其特征在于,所述步骤1.5中,所述奖惩函数分为以下五类:强奖励、弱奖励、强惩罚、弱惩罚和动作差异惩罚;在车辆智能体每次动作选择后,除了强奖励和强惩罚会终止当前轮训练外,其余奖惩都会进行计算,强奖励和强惩罚的数值为1,而弱奖励和弱惩罚的数值为0.01,动作差异惩罚为0.2,其中,强奖励表示智能体成功完成最终目标,而强惩罚则代表智能体任务失败,弱奖励和弱惩罚则...

【专利技术属性】
技术研发人员:宋康金晨曦谢辉
申请(专利权)人:天津大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1