System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及车辆编队、自动驾驶和车路协同,尤其涉及一种基于多智能体强化学习的自动驾驶车辆编队与信号灯协同控制方法。
技术介绍
1、目前的研究主要集中在改进交通信号灯的智能控制和优化自动驾驶汽车控制上。
2、交通信号灯的智能控制旨在提高交叉路口的通行能力,从而减少行程时间、能源消耗和尾气排放。通过交通信号控制器根据实时交通情况动态选择最佳的信号方案来实现。与此同时,自动驾驶汽车可以通过优化车辆的速度,在高速行驶中降低燃料消耗和气体排放,并保持适当的车距以提高交通安全。
3、车辆编队是一组车辆按照一定的距离和速度在道路上行驶,通常由一辆或多辆领导车辆控制,并遵守一定的规则和协议。车辆编队的车辆通常可以更加密集地行驶,减少了空气阻力,从而可以降低燃料成本和减少排放,同时提高道路通行能力,减轻交通拥堵问题。
4、目前的研究关键技术之一是利用深度强化学习来改进交通信号灯智能控制和优化自动驾驶汽车速度推荐。深度强化学习是机器学习的一个分支,其特点包括试错搜索和延迟奖励。它通过与环境的互动学习如何采取行动以最大化累积奖励。智能体使用深度神经网络来近似将环境状态映射到要采取的操作的价值函数或策略函数,并根据这些函数不断更新策略以完成任务。此外,多智能体强化学习进一步拓展了强化学习的范围,涉及多个智能体的协同学习和决策,这些智能体可以进行通信、共享信息并相互影响行为,既可以协作也可以竞争。现有的大多数可持续城市交通控制研究要么调整交通灯信号,要么调整车辆速度。与本文最类似的方案有两个:一个是基于强化学习的交通
5、现有技术的一种方案是使用强化学习进行多路口交通信号控制,它可以适应动态的交通状况,并搜索更有效的交通信号计划。它使用深度q学习(dqn)的深度强化学习模型,根据最大压力的理论设计了一个新的奖励函数:最大化道路的吞吐量。它通过收集本地实时交通信息进行训练,训练效果优于其他的基于优化的方法。类似方案还有基于深度强化学习的对自动驾驶汽车的速度控制。
6、车辆编队在减少能耗方面和交叉路口拥堵也有很大的优势。现有技术的另一种方案是通过基于模型预测来对混行车辆编队进行控制。通过一系列传感器获得周围车辆行驶状态信息,与领航汽车的车辆速度和位置的判断来决策是否组成编队。混行车辆编队将能够在同一绿灯周期内通过交叉口。以保障队列稳定性和交叉口行程时间最短为目标。其目标是通过最大压力控制来优化交通路口的流量,以确保交通畅通。所以通过马尔可夫决策过程来建模环境,状态空间。它包括当前相位、每个出口车道上的车辆数量以及每个入口车道的每个路段上的车辆数量。动作空间:指示交通信号应当被设置为相位。奖励:将奖励r定义为r=-pi,其中pi是交叉口i的压力,直观地,压力pi指示进入车道和离开车道上的车辆密度之间的不平衡程度。通过最小化pi,系统内的车辆可以均匀分布。采用深度q网络(dqn)作为函数逼近器来估计q值函数。通过模拟的数据不断的进行策略的迭代最终收敛,获得一个可以进行最优操作的交通信号灯模型。上述方法没有考虑车路协同,将车辆和道路作为分离的实体来管理,这导致了信息孤立和交通效率的下降,难以适应实时交通状况。再有就是没有考虑车辆编队技术在降低燃油消耗,并提高道路容量中发挥重要作用。
7、作为强化学习其主要包括三个关键要素:状态、动作和奖励。状态(state):状态表示了智能体在特定时间点观察到的环境信息,它是一个用于描述环境的向量或特征集合。状态通常是环境的局部或全局描述,它包括了智能体所需要的信息,以便做出决策。在强化学习中,状态可以是离散的(棋盘的坐标)或连续的(如自动驾驶汽车的传感器读数)。动作(action):动作是智能体可以采取的行为或决策,它表示智能体如何影响环境。动作集通常是预先定义的,可以是离散的(前进速度)或连续的(如在自动驾驶中控制车辆的加速度)。奖励(reward):奖励是一个标量值,用于衡量智能体在特定状态下采取特定动作的好坏程度。奖励函数定义了智能体在每个时间步的即时奖励,它是强化学习的反馈信号。智能体的目标是最大化累积奖励,即最大化从环境中获得的长期奖励。
8、下面将介绍强化学习的通用的探索流程:首先,智能体初始化其内部状态和策略(决策规则)。在每个时间步t,智能体观察当前环境状态st。智能体使用其策略(可能是基于价值函数或策略函数的决策规则)来选择一个动作at。智能体执行动作,将其应用于环境,并观察下一个状态st+1以及在该状态下获得的即时奖励rt。智能体使用观察到的状态、动作和奖励数据来更新其策略,以便在未来获得更大的累积奖励。学习方法可以是值迭代或策略迭代,或者是深度强化学习算法(如深度q网络或策略梯度方法)。这个过程一直循环进行,直到满足某个终止条件,如达到最大时间步数或累积奖励足够高。一旦智能体学到了一个良好的策略,它可以在实际环境中使用该策略来做出决策。
9、现有技术还提出了一种滚动时域模型预测控制(mpc)的方法,以尽量减少燃料消耗的排和驱动的排通过路口的绿色相位。具体的步骤就是:联网车辆可以通过v2i从交叉口控制器接收信号相位和定时信息,还可以通过v2v通信从周围车辆接收位置和速度信息。并进行速度推荐,然后将道路上的所有车辆按照一个队列中允许的最大车辆数分成若干组,队列中的领先车辆成为宿主车辆。为每个车队运行mpc算法,优化的控制变量仅应用于下一个时间步长中的宿主车辆,而所有其他车辆的行为由车辆控制器控制。每个时间应用队列拆分和合并规则,并执行差分合并结构。上述方法仍使用传统的交通信号灯控制方法:基于固定的时序模型。缺乏实时的适应性。智能交通灯可以通过感知周围车辆的数据和使用先进的算法,实现更精确的信号控制,以最大程度地减少交通拥堵,从而减少燃油消耗。模型预测控制与drl相比,mpc通常需要更多的先验知识和复杂的建模,以及更频繁的问题重新求解。drl方法具有更强的自适应性和学习能力,可以从数据中学习最佳控制策略,并在实时性方面更具优势。
10、本专利技术使用的缩略语、英文和关键术语定义列表介绍如下:
11、1、自动驾驶汽车(cav),
12、2、深度强化学习(drl),
13、3、车对车通信(v2v),
14、4、车辆对基础设施通信(v2i),
15、5、车路协调通信(v2x),
16、6、近端策略优化(ppo),
17、7、深度q学习(dqn)。
技术实现思路
1、随着汽车数量的不断增加,交通灯控制方法难以实现高效的交通管理和能耗节约,可能会带来巨大金钱损失。为了解决这一问题,第一方面,本专利技术提供一种基于多智能体强化学习的车辆编队与信号灯协同控制方法,通过将车辆编队和交通信号灯视为智能体,以实现更有效的车辆与道路的协同运行。
2、基于设置有v2i通信的交通信号灯以及设置有v2v通信的车辆,其特征在于,包括下述步骤:
3、确定领航车或确定领航车与跟随车组成的车辆编队;<本文档来自技高网...
【技术保护点】
1.一种基于多智能体强化学习的车辆编队与信号灯协同控制方法,基于设置有V2I通信的交通信号灯以及设置有V2V通信的车辆,其特征在于,包括下述步骤:
2.如权利要求1所述的控制方法,其特征在于,所述车辆编队方法为:
3.如权利要求2所述的控制方法,其特征在于,所述评估条件包括:车辆在交叉路口通行方向一致并且距离在40米以内并且车辆编队的长度小于30米并且领航车辆距离路口大于10米。
4.如权利要求1所述的控制方法,其特征在于,所述交通信号灯的状态空间包括:
5.如权利要求1所述的控制方法,其特征在于,
6.如权利要求1所述的控制方法,其特征在于,车辆编队智能体的动作空间是第一辆车的加速度;
7.如权利要求1所述的控制方法,其特征在于,车辆编队智能体奖励函数rc包括速度惩罚rv和加速度惩罚ra,如下式:
8.如任意权利要求1-7所述的控制方法,其特征在于,采用PPO算法来训练车辆编队智能体模型和交通灯智能体,具体步骤如下:
9.一种电子装置,包括存储器和处理器,所述存储器存储有计算机程序,
10.一种交通控制系统,其特征在于,所述系统设置有1个以上的信号灯以及控制装置,所述控制装置应用如任意权利要求1-8所述的控制方法用于控制车辆以及信号灯。
...【技术特征摘要】
1.一种基于多智能体强化学习的车辆编队与信号灯协同控制方法,基于设置有v2i通信的交通信号灯以及设置有v2v通信的车辆,其特征在于,包括下述步骤:
2.如权利要求1所述的控制方法,其特征在于,所述车辆编队方法为:
3.如权利要求2所述的控制方法,其特征在于,所述评估条件包括:车辆在交叉路口通行方向一致并且距离在40米以内并且车辆编队的长度小于30米并且领航车辆距离路口大于10米。
4.如权利要求1所述的控制方法,其特征在于,所述交通信号灯的状态空间包括:
5.如权利要求1所述的控制方法,其特征在于,
6.如权利要求1所述的控制方法,其特征在于,车辆编队智能体...
【专利技术属性】
技术研发人员:唐海川,龚明,付云骁,纪红蕾,孙意凡,
申请(专利权)人:中车工业研究院有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。