基于深度强化学习的干线动态协调训练方法及干线动态协调控制方法技术

技术编号:37959623 阅读:12 留言:0更新日期:2023-06-30 09:34
本发明专利技术公开了一种基于深度强化学习的干线动态协调训练方法,包括从预设仿真环境中获取目标交叉路口及其相邻交叉路口的当前交通状态数据,将当前交通状态数据输入DoubleDQN模型获得多个候选相位动作和目标相位价值;利用预设智能体选取预执行相位动作,并基于目标奖励函数确定预执行相位动作的共享奖励值和经验样本;将生成的经验样本存入共享经验池中;从所述共享经验池中确定多个目标经验样本;利用目标经验样本对所述DoubleDQN模型的估计网络进行训练,以获得目标干线动态协调模型。利用该方法能够准确的反应交叉路口的交通变化。本发明专利技术还公开了干线动态协调控制方法。利用该方法实现了干线交通信号的协调控制。利用该方法实现了干线交通信号的协调控制。利用该方法实现了干线交通信号的协调控制。

【技术实现步骤摘要】
基于深度强化学习的干线动态协调训练方法及干线动态协调控制方法


[0001]本专利技术属于干线交通控制
,具体涉及基于深度强化学习的干线动态协调训练方法及干线动态协调控制方法。

技术介绍

[0002]伴随着城市人口的激增以及城镇化的不断发展,交通拥堵问题成为城市发展中一项亟待解决的问题。根据国内外大量学者的研究,对交通信号控制技术进行优化以提高城市交通的管理水平,是解决拥堵问题的一项重要方法。城市干线是城市交通的动脉,实现干线上交通信号的协调控制对缓解城市拥堵有重要意义。
[0003]作为机器学习领域一个研究热点,强化学习已广泛应用于众多工程领域,因此利用深度强化学习解决交通问题的一个重要方向。利用深度强化学习技术进行交通信号控制,使用实时的交通数据训练深度强化学习模型,并最终能够依据实时的交通信息实现对干线的协调控制,有利于改善交通状况,提高整个区域的通行效率。
[0004]专利号为CN114330126A的中国专利公开了一种交通信号控制模型训练方法及交通信号控制方法,该训练方法包括:从预设仿真环境中获取目标交叉路口的当前交通状态数据,将当前交通状态数据输入初始交通信号控制模型,获得相位动作价值空间;利用该预设智能体选取预执行相位动作,基于奖励值生成预执行相位动作对应的经验样本;针对每个预设智能体,利用该预设智能体按照所对应的探索率,从共享经验池中确定对应的目标经验样本;利用确定出的多个目标经验样本对初始交通信号控制模型进行训练,以获得训练好的目标交通信号控制模型。上述专利技术专利通过,在训练过程中使用多个智能体对交通信号控制模型进行训练,减少了训练时间,从而提高了算法执行效率。
[0005]在利用深度强化学习解决干线协调问题的各类方法中仍存在诸多需要改进的地方,如针对上述专利技术专利,对于如何准确的反应路口交通的变化、对预设智能体进行协调控制仍有很大的提升空间,并且所采用的卷积神经网络存在过估计的问题,因此需要对现有的深度强化学习方法的结构做出改进,进一步提高算法的执行效率和准确率,实现干线交通信号的协调控制。

技术实现思路

[0006]本专利技术提供了一种基于深度强化学习的干线动态协调训练方法,利用该方法构建的目标奖励函数能够准确的反应交叉路口的交通变化,通过使用DoubleDQN算法能够有效的解决过估计问题,通过目标交叉路口及其相邻交叉路口的预设智能体共享交通状态数据实现了干线交通信号的协调控制。
[0007]为了实现上述目标,本申请实施例采用的技术方案如下:
[0008]一方面,本申请实施例提出一种基于深度强化学习的干线动态协调训练方法,包括:
[0009]从预设仿真环境中获取目标交叉路口及其相邻交叉路口的当前交通状态数据,将所述当前交通状态数据输入DoubleDQN模型的估计网络获得相位动作价值空间,所述相位动作价值空间包括多个候选相位动作和对应的多个相位动作价值,将最大相位动作价值对应的候选相位动作输入DoubleDQN模型的目标网络得到比较相位价值,将基于比较相位价值和目标奖励函数构建的相位价值作为所述相位动作价值空间对应的目标相位价值;
[0010]利用预设智能体从多个候选相位动作中选取预执行相位动作,并基于目标奖励函数确定预执行相位动作的共享奖励值,基于共享奖励值生成预执行相位动作对应的经验样本;所述目标奖励函数由当前采样时间步和当前采样时间步之前的多个采样时间步的车流量变化量构建,目标交叉路口及其相邻交叉路口的预设智能体共用一个目标奖励函数;
[0011]将生成的经验样本存入共享经验池中;
[0012]利用所述预设智能体按照所对应的探索率,从所述共享经验池中确定多个目标经验样本;
[0013]利用确定出的多个目标经验样本对所述DoubleDQN模型的估计网络进行训练,以获得目标干线动态协调模型。
[0014]可选地,基于目标奖励函数确定预执行相位动作的共享奖励值的步骤包括:
[0015]根据当前交通状态数据,确定所述目标交叉口及其相邻交叉口的每个行车道对应的当前采样时间步的车流量;
[0016]根据当前采样时间步的前一个采样时间步至前n个采样时间步的交通状态数据,分别确定所述目标交叉口及其相邻交叉口的每个行车道对应的前一个采样时间步至前n个采样时间步的车流量;
[0017]根据当前采样时间步的车流量和前一个采样时间步至前n个采样时间步的车流量,利用目标奖励函数来确定预执行相位动作的奖励值。
[0018]可选地,所述目标奖励函数为:
[0019]R=R(t)+γR(t

1)+...+γ
n
‑1R(t

n+1)
[0020]R(t)=C(t)

C(t

1)
[0021]其中,γ为折扣因子,n为多步机制中需要取的步数,C(t)为当前采样时间步的车辆数,R(t)表示当前采样时间步的交通状态与前一个采样时间步的交通状态的车流量的变化量,t为当前采样时间步,t

1为前一个采样时间步,对当前采样时间车辆数变化量到前n个采样时间车辆数变化量分别分配折扣因子后相加,将加和结果作为预执行相位动作的共享奖励值。
[0022]可选地,所述预设仿真环境由所述目标交叉路口及其相邻交叉路口在各通行方向上的行车道的数量、每个行车道的车流量、在目标交叉路口及其相邻交叉路口处设置的各信号灯的相位组成;
[0023]所述当前交通状态数据包括所述目标交叉路口及其相邻交叉路口的当前车辆信息,以及在所述目标交叉路口及其相邻交叉路口设置的各信号灯的当前相位信息,所述当前车辆信息包括在各通行方向的行车道上的当前车辆位置信息和当前车辆速度信息,所述当前相位信息用于指示所述目标交叉路口及其相邻交叉路口的当前放行方向和当前禁止方向。
[0024]可选地,获得相位动作价值空间的步骤包括:
[0025]DoubleDQN算法的估计网络包括第一卷积层、第二卷积层、全连接层;
[0026]将当前车辆信息输入第一卷积层,第一卷积层对当前车辆信息进行第一次降维处理,获取多个二维特征数据,并将多个二维特征数据输入第二卷积层,第二卷积层对多个二维特征数据进行第二次降维处理,获取一维特征数据,将一维特征数据和当前相位信息分别输入全连接层,通过全连接层将一维特征数据与当前相位信息进行全连接,将全连接结果进行第三次降维输出相位动作价值空间。
[0027]可选地,所述经验样本包括当前交通状态数据、预执行相位动作、针对预执行相位动作的共享奖励值和针对当前采样时间步的前一个采样时间步至前n个采样时间步的交通状态数据。
[0028]可选地,利用所述预设智能体从多个候选相位动作中选取预执行相位动作的步骤包括:
[0029]判断共享经验池中的经验样本数量是否达到第一阈值;
[0030]若共享经验池中的经验样本数量达到第一阈值,则根据预设策略参数从多个候选相位动作中确定预执行相位动作本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于深度强化学习的干线动态协调训练方法,其特征在于,包括:从预设仿真环境中获取目标交叉路口及其相邻交叉路口的当前交通状态数据,将所述当前交通状态数据输入DoubleDQN模型的估计网络获得相位动作价值空间,所述相位动作价值空间包括多个候选相位动作和对应的多个相位动作价值,将最大相位动作价值对应的候选相位动作输入DoubleDQN模型的目标网络得到比较相位价值,将基于比较相位价值结合目标奖励函数构建的相位价值作为所述相位动作价值空间对应的目标相位价值;利用预设智能体从多个候选相位动作中选取预执行相位动作,并基于目标奖励函数确定预执行相位动作的共享奖励值,基于共享奖励值生成预执行相位动作对应的经验样本;所述目标奖励函数由当前采样时间步和当前采样时间步之前的多个采样时间步的车流量变化量构建,目标交叉路口及其相邻交叉路口的预设智能体共用一个目标奖励函数;将生成的经验样本存入共享经验池中;利用所述预设智能体按照所对应的探索率,从所述共享经验池中确定多个目标经验样本;利用确定出的多个目标经验样本对所述DoubleDQN模型的估计网络进行训练,以获得目标干线动态协调模型。2.根据权利要求1所述的基于深度强化学习的干线动态协调训练方法,其特征在于,基于目标奖励函数确定预执行相位动作共享奖励值的步骤包括:根据当前交通状态数据,确定所述目标交叉口及其相邻交叉口每个行车道对应的当前采样时间步的车流量;根据当前采样时间步的前一个采样时间步至前n个采样时间步的交通状态数据,分别确定所述目标交叉口及其相邻交叉口的每个行车道对应的前一个采样时间步至前n个采样时间步的车流量;根据当前采样时间步的车流量和前一个采样时间步至前n个采样时间步的车流量,利用目标奖励函数来确定预执行相位动作的奖励值。3.根据权利要求2所述的基于深度强化学习的干线动态协调训练方法,其特征在于,所述目标奖励函数为:R=R(t)+γR(t

1)+...+γ
n
‑1R(t

n+1)R(t)=C(t)

C(t

1)其中,γ为折扣因子,n为多步机制中需要取的步数,C(t)为当前采样时间步的车辆数,R(t)表示当前采样时间步的交通状态与前一个采样时间步的交通状态的车流量的变化量,t为当前采样时间步,t

1为前一个采样时间步,对当前采样时间车辆数变化量到前n个采样时间车辆数变化量分别分配折扣因子后相加,将加和结果作为预执行相位动作的共享奖励值。4.根据权利要求1所述的基于深度强化学习的干线动态协调训练方法,其特征在于,所述预设仿真环境由所述目标交叉路口及其相邻交叉路口在各通行方向上的行车道的数量、每个行车道的车流量、在目标交叉路口及其相邻交叉路口处设置的各信号灯的相位组成;所述当前交通状态数据包括所述目标交叉路口及其相邻交叉路口的当前车辆信息,以及在所述目标交叉路口及其相邻交叉路口设置的各信号灯的当前相位信息,所述当前车辆信息包括在各通行方向的行车道上...

【专利技术属性】
技术研发人员:叶宝林刘智敏朱耀东王翔陈滨路义霞
申请(专利权)人:浙江嘉兴数字城市实验室有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1