【技术实现步骤摘要】
基于深度强化学习的干线动态协调训练方法及干线动态协调控制方法
[0001]本专利技术属于干线交通控制
,具体涉及基于深度强化学习的干线动态协调训练方法及干线动态协调控制方法。
技术介绍
[0002]伴随着城市人口的激增以及城镇化的不断发展,交通拥堵问题成为城市发展中一项亟待解决的问题。根据国内外大量学者的研究,对交通信号控制技术进行优化以提高城市交通的管理水平,是解决拥堵问题的一项重要方法。城市干线是城市交通的动脉,实现干线上交通信号的协调控制对缓解城市拥堵有重要意义。
[0003]作为机器学习领域一个研究热点,强化学习已广泛应用于众多工程领域,因此利用深度强化学习解决交通问题的一个重要方向。利用深度强化学习技术进行交通信号控制,使用实时的交通数据训练深度强化学习模型,并最终能够依据实时的交通信息实现对干线的协调控制,有利于改善交通状况,提高整个区域的通行效率。
[0004]专利号为CN114330126A的中国专利公开了一种交通信号控制模型训练方法及交通信号控制方法,该训练方法包括:从预设仿真环境中获取目标交叉路口的当前交通状态数据,将当前交通状态数据输入初始交通信号控制模型,获得相位动作价值空间;利用该预设智能体选取预执行相位动作,基于奖励值生成预执行相位动作对应的经验样本;针对每个预设智能体,利用该预设智能体按照所对应的探索率,从共享经验池中确定对应的目标经验样本;利用确定出的多个目标经验样本对初始交通信号控制模型进行训练,以获得训练好的目标交通信号控制模型。上述专利技术专利通过,在训练过 ...
【技术保护点】
【技术特征摘要】
1.一种基于深度强化学习的干线动态协调训练方法,其特征在于,包括:从预设仿真环境中获取目标交叉路口及其相邻交叉路口的当前交通状态数据,将所述当前交通状态数据输入DoubleDQN模型的估计网络获得相位动作价值空间,所述相位动作价值空间包括多个候选相位动作和对应的多个相位动作价值,将最大相位动作价值对应的候选相位动作输入DoubleDQN模型的目标网络得到比较相位价值,将基于比较相位价值结合目标奖励函数构建的相位价值作为所述相位动作价值空间对应的目标相位价值;利用预设智能体从多个候选相位动作中选取预执行相位动作,并基于目标奖励函数确定预执行相位动作的共享奖励值,基于共享奖励值生成预执行相位动作对应的经验样本;所述目标奖励函数由当前采样时间步和当前采样时间步之前的多个采样时间步的车流量变化量构建,目标交叉路口及其相邻交叉路口的预设智能体共用一个目标奖励函数;将生成的经验样本存入共享经验池中;利用所述预设智能体按照所对应的探索率,从所述共享经验池中确定多个目标经验样本;利用确定出的多个目标经验样本对所述DoubleDQN模型的估计网络进行训练,以获得目标干线动态协调模型。2.根据权利要求1所述的基于深度强化学习的干线动态协调训练方法,其特征在于,基于目标奖励函数确定预执行相位动作共享奖励值的步骤包括:根据当前交通状态数据,确定所述目标交叉口及其相邻交叉口每个行车道对应的当前采样时间步的车流量;根据当前采样时间步的前一个采样时间步至前n个采样时间步的交通状态数据,分别确定所述目标交叉口及其相邻交叉口的每个行车道对应的前一个采样时间步至前n个采样时间步的车流量;根据当前采样时间步的车流量和前一个采样时间步至前n个采样时间步的车流量,利用目标奖励函数来确定预执行相位动作的奖励值。3.根据权利要求2所述的基于深度强化学习的干线动态协调训练方法,其特征在于,所述目标奖励函数为:R=R(t)+γR(t
‑
1)+...+γ
n
‑1R(t
‑
n+1)R(t)=C(t)
‑
C(t
‑
1)其中,γ为折扣因子,n为多步机制中需要取的步数,C(t)为当前采样时间步的车辆数,R(t)表示当前采样时间步的交通状态与前一个采样时间步的交通状态的车流量的变化量,t为当前采样时间步,t
‑
1为前一个采样时间步,对当前采样时间车辆数变化量到前n个采样时间车辆数变化量分别分配折扣因子后相加,将加和结果作为预执行相位动作的共享奖励值。4.根据权利要求1所述的基于深度强化学习的干线动态协调训练方法,其特征在于,所述预设仿真环境由所述目标交叉路口及其相邻交叉路口在各通行方向上的行车道的数量、每个行车道的车流量、在目标交叉路口及其相邻交叉路口处设置的各信号灯的相位组成;所述当前交通状态数据包括所述目标交叉路口及其相邻交叉路口的当前车辆信息,以及在所述目标交叉路口及其相邻交叉路口设置的各信号灯的当前相位信息,所述当前车辆信息包括在各通行方向的行车道上...
【专利技术属性】
技术研发人员:叶宝林,刘智敏,朱耀东,王翔,陈滨,路义霞,
申请(专利权)人:浙江嘉兴数字城市实验室有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。