System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及交通,尤其涉及的是一种单交叉口信号灯控制方法、装置、终端及存储介质。
技术介绍
1、近年来,随着大数据、深度学习、深度强化学习等领域的不断发展,交通信号控制策略和城市智能交通也成为了发展的热点。其中,深度强化学习在特征选择与决策制定上具有绝对的优势。深度强化学习被广泛应用于各个行业,如机器人技术、医疗保健、智能电网、城市交通和无人驾驶车辆。
2、基于深度强化学习算法的信号控制优化,从环境获取实时交通信息,能实现交叉口车辆运行状态的动态监测与预测,提升信号控制优化的优化效果。但目前基于深度强化学习算法的交叉口信号控制研究中,多集中在相位顺序优化或者绿灯时长优化其中之一,优化方案缺乏全面性,无法对交叉口信号控制方案的相位顺序、绿灯时长进行整体动态优化,因此,在对交通信号灯进行控制时,优化结果并不准确,导致道路通行效率较低。
3、因此,现有技术存在缺陷,有待改进与发展。
技术实现思路
1、本申请提供了一种单交叉口信号灯控制方法、装置、终端及存储介质,以解决相关技术中在对交通信号灯进行控制时,优化结果并不准确,导致道路通行效率低的技术问题。
2、为实现上述目的,本申请采用了以下技术方案:
3、本申请第一方面实施例提供一种单交叉口信号灯控制方法,其特征在于,包括:
4、获取当前时刻相邻路口的交通信息以及目标路口当前相位,得到当前交通状态;
5、将所述当前交通状态输入预先训练的神经网络模型中,得到信号相位及信
6、根据所述信号相位及信号相位的绿灯持续时间对下一时刻目标路口的交通信号灯进行控制。
7、可选地,所述神经网络模型的训练步骤包括:
8、在预先搭建的仿真平台中构建道路交叉口仿真场景;
9、以参数化深度q网络为算法框架,构建初始神经网络模型,所述初始神经网络模型包括:主网络和目标网络,所述主网络和目标网络均包括:第一actor网络和第二actor网络,所述第一actor网络用于选择相位的绿灯持续时间,所述第二actor网络用于选择相位,所述目标网络用于预测目标值并更新主网络;
10、基于所述道路交叉口仿真场景对所述初始神经网络模型进行训练,得到已训练的神经网络模型。
11、可选地,基于所述道路交叉口仿真场景对所述初始神经网络模型进行训练,得到已训练的神经网络模型,包括:
12、基于所述道路交叉口仿真场景,利用所述主网络的第一actor网络和第二actor网络获取训练数据集;
13、利用所述训练数据集对所述初始神经网络模型进行训练,得到已训练的神经网络模型。
14、可选地,基于所述道路交叉口仿真场景,利用所述主网络的第一actor网络和第二actor网络获取训练数据集,包括:
15、确定所述道路交叉口仿真场景中的目标交叉路口和相邻交叉路口,在所述道路交叉口仿真场景中获取当前时刻的交通状态,所述交通状态包括:相邻交叉路口的交通信息以及目标交叉路口当前相位状态;
16、将当前时刻的交通状态输入所述主网络的第一actor网络中,得到动作参数,所述动作参数用于反映绿灯持续时间;
17、将所述动作参数和当前时刻的交通状态输入所述主网络的第二actor网络中,得到目标相位,根据动作参数和目标相位形成混合动作;
18、执行所述混合动作,转换相位至目标相位,执行绿灯持续时间;
19、检测当前时段内目标交叉路口每个车道车辆的平均等待时间和平均排队长度,根据所述平均等待时间和平均排队长度得到奖励值;
20、检测相邻交叉路口中与目标交叉路口相通的所有进口车道对应的车辆吞吐量,根据所述车辆吞吐量得到下一时刻的交通状态;
21、将当前时刻的交通状态、混合动作、奖励值以及下一时刻的交通状态作为一个样本数据;
22、获取多个样本数据,多个样本数据形成训练数据集。
23、可选地,将所述动作参数和当前时刻的交通状态输入所述主网络的第二actor网络中,得到目标相位,根据动作参数和目标相位形成混合动作,包括:
24、将所述动作参数和当前时刻的交通状态输入所述主网络的第二actor网络中;
25、采用随机系数贪婪探索策略进行动作选择,得到目标相位,根据动作参数和目标相位形成混合动作。
26、可选地,获取多个样本数据,多个样本数据形成训练数据集,包括:
27、将所述样本数据存储至经验池中;
28、当经验池中的样本数据达到预设容量值时,从所述经验池中随机获取预设数量的样本数据,形成训练数据集。
29、可选地,利用所述训练数据集对所述初始神经网络模型进行训练,得到已训练的神经网络模型,包括:
30、将训练数据集中的各个样本数据分别输入到所述目标网络中,得到各个样本数据的目标值;
31、根据各个样本数据的目标值计算每个样本数据的损失函数;
32、基于各个样本数据的损失函数,利用adam随机梯度优化算法更新学习率,修正网络参数;
33、完成训练后,得到已训练的神经网络模型。
34、本申请第二方面实施例提供一种单交叉口信号灯控制装置,包括:
35、获取模块,用于获取当前时刻相邻路口的交通信息以及目标路口当前相位,得到当前交通状态;
36、输入模块,用于将所述当前交通状态输入预先训练的神经网络模型中,得到信号相位及信号相位的绿灯持续时间;
37、控制模块,用于根据所述信号相位及信号相位的绿灯持续时间对目标路口的交通信号灯进行控制。
38、本申请第三方面实施例提供一种终端,所述终端包括存储器、处理器及存储在所述存储器中并可在所述处理器上运行的单交叉口信号灯控制程序,所述处理器执行所述单交叉口信号灯控制程序时,实现如上所述的单交叉口信号灯控制方法的步骤。
39、本申请第四方面实施例提供一种计算机可读存储介质,所述计算机可读存储介质上存储有单交叉口信号灯控制程序,所述单交叉口信号灯控制程序被处理器执行时,实现如上所述的单交叉口信号灯控制方法的步骤。
40、本专利技术的有益效果:本专利技术实施例通过获取当前时刻相邻路口的交通信息以及目标路口当前相位,得到当前交通状态;将所述当前交通状态输入预先训练的神经网络模型中,得到信号相位及信号相位的绿灯持续时间;根据所述信号相位及信号相位的绿灯持续时间对下一时刻目标路口的交通信号灯进行控制,实现了对交叉口信号控制的相位顺序、绿灯持续时间进行整体动态优化,提高了对交通信号灯控制的准确性,进而提高了道路通行效率。
本文档来自技高网...【技术保护点】
1.一种单交叉口信号灯控制方法,其特征在于,包括:
2.根据权利要求1所述的单交叉口信号灯控制方法,其特征在于,所述神经网络模型的训练步骤包括:
3.根据权利要求2所述的单交叉口信号灯控制方法,其特征在于,基于所述道路交叉口仿真场景对所述初始神经网络模型进行训练,得到已训练的神经网络模型,包括:
4.根据权利要求3所述的单交叉口信号灯控制方法,其特征在于,基于所述道路交叉口仿真场景,利用所述主网络的第一Actor网络和第二Actor网络获取训练数据集,包括:
5.根据权利要求4所述的单交叉口信号灯控制方法,其特征在于,将所述动作参数和当前时刻的交通状态输入所述主网络的第二Actor网络中,得到目标相位,根据动作参数和目标相位形成混合动作,包括:
6.根据权利要求4所述的单交叉口信号灯控制方法,其特征在于,获取多个样本数据,多个样本数据形成训练数据集,包括:
7.根据权利要求3所述的单交叉口信号灯控制方法,其特征在于,利用所述训练数据集对所述初始神经网络模型进行训练,得到已训练的神经网络模型,包括:
9.一种终端,其特征在于,所述终端包括存储器、处理器及存储在所述存储器中并可在所述处理器上运行的单交叉口信号灯控制程序,所述处理器执行所述单交叉口信号灯控制程序时,实现如权利要求1-7任一项所述的单交叉口信号灯控制方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有单交叉口信号灯控制程序,所述单交叉口信号灯控制程序被处理器执行时,实现如权利要求1-7任一项所述的单交叉口信号灯控制方法的步骤。
...【技术特征摘要】
1.一种单交叉口信号灯控制方法,其特征在于,包括:
2.根据权利要求1所述的单交叉口信号灯控制方法,其特征在于,所述神经网络模型的训练步骤包括:
3.根据权利要求2所述的单交叉口信号灯控制方法,其特征在于,基于所述道路交叉口仿真场景对所述初始神经网络模型进行训练,得到已训练的神经网络模型,包括:
4.根据权利要求3所述的单交叉口信号灯控制方法,其特征在于,基于所述道路交叉口仿真场景,利用所述主网络的第一actor网络和第二actor网络获取训练数据集,包括:
5.根据权利要求4所述的单交叉口信号灯控制方法,其特征在于,将所述动作参数和当前时刻的交通状态输入所述主网络的第二actor网络中,得到目标相位,根据动作参数和目标相位形成混合动作,包括:
6.根据权利要求4所述的单交叉口信号...
【专利技术属性】
技术研发人员:张雄飞,莫惠娟,曾吴涛,钱梦哲,罗钦,
申请(专利权)人:深圳技术大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。