当前位置: 首页 > 专利查询>铜仁学院专利>正文

一种基于深度强化学习算法的单交叉口信号控制方法技术

技术编号:37399197 阅读:22 留言:0更新日期:2023-04-30 09:27
本发明专利技术涉及交通信号控制的技术领域,特别是涉及一种基于深度强化学习算法的单交叉口信号控制方法,其通过采集由车道离散化的单元格中的车辆存在性特征,奖励函数使用的通信能力也由该特征计算得到,提高了交通状态特征和奖励函数的准确性,并且在网络结构中加入噪声网络,提高算法的动作探索能力,从而提高了算法的收敛速度;网络结构主要分为三个部分:主网络、目标网路和经验池。目标网路和经验池。目标网路和经验池。

【技术实现步骤摘要】
一种基于深度强化学习算法的单交叉口信号控制方法


[0001]本专利技术涉及交通信号控制的
,特别是涉及一种基于深度强化学习算法的单交叉口信号控制方法。

技术介绍

[0002]交通信号是在道路交叉口上无法实现交通分离的地方,用来在时间上给交通流分配通行权的交通指挥措施。
[0003]现在的单交叉口信号的控制,大多使用贪婪算法或改进的贪婪算法进行学习过程中的动作探索,而贪婪算法如申请号为201210389864.8的专利技术专利中公开的一种基于贪婪算法的同或/或电路的分解方法。
[0004]实验表明,使用贪婪算法或改进的贪婪算法对不同状态下的不同动作选择探索效率较低,影响了算法的学习效率,并且有的解决单交叉口信号控制问题的技术中所使用的输入信息和奖励多为车道内的队列长度和车辆密度等数据,这些信息在实际应用场景中难以准确获得,导致实用性较差,因此亟需一种基于深度强化学习算法的单交叉口信号控制方法。

技术实现思路

[0005]为解决上述技术问题,本专利技术提供一种通过采集由车道离散化的单元格中的车辆存在性特征,奖励函数使用的通信能力也由该特征计算得到,提高了交通状态特征和奖励函数的准确性,并且在网络结构中加入噪声网络,提高算法的动作探索能力,从而提高了算法的收敛速度的一种基于深度强化学习算法的单交叉口信号控制方法。
[0006]本专利技术的一种基于深度强化学习算法的单交叉口信号控制方法,网络结构主要分为三个部分:主网络、目标网路和经验池;
[0007]S1、通过算法使用主网络进行动作的选择,使用目标网络进行Q值计算,达到避免算法过估计的目的,通过经验池对训练过程中产生的训练样本进行储存;
[0008]S2、将每条道路的驶入车道离散化为单元格,在每个单元格中进行车辆存在性检测,用(0,1)表示单元格内的车辆存在性特征,通过对每个单元格特征的拼接、处理得到一个高维的向量作为环境状态特征,另外为了方便对算法的决策进行奖励或处罚,通过环境内的车辆存在性特征计算得到累计队列长度,定义前一时间步的累计队列长度和当前时间步的累计队列长度之差为通行能力,将通行能力作为算法的奖励函数;
[0009]S3、采用Dueling网络机制,将全连接神经网络提取的抽象特征结果输出到两个分支,即状态价值和动作价值,并使用噪声网络对价值函数进行扰动,以达到动作探索的目的;
[0010]S4、随后将两条分支聚合得到最终的优势函数,即每个动作对应的Q值。
[0011]优选的,所述主网络与目标网络结构相同,由3层神经元数量为128的全连接神经网络进行状态特征的处理和连接。
[0012]优选的,所述S2中两个噪声网络的神经元数量均为64,状态价值的输出为1,动作价值的输出与动作空间大小相同,这里为4。
[0013]优选的,所述S1中的方法为基于深度Q学习算法(DQN)的改进算法,算法流程包括如下步骤:
[0014]S1、把网络参数赋值给目标网络,初始化经验池,初始化交通环境,获得初始交通状态特征;
[0015]S2、将状态特征输入Q网络,计算出每个动作对应的Q值,选择最佳动作;
[0016]S3、执行上一步中的最佳动作,得到新的交通状态和奖励,将状态、动作、奖励和新的状态作为一条经验存入经验池;
[0017]S4、从经验池中采样,计算当前网络的目标值,并使用梯度下降方法更新网络参数;
[0018]S5、如果满足目标网络更新频率,则更新目标网络参数;如果没有达到训练总回合数,则将新的状态更新为当前状态,输入Q网络中继续迭代,否则结束流程。
[0019]优选的,使用噪声网络对价值函数进行扰动,即在Dueling网络输出状态价值和动作价值时,在神经网络的连接权重中加入参数化的噪声,这样算法对动作的扰动能力更大,提高在训练阶段算法对不同策略的探索能力,有效提高算法的学习效率。
[0020]优选的,本文算法使用了优先级经验回放的方法进行样本的重复学习。
[0021]优选的,在经验池中的经验样本更新时,对每一条经验样本进行一次重要性权重的更新,由每个样本的优先值计算它的被采样概率,根据这个概率赋予该样本对应的重要性权重,由于样本的优先值来自它的时间差误差,该方法的本质是使得更有学习价值的经验被采样的概率更大,进而提高算法的学习能力
[0022]与现有技术相比本专利技术的有益效果为:
[0023]1、控制器采集的交通状态特征为由车道离散化的单元格中的车辆存在性特征,奖励函数使用的通信能力也由该特征计算得到,提高了交通状态特征和奖励函数的准确性;
[0024]2、在网络结构中加入噪声网络,相较于贪婪算法和改进的贪婪算法,噪声网络可以在算法的动作选择中提供更大的扰动,提高算法的动作探索能力,从而提高了算法的收敛速度,另外,由于噪声网络是在神经网络连接权重中加入参数化的噪声,因此噪声的大小可以调节,即算法的探索能力可以控制;
[0025]3、在算法训练过程中使用优先经验回放方法,根据经验样本的时间差误差赋予它们重要性权重,采样时根据重要性权重进行采样,即越重要的样本被采样的概率越大,算法学习这些样本的次数越多,相较于使用均匀采样的经验回放方法,该方法提高了经验利用率,进而提高了算法的学习能力。
附图说明
[0026]图1是本专利技术算法的结构示意图;
[0027]图2是本专利技术仿真环境结构示意图;
[0028]图3是本专利技术模型改进前后训练过程中奖励值分布示意图;
[0029]图4是本专利技术改进前和改进后在测试回合的通行能力的示意图;
[0030]图5是本专利技术改进前和改进后在测试回合的累计队列长度的示意图;
[0031]图6是各算法在不同左转率下的车辆平均等待时间的示意图。
具体实施方式
[0032]为了便于理解本专利技术,下面将参照相关附图对本专利技术进行更全面的描述。本专利技术可以以许多不同的形式来实现,并不限于本文所描述的实施例。相反地,提供这些实施例的目的是使对本专利技术的公开内容更加透彻全面。
[0033]实施例
[0034]如图1和图2所示,网络结构主要分为三个部分:主网络、目标网路和经验池,所述主网络与目标网络结构相同,由三层神经元数量为128的全连接神经网络进行状态特征的处理和连接;
[0035]S1、通过算法使用主网络进行动作的选择,使用目标网络进行Q值计算,达到避免算法过估计的目的,通过经验池对训练过程中产生的训练样本进行储存;
[0036]S2、将每条道路的驶入车道离散化为单元格,在每个单元格中进行车辆存在性检测,用(0,1)表示单元格内的车辆存在性特征,通过对每个单元格特征的拼接、处理得到一个高维的向量作为环境状态特征,另外为了方便对算法的决策进行奖励或处罚,通过环境内的车辆存在性特征计算得到累计队列长度,定义前一时间步的累计队列长度和当前时间步的累计队列长度之差为通行能力,将通行能力作为算法的奖励函数;
[0037]S3、采用Du本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于深度强化学习算法的单交叉口信号控制方法,其特征在于,网络结构主要分为三个部分:主网络、目标网路和经验池;S1、通过算法使用主网络进行动作的选择,使用目标网络进行Q值计算,达到避免算法过估计的目的,通过经验池对训练过程中产生的训练样本进行储存;S2、将每条道路的驶入车道离散化为单元格,在每个单元格中进行车辆存在性检测,用(0,1)表示单元格内的车辆存在性特征,通过对每个单元格特征的拼接、处理得到一个高维的向量作为环境状态特征,另外为了方便对算法的决策进行奖励或处罚,通过环境内的车辆存在性特征计算得到累计队列长度,定义前一时间步的累计队列长度和当前时间步的累计队列长度之差为通行能力,将通行能力作为算法的奖励函数;S3、采用Dueling网络机制,将全连接神经网络提取的抽象特征结果输出到两个分支,即状态价值和动作价值,并使用噪声网络对价值函数进行扰动,以达到动作探索的目的;S4、随后将两条分支聚合得到最终的优势函数,即每个动作对应的Q值。2.如权利要求1所述的一种基于深度强化学习算法的单交叉口信号控制方法,其特征在于,所述主网络与目标网络结构相同,由3层神经元数量为128的全连接神经网络进行状态特征的处理和连接。3.如权利要求1所述的一种基于深度强化学习算法的单交叉口信号控制方法,其特征在于,所述S3中两个噪声网络的神经元数量均为...

【专利技术属性】
技术研发人员:黄贻望吴谦
申请(专利权)人:铜仁学院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1