一种基于多任务深度Q网络的Q值迁移的多交叉口信号灯协同控制方法技术

技术编号:22170138 阅读:23 留言:0更新日期:2019-09-21 11:59
一种基于多任务深度Q网络的Q值迁移的多交叉口信号灯协同控制方法,属于人工智能与智能交通的交叉领域。本方法首先将多交叉口建模为一个多Agent系统,在多交叉口上训练一个适合每个交叉口信号灯控制的多任务网络,然后把它在多交叉口上学到的知识用在目标问题上,多任务网络将比单个网络拥有更多的知识,对单个交叉口提取特征的能力更强,最后通过协同算法对目标域中各个交叉口的信号灯进行协同控制。本发明专利技术方法在一定程度上能够平衡各路口的交通流量,提高区域交通中道路的利用率,减少车辆的排队长度,缓解交通拥堵。该方法对交通网络具有较好的可扩展性。

A Cooperative Control Method of Multi-intersection Signal Lamp Based on Q-value Migration of Multi-task Deep Q Network

【技术实现步骤摘要】
一种基于多任务深度Q网络的Q值迁移的多交叉口信号灯协同控制方法
本专利技术属于人工智能与智能交通的交叉领域,涉及一种基于多任务深度Q网络的Q值迁移多交叉口信号灯协同控制方法。
技术介绍
城市交通贯穿于城市公共空间的各个区域,是居民日常出行最主要、最便捷的方式,经过长期发展,城市交通已经形成较为完善的格局,提高了居民的出行效率,给居民生活带来很大便利。但随着经济的发展和城市化进程的加快,城市人口及人均汽车保有量快速增长,交通拥堵问题日趋严重,交通不畅、运输效率低下、环境污染等问题日益严峻,严重影响和谐可持续发展。为缓解交通拥堵问题,可以采取拓宽道路、修建高架桥等扩张道路基础设施的方法,但由于公共空间有限、造价昂贵、污染环境等原因,这类方法的作用有限。现实生活中,各城市的信号灯控制多为定时控制,即根据交叉口的历史交通流数据预先计算出红绿灯配时方案,此后一直按照此方案进行信号灯相位切换,这种控制方法不能根据实时的交通流自适应地调节信号灯相位,易造成交通拥堵。因此,可以通过信号灯的自适应控制来提高已有道路的利用率,减少拥堵。信号灯的自适应控制策略将交通系统视为一个不确定的系统,根据测量到的交通流量、延误时间和队列长度等状态变量的反馈,实现信号灯的动态优化和调整,以应对交通流的随机特性。通过信号灯的自适应控制来优化区域道路网络的交通,减少拥堵,提高通行效率,并减少二氧化碳的排放。因此,对交叉口信号灯的自适应控制研究具有重要的现实意义。20世纪80年代以后,随着机器学习和人工智能技术的发展,科研学者将其中的新方法新理论应用在信号灯的智能控制中,例如模糊逻辑、神经网络、进化算法和动态规划。模糊逻辑信号控制器通常依据专家知识建立一组规则,根据这些规则,基于交叉口的状态输入来选择适当的交通信号灯相位,具有较强的实时性且设计简单实用,然而,规则的制定过分依赖于专家知识,此外,随着交叉口数目增多,相位数目也随之增加时,很难生成一套有效的规则。对非线性系统和难以建模的系统,神经网络具有良好的逼近能力和学习能力,但神经网络模型大多采用监督学习的方式来训练,需要大量成功的学习样本,样本的质量将影响模型的训练效果。进化算法收敛到最优解需要较大的计算量,不适用于交叉口信号灯控制等在线问题。动态规划也被广泛应用于信号灯的自适应控制,但随着问题规模的扩大,动态规划需要有效的机制来解决计算量过大和难以计算操作环境转移概率的问题。强化学习通过感知环境状态和接收环境中的不确定性信息来学习最优策略,通过与环境连续交互,寻找最优策略以使累积折扣奖赏最大化。强化学习最主要的优势是不需要先验知识,能够解决现实应用中信息不完全和环境随机变化的问题,信号灯控制正面临这两个复杂的问题,因此,很多学者采用强化学习对信号灯进行自适应控制。对于多交叉口的信号灯控制,有研究采用集中控制的方式,通过训练一个强化学习Agent来对整个道路网络的信号灯进行控制,在每个时刻,Agent获取整个道路网络的交通状态并对整个路网的信号灯进行决策。但在集中控制模式下,随着交叉口数目的线性增加,状态空间和动作空间大小将会指数增长,导致状态空间和动作空间的维度灾难。对于此问题,研究者提出基于分布式控制的多Agent强化学习系统,将多交叉口信号灯控制问题视为多Agent问题,其中每个Agent采用RL算法控制一个单交叉口的信号灯,Agent通过单个路口的局部环境进行决策的方式易于扩展到多交叉口。多Agent强化学习的优势在于每个Agent只观察单个交叉口的局部环境,并且只需从单交叉口的动作空间中选择一个动作执行,不会造成维度灾难,因此这种控制方式可以扩展到更多的交叉口。然而,传统的强化学习通过人工提取的交叉口特征来表示状态空间,同时为避免状态空间过大,通常都简化状态表示,往往忽略了一些重要信息。强化学习的Agent是基于对周围环境的状态观察做出决策的,如果丢失重要的信息,不能保证Agent能够做出对真实环境最优的决策。例如,采用车辆的平均延迟表示状态,只反映了历史交通数据不能满足实时的交通需求;简化道路网络为单车道的方式,虽避免了状态空间过大,但不符合现实复杂的交通场景。这些解决状态空间过大的方法都没有充分利用交叉口的有效状态信息,导致Agent所做的决策是基于部分信息的。2015年,Mnih提出将深度学习与强化学习联合的深度Q网络(DeepQNetwork,DQN)学习算法后(MnihV,KavukcuogluK,SilverD,etal.Human-levelcontrolthroughdeepreinforcementlearning[J].Nature,2015,518(7540):529-533.),科研学者开始将深度Q网络技术应用于单交叉口和多交叉口的信号灯控制中。深度强化学习主要是通过卷积神经网络(ConvolutionalNeuralNetwork,CNN)、堆叠自编码器(StackedAuto-Encoder,SAE)等深度学习模型对交叉口原始的交通状态信息进行自动特征提取,以避免繁琐的手工特征提取,并能够充分地利用交叉口的原始状态信息,以便Agent能够基于这些信息做出最优的信号灯相位选择。Li等人提出一种深度强化学习的方法来控制单交叉口的信号灯,其中采用每条道路上的车辆排队长度作为交叉口的状态输入神经网络,然后利用SAE来估计各个动作对应的Q值(LiL,YishengL,WangFY.Trafficsignaltimingviadeepreinforcementlearning[J].ACTAAUTOMATICASINICA,2016,3(3):247-254.)。Genders等人提出基于卷积神经网络的深度强化学习算法来对单交叉口的信号灯进行控制,其中采用车辆的位置矩阵、速度矩阵和最近时刻的信号灯相位来表示交叉口的交通状态,用带有经验池回放的Q-learning算法训练Agent。该方法由于动作的估计Q值与目标Q值之间存在潜在的相关性,算法的稳定性较差(GendersW,RazaviS.UsingaDeepReinforcementLearningAgentforTrafficSignalControl[J].//arXivpreprintarXiv:1611.01142,2016.)。Gao等人采用目标网络冻结技术改进了Genders方法中的不稳定问题(GaoJ,ShenY,LiuJ,etal.AdaptiveTrafficSignalControl:DeepReinforcementLearningAlgorithmwithExperienceReplayandTargetNetwork.//arXivpreprintarXiv:1705.02755,2017.)。Jeon等人认为以往大多数强化学习控制信号灯的研究中提出的交通参数不能充分表示实际交通状态的复杂性,文中直接采用交叉口的实时视频图像来表示交通状态(JeonHJ,LeeJandSohnK.Artificialintelligencefortrafficsignalcontrolbasedsolelyonvideoimages.JournalofIntelligentTransport本文档来自技高网...

【技术保护点】
1.一种基于多任务深度Q网络的Q值迁移的多交叉口信号灯协同控制方法,其特征在于,步骤如下:步骤一、获取每个交叉口的状态;步骤二、定义动作空间和奖赏函数;步骤三、训练专家网络将有N个交叉口的路网建模为多Agent系统Agent1,Agent2,…,Agenti,...,AgentN,将每个Agent上的信号灯控制视为一个源任务Si

【技术特征摘要】
1.一种基于多任务深度Q网络的Q值迁移的多交叉口信号灯协同控制方法,其特征在于,步骤如下:步骤一、获取每个交叉口的状态;步骤二、定义动作空间和奖赏函数;步骤三、训练专家网络将有N个交叉口的路网建模为多Agent系统Agent1,Agent2,…,Agenti,...,AgentN,将每个Agent上的信号灯控制视为一个源任务Si*,每个Agent都由一个DQN估计网络组成,针对每个Agent独立地训练估计网络,Agenti训练完成的估计网络即为专家网络Ei,即Ei是第i交叉口的专家网络;每个Agent新增一个与估计网络结构相同参数不同的目标网络,估计网络估计当前状态下各个动作的Q值目标网络估计目标值其中通过在一段时间内冻结目标网络的参数,使DQN算法更稳定;各Agent的损失函数定义为:其中,m为批大小,是状态下所有动作中最优的目标Q值,θi′是第i个Agent的目标网络参数,为相应的估计网络的输出,γ表示学习率,a′表示动作空间中可选的某个动作,θi表示第i个Agent的估计网络的参数;在训练每个估计网络时,在每个时间步t,第i个Agent将对交叉口的状态观察输入估计网络,根据网络输出的值使用ε-贪心策略选择动作并执行,Agent得到来自环境的奖赏rti并进入下一个状态在每个时间步t将对第i个路口的经验存入经验池Mi中,每个Agent对应一个经验池;每个经验池最多能存储max_size条经验,存满后将最早的数据舍弃继续存入最新的经验;经验池的样本需达到min_size条才能开始训练网络,训练时从经验池Mi中随机均匀采样m条经验,采用随机梯度下降算法RMSProp对参数θi进行更新;采用的神经网络均为CNN,CNN网络包含4个隐层,第一个卷积层由16个4×4的滤波器组成,步长为2;第二个卷积层由32个2×2的滤波器组成,步长为1;第三层和第四层是两个全连接层,分别由128和64个神经元组成;四个隐层都采用Relu非线性激活函数,然后将网络的输出值再作为最后的输出层的输入,输出层采用softmax激活函数,其中输出层的神经元个数与对应路口的动作空间大小相等;步骤四、训练多任务网络建立一个多任务的DQN网络MTDQN,其网络结构与专家网络相同;在时间步t,将Agenti控制的交叉口的状态分别输入专家网络Ei和多任务网络中,网络输出的Q值经过公式(3)归一化处理后,采用专家网络策略与多任务网络策略之间的交叉熵对多任务网络的参数进行更新,如式(4)所示;其中,是Q值经过归一化操作得到的一个归一化值,τ是温度参数,s是交叉口的状态,a是动作空间中的一个动作,是第i个Agent的专家网络Ei在状态s下执行动作a的输出Q值,是专家网络Ei的动作空间,a′是其中的某一个动作;其中,是交叉熵损失函数,πMTDQN(a|s;θ)是多任务深度Q网络MTDQN的策略,θ是MTDQN的参数,损失函数中用到的动作a,是依据多任务网络输出的策略进行采样的,即在训练多任务网络的过程中,每次各交叉口的信号灯动作都是根据多任务网络输出的策略进行选择的,而不是根据专家网络,每次更新多任务网络参数时,各专家网...

【专利技术属性】
技术研发人员:葛宏伟宋玉美张强周东清孙克乙
申请(专利权)人:大连理工大学
类型:发明
国别省市:辽宁,21

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1