一种基于多任务深度Q网络的Q值迁移的多交叉口信号灯协同控制方法技术

技术编号：22170138 阅读：23 留言：0更新日期：2019-09-21 11:59

一种基于多任务深度Q网络的Q值迁移的多交叉口信号灯协同控制方法，属于人工智能与智能交通的交叉领域。本方法首先将多交叉口建模为一个多Agent系统，在多交叉口上训练一个适合每个交叉口信号灯控制的多任务网络，然后把它在多交叉口上学到的知识用在目标问题上，多任务网络将比单个网络拥有更多的知识，对单个交叉口提取特征的能力更强，最后通过协同算法对目标域中各个交叉口的信号灯进行协同控制。本发明专利技术方法在一定程度上能够平衡各路口的交通流量，提高区域交通中道路的利用率，减少车辆的排队长度，缓解交通拥堵。该方法对交通网络具有较好的可扩展性。

A Cooperative Control Method of Multi-intersection Signal Lamp Based on Q-value Migration of Multi-task Deep Q Network

全部详细技术资料下载

【技术实现步骤摘要】
一种基于多任务深度Q网络的Q值迁移的多交叉口信号灯协同控制方法
本专利技术属于人工智能与智能交通的交叉领域，涉及一种基于多任务深度Q网络的Q值迁移多交叉口信号灯协同控制方法。
技术介绍
城市交通贯穿于城市公共空间的各个区域，是居民日常出行最主要、最便捷的方式，经过长期发展，城市交通已经形成较为完善的格局，提高了居民的出行效率，给居民生活带来很大便利。但随着经济的发展和城市化进程的加快，城市人口及人均汽车保有量快速增长，交通拥堵问题日趋严重，交通不畅、运输效率低下、环境污染等问题日益严峻，严重影响和谐可持续发展。为缓解交通拥堵问题，可以采取拓宽道路、修建高架桥等扩张道路基础设施的方法，但由于公共空间有限、造价昂贵、污染环境等原因，这类方法的作用有限。现实生活中，各城市的信号灯控制多为定时控制，即根据交叉口的历史交通流数据预先计算出红绿灯配时方案，此后一直按照此方案进行信号灯相位切换，这种控制方法不能根据实时的交通流自适应地调节信号灯相位，易造成交通拥堵。因此，可以通过信号灯的自适应控制来提高已有道路的利用率，减少拥堵。信号灯的自适应控制策略将交通系统视为一个不确定的系统，根据测量到的交通流量、延误时间和队列长度等状态变量的反馈，实现信号灯的动态优化和调整，以应对交通流的随机特性。通过信号灯的自适应控制来优化区域道路网络的交通，减少拥堵，提高通行效率，并减少二氧化碳的排放。因此，对交叉口信号灯的自适应控制研究具有重要的现实意义。20世纪80年代以后，随着机器学习和人工智能技术的发展，科研学者将其中的新方法新理论应用在信号灯的智能控制中，例如模糊逻辑、神经网络、...

【技术保护点】
1.一种基于多任务深度Q网络的Q值迁移的多交叉口信号灯协同控制方法，其特征在于，步骤如下：步骤一、获取每个交叉口的状态；步骤二、定义动作空间和奖赏函数；步骤三、训练专家网络将有N个交叉口的路网建模为多Agent系统Agent1,Agent2,…,Agenti,...,AgentN，将每个Agent上的信号灯控制视为一个源任务Si

【技术特征摘要】
1.一种基于多任务深度Q网络的Q值迁移的多交叉口信号灯协同控制方法，其特征在于，步骤如下：步骤一、获取每个交叉口的状态；步骤二、定义动作空间和奖赏函数；步骤三、训练专家网络将有N个交叉口的路网建模为多Agent系统Agent1,Agent2,…,Agenti,...,AgentN，将每个Agent上的信号灯控制视为一个源任务Si*，每个Agent都由一个DQN估计网络组成，针对每个Agent独立地训练估计网络，Agenti训练完成的估计网络即为专家网络Ei，即Ei是第i交叉口的专家网络；每个Agent新增一个与估计网络结构相同参数不同的目标网络，估计网络估计当前状态下各个动作的Q值目标网络估计目标值其中通过在一段时间内冻结目标网络的参数，使DQN算法更稳定；各Agent的损失函数定义为：其中，m为批大小，是状态下所有动作中最优的目标Q值，θi′是第i个Agent的目标网络参数，为相应的估计网络的输出，γ表示学习率，a′表示动作空间中可选的某个动作，θi表示第i个Agent的估计网络的参数；在训练每个估计网络时，在每个时间步t，第i个Agent将对交叉口的状态观察输入估计网络，根据网络输出的值使用ε-贪心策略选择动作并执行，Agent得到来自环境的奖赏rti并进入下一个状态在每个时间步t将对第i个路口的经验存入经验池Mi中，每个Agent对应一个经验池；每个经验池最多能存储max_size条经验，存满后将最早的数据舍弃继续存入最新的经验；经验池的样本需达到min_size条才能开始训练网络，训练时从经验池Mi中随机均匀采样m条经验，采用随机梯度下降算法RMSProp对参数θi进行更新；采用的神经网络均为CNN，CNN网络包含4个隐层，第一个卷积层由16个4×4的滤波器组成，步长为2；第二个卷积层由32个2×2的滤波器组成，步长为1；第三层和第四层是两个全连接层，分别由128和64个神经元组成；四个隐层都采用Relu非线性激活函数，然后将网络的输出值再作为最后的输出层的输入，输出层采用softmax激活函数，其中输出层的神经元个数与对应路口的动作空间大小相等；步骤四、训练多任务网络建立一个多任务的DQN网络MTDQN，其网络结构与专家网络相同；在时间步t，将Agenti控制的交叉口的状态分别输入专家网络Ei和多任务网络中，网络输出的Q值经过公式(3)归一化处理后，采用专家网络策略与多任务网络策略之间的交叉熵对多任务网络的参数进行更新，如式(4)所示；其中，是Q值经过归一化操作得到的一个归一化值，τ是温度参数，s是交叉口的状态，a是动作空间中的一个动作，是第i个Agent的专家网络Ei在状态s下执行动作a的输出Q值，是专家网络Ei的动作空间，a′是其中的某一个动作；其中，是交叉熵损失函数，πMTDQN(a|s；θ)是多任务深度Q网络MTDQN的策略，θ是MTDQN的参数，损失函数中用到的动作a，是依据多任务网络输出的策略进行采样的，即在训练多任务网络的过程中，每次各交叉口的信号灯动作都是根据多任务网络输出的策略进行选择的，而不是根据专家网络，每次更新多任务网络参数时，各专家网...

【专利技术属性】
技术研发人员：葛宏伟，宋玉美，张强，周东清，孙克乙，
申请(专利权)人：大连理工大学，
类型：发明
国别省市：辽宁,21

全部详细技术资料下载我是这个专利的主人