一种基于深度强化学习的交通信号自适应控制方法技术

技术编号:15748242 阅读:174 留言:0更新日期:2017-07-03 07:24
本发明专利技术涉及交通控制及人工智能技术领域,一种基于深度强化学习的交通信号自适应控制方法,包括以下步骤:(1)定义交通信号控制agent、状态空间S、动作空间A和回报函数r,(2)深度神经网络的预训练,(3)使用深度强化学习方法对神经网络进行训练,(4)依据训练好的深度神经网络进行交通信号控制。通过对磁感、视频、RFID和车联网等采集到的交通数据进行预处理,获取包含车辆位置信息的交通状态的低层表示;其次,通过深度学习的多层感知器对交通状态进行感知,得到当前交通状态的高层抽象特征;在此基础上利用强化学习的决策能力依据当前交通状态的高层抽象特征选择合适的配时方案,实现交通信号自适应控制,以减少车辆旅行时间,确保交通安全、畅通、有序和高效地运行。

【技术实现步骤摘要】
一种基于深度强化学习的交通信号自适应控制方法
本专利技术涉及一种基于深度强化学习的交通信号自适应控制方法,属于交通控制及人工智能

技术介绍
随着汽车保有量的增加,交通拥堵已经成为困扰我国经济发展的一个难题,2016年,因交通拥堵造成的人均经济损失达到8000元。同时也带来了能源问题、交通安全问题和环境问题。解决交通拥堵有两种方案,增加交通基础设施建设和发展先进的交通控制系统。而城市土地资源紧张有限,单纯依靠增加交通基础设施不能解决问题,因此要更加注重优先发展先进的交通控制系统。当前,主流的交通控制系统有TRANSYT、SCOOT和SCAT等,这些控制系统根据交通流量、排队长度、车道占有比等传统交通参数对交通信号灯的配时进行优化。我们认为传统交通参数对交通状态的描述是片面的、不准确的。如排长队只描述了静止车辆的数量信息,而忽略了它们的位置信息和所有运动车辆的信息;交通流量描述了过去一段时间车辆的通过信息,而对当前交通状态的刻画上也是不准确的。因此基于传统交通参数的信号配时方案也是滞后的,甚至是错误的,有时不但不会缓解交通,甚至还会加重交通拥堵的发生。近年来,深度学习作为机器学习领域的一个重要研究热点,已经在图像分类、语音识别、自然语言处理、视频分类等领域取得了令人瞩目的成功。深度学习的思想是通过多层的网络结构和非线性变换,组合低层特征,形成抽象的、易于区分的高层表示,以发现数据的分布式特征表示。因此深度学习侧重于对事物的感知。强化学习作为机器学习领域另一个研究热点,被广泛应用于工业制造、仿真模拟、机器人控制、优化调度、游戏博弈等领域,它的基本思想是通过最大化智能体(Agent)从环境中获得的累计奖赏值,以学习到完成目标的最优策略,因此强化学习侧重于学习解决问题的策略。Google公司的DeepMind人工智能研究团队创造性地将这两种技术结合起来,形成了人工智能领域新的研究热点,即深度强化学习,并在许多具有挑战性的领域构建实现了人类专家级别Agent。2016年,人工智能围棋程序AlphaGo战胜人类代表李世石,标志着人工智能的智能水平达到了一个新的高度。AlphaGo使用的核心技术就是深度强化学习。深度强化学习以一种通用的形式结合了深度学习的感知能力和强化学习的决策能力,通过端到端的学习方式能够实现从原始输入到输出的直接控制。目前深度强化学习在游戏、机器人控制、机器视觉等领域已得到了广泛的应用。
技术实现思路
为了克服现有技术中存在的不足,本专利技术目的是提供一种基于深度强化学习的交通信号自适应控制方法。该方法是通过深度学习的多感知器对当前交通状态特征进行高层抽象表征,实现交通状态精确感知。在此基础上通过强化学习制定有效的交通信号控制策略,解决了传统交通信号控制系统对交通状态感知不全面、信号控制策略制定不准确的不足,实现了路口交通信号的自适应控制。为了实现上述专利技术目的,解决已有技术中存在的问题,本专利技术采取的技术方案是:一种基于深度强化学习的交通信号自适应控制方法,包括以下步骤:步骤1、定义交通信号控制Agent、状态空间S、动作空间A和回报函数r,具体包括以下子步骤:步骤1.1、交通信号控制Agent使用深度强化学习方法,构建深度神经网络QV为值网络,初始化经验回放记忆池D为空,本专利技术的神经网络采用卷积神经网络,依次为输入层,3个卷积层,1个全连接层和4个输出层,输入层为当前交通状态s,输出层为当前交通状态所有动作的值估计QV(s,a);经验回放记忆池D用于记录转移样本<s,a,r,s'>,其中s表示当前交通状态,a表示在当前交通状态s下选择的执行动作,s′表示在当前交通状态s下执行动作a后迁移到的下一个交通状态,r表示在当前交通状态s执行动作a获取的立即回报;步骤1.2、定义当前交通状态s,当前交通状态s包含交叉口各车道上车辆的位置信息和当前信号灯状态信息,对交叉口各车道停车线以外l米内每隔c米进行离散化处理,得到个元胞,如果元胞内有车,对应位置值为1,如果元胞内没有车,对应位置值为0,这样就得到车辆位置信息,对相应位置上信号灯状态进行数字化表征,红灯RED=0.2,黄灯YELLOW=0.5,绿灯GREEN=0.8,得到当前信号灯状态信息;再将各车道车辆信息和当前信号灯状态信息融合得到类似于图像的当前交通信息矩阵,矩阵维数越大,交通信息刻画就越准确,本专利技术矩阵维数取值168×168,当前交通信息矩阵中心部分代表当前信号灯状态,其它位置上1代表有车,0代表没有车;再将连续4个时刻获取的当前交通信息矩阵作为当前交通状态s,其中不仅包含了车辆位置静态信息,而且还包含了交通动态变化的信息,从而更加准确深刻地刻画出了当前交通状态;步骤1.3、定义动作空间A为可以选择的相位,本专利技术采用4相位,A={NSG,NSLG,WEG,WELG},其中NSG为相位1,代表南北直行通行,NSLG为相位2,代表南北左转通行,WEG为相位3,代表东西直行通行,WELG为相位4,代表东西左转通行,agent的可选执行动作为a,其中a∈A;步骤1.4、定义回报函数r=-0.4×d-0.3×w-0.2×q-0.1*p,其中表示车辆总延误,Nlane表示交叉口的车道数,Nvehicle表示各车道上的车辆数,vspeed表示车辆当前速度,vallowed表示车辆所在车道允许最大通行速度;表示车辆总等待时间,wvehicle表示单个车辆在交叉口的等待时间,大小为车辆从静止到运动之间的时间长度;q=max(q1,q2,q3,q4)-min(q1,q2,q3,q4)表示车辆排队绝对差,q1表示相位1对应的排队长度,q2表示相位2对应的排队长度,q3表示相位3对应的排队长度,q4表示相位4对应的排队长度;p表示信号灯是否发生切换,可通过公式(1)进行描述,式中,p=0表示信号灯没有发生切换,p=1表示信号灯发生切换;步骤2、深度神经网络的预训练,目的是为了减少Agent在学习过程中由于选择错误的动作对交通造成不好的影响,具体包括以下子步骤:步骤2.1、预训练样本采集,依据现有的交通信号控制系统控制策略进行交通控制,对当前交通状态s、当前交通状态的执行动作a、当前交通状态的获取回报r及下一个交通状态s′每隔5秒钟进行一次采样,并将转移样本<s,a,r,s'>送至经验回放记忆池D中,采样数目不少于100000个;步骤2.2、计算获取深度神经网络参数θ,使用步骤2.1采集到的样本数据对交通信号控制Agent进行训练,使损失函数L=[Q(s,a;θ)-r-γmaxQ(s′,a′;θ)]2最小化,其中θ表示神经网络一组参数取值,Q(s,a;θ)表示当前交通状态s下选取执行动作a在神经网络参数为θ时的Q值,r表示立即回报,γ表示折扣系数,maxQ(s′,a′;θ)表示下一个交通状态s′在神经网络参数为θ时所有动作对应Q值的最大值;神经网络参数θ的更新使用RMSProp优化算法,RMSProp通过增加阻尼系数η解决学习速率衰减的问题,RMSProp算法通过公式(2)和(3)进行描述:式中,表示参数θj在t+1时刻的累加梯度,表示参数θj在t时刻的累加梯度,表示参数θj在t+1时刻的取值,表示参数θj在t时刻的取值,η表示阻尼系数且η∈(0,1),δ表本文档来自技高网
...
一种基于深度强化学习的交通信号自适应控制方法

【技术保护点】
一种基于深度强化学习的交通信号自适应控制方法,其特征在于包括以下步骤:步骤1、定义交通信号控制Agent、状态空间S、动作空间A和回报函数r,具体包括以下子步骤:步骤1.1、交通信号控制Agent使用深度强化学习方法,构建深度神经网络Q

【技术特征摘要】
1.一种基于深度强化学习的交通信号自适应控制方法,其特征在于包括以下步骤:步骤1、定义交通信号控制Agent、状态空间S、动作空间A和回报函数r,具体包括以下子步骤:步骤1.1、交通信号控制Agent使用深度强化学习方法,构建深度神经网络QV为值网络,初始化经验回放记忆池D为空,本发明的神经网络采用卷积神经网络,依次为输入层,3个卷积层,1个全连接层和4个输出层,输入层为当前交通状态s,输出层为当前交通状态所有动作的值估计QV(s,a);经验回放记忆池D用于记录转移样本<s,a,r,s'>,其中s表示当前交通状态,a表示在当前交通状态s下选择的执行动作,s′表示在当前交通状态s下执行动作a后迁移到的下一个交通状态,r表示在当前交通状态s执行动作a获取的立即回报;步骤1.2、定义当前交通状态s,当前交通状态s包含交叉口各车道上车辆的位置信息和当前信号灯状态信息,对交叉口各车道停车线以外l米内每隔c米进行离散化处理,得到个元胞,如果元胞内有车,对应位置值为1,如果元胞内没有车,对应位置值为0,这样就得到车辆位置信息,对相应位置上信号灯状态进行数字化表征,红灯RED=0.2,黄灯YELLOW=0.5,绿灯GREEN=0.8,得到当前信号灯状态信息;再将各车道车辆信息和当前信号灯状态信息融合得到类似于图像的当前交通信息矩阵,矩阵维数越大,交通信息刻画就越准确,本发明矩阵维数取值168×168,当前交通信息矩阵中心部分代表当前信号灯状态,其它位置上1代表有车,0代表没有车;再将连续4个时刻获取的当前交通信息矩阵作为当前交通状态s,其中不仅包含了车辆位置静态信息,而且还包含了交通动态变化的信息,从而更加准确深刻地刻画出了当前交通状态;步骤1.3、定义动作空间A为可以选择的相位,本发明采用4相位,A={NSG,NSLG,WEG,WELG},其中NSG为相位1,代表南北直行通行,NSLG为相位2,代表南北左转通行,WEG为相位3,代表东西直行通行,WELG为相位4,代表东西左转通行,agent的可选执行动作为a,其中a∈A;步骤1.4、定义回报函数r=-0.4×d-0.3×w-0.2×q-0.1*p,其中表示车辆总延误,Nlane表示交叉口的车道数,Nvehicle表示各车道上的车辆数,vspeed表示车辆当前速度,vallowed表示车辆所在车道允许最大通行速度;表示车辆总等待时间,wvehicle表示单个车辆在交叉口的等待时间,大小为车辆从静止到运动之间的时间长度;q=max(q1,q2,q3,q4)-min(q1,q2,q3,q4)表示车辆排队绝对差,q1表示相位1对应的排队长度,q2表示相位2对应的排队长度,q3表示相位3对应的排队长度,q4表示相位4对应的排队长度;p表示信号灯是否发生切换,可通过公式(1)进行描述,式中,p=0表示信号灯没有发生切换,p=1表示信号灯发生切换;步骤2、深度神经网络的预训练,目的是为了减少agent在学习过程中由于选择错误的动作对交通造成不好的影响,具体包括以下子步骤:步骤2.1、预训练样本采集,依据现有的交通信号控制系统控制策略进行交通控制,对当前交通状态s、当前交通状态的执行动作a、当前交通状态的获取回报r及下一个交通状态s′每隔5秒钟进行一次采样,并将转移...

【专利技术属性】
技术研发人员:谭国真王莹多
申请(专利权)人:大连理工大学
类型:发明
国别省市:辽宁,21

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1