本发明专利技术公开了一种优化信号交叉口排队长度的在线学习方法,包括以下步骤:(1)状态、行为、奖赏选取;(2)强化学习矩阵更新公式;(3)建立仿真优化平台;(4)在线运行。本发明专利技术所述方法能够计算全局最优解、且具有记忆性的信号配时优化技术。本发明专利技术与风险中立强化学习技术相比,本发明专利技术不需要事先离线学习,具有更好的实时性和适应性。
【技术实现步骤摘要】
本专利技术属于交通
,涉及。
技术介绍
人工智能是现代科学
的一个重要方向,是实现系统智能化、提高系统性能的重要手段。人工智能方法是一个横断技术,可以应用于各个学科领域。在道路交通信号控制领域,现有技术采用的是20世纪60年代至80年代的科学技术,这些技术在处理庞大的状态空间和解空间问题上具有很大的局限性。城市道路交叉口信号配时涉及庞大的状态空间和解空间,现有技术对交叉口信号配时问题作了诸多简化。城市路网交通拥堵是近些年国内外大中城市面临的一个难题,经常出现车辆排队至上游路口造成路网死锁的严重拥堵情况。以排队长度为优化目标应对我国机动车保有量井喷式增长具有重要的理论价值和现实意义。目前城市交叉口信号配时技术的智能化程度较低,不能够从经验中改善系统性能,对系统经历过的状态无记忆性。风险敏感的强化学习技术为交通信号控制的智能化提供了一个途径,适合交通信号控制的无导师学习、动态学习、在线学习的特点。交通信号控制的现有技术主要有三种=Transyt系统采用历史数据优化配时方案,SCOOT系统采用检测器数据优化配时方案,优化方法均为爬山法,SCOOT系统可称为Transyt系统的实时在线版本。SCATS系统采用“投票”法优化配时方案。其中Transyt系统和SCOOT系统以延误、排队长度、油耗的综合指标为优化目标,SCATS系统以绿灯时间等饱和度为优化目标。Transyt系统和SCOOT系统的技术方案是建立一个交通流运动的仿真模型,通过计算各比选配时方案的指标值,确定新的配时方案。采用小步距调整的方法寻求局部最优解,解空间很小,如当前方案、当前方案加4秒、当前方案减4秒。SCATS系统没有使用仿真交通的数学模型,采用以实时交通数据为基础的算法,用于实时方案选择。根据车辆检测装置所提供的实时交通量数据和停车线断面在绿灯期间的实际通过量,算法选择子系统内各交叉口共用的信号周期长度、各交叉口的绿信比及绿灯起步时距。SCATS系统要求事先利用脱机计算的方式为每个交叉口拟定四个可供选用的绿信比方案、五个内部绿灯起步时距方案、五个外部绿灯起步时距方案。绿信比方案的选择与信号周期的调整交错进行,两者结合起来,对各相位的绿灯时间不断调整的结果,使各相位饱和度维持大致相等的水平,即“绿灯时间等饱和度”原则。近几年来,国内外学者对采用强化学习方法建立信号配时优化技术进行了一定的尝试。采用基于环境检测的强化学习方法对噪音环境下的配时优化进行了研究,噪音环境主要指驾驶员行为和流量需求波动,该文通过检测环境的改变来学习动态的流量模式,自动对流量模式进行识别,执行对应的策略,跟踪环境转换的预估误差和奖励。研究了一种基于近似动态规划的自适应交通信号实时控制算法,具体地利用线性近似函数代替动态规划中的值函数,其中线性近似函数的参数由时间差分强化学习和扰动强化学习两种方法在线学习,结果表明极大地提高了模型的计算效率,而且模型优化的时间步长越小性能越优。研究了基于“车辆投票”的强化学习优化模型,通过估计每个车辆的等待时间决定配时方案,结果表明优于固定信号配时模型。建立了基于Q学习模型的配时优化模型,需要对状态集中所有连续状态进行描述,计算时间随着车道数量和交叉口数量指数增加,限制了该模型只能用于小型路网。随后,基于函数近似的强化学习算法对信号配时优化进行了研究,提出了基于特征的状态描述方法,将状态离散为低、中、高三个区间,解决了状态一行为对的维数灾难问题。使用神经网络调整模糊交通信号控制器的成员函数,使用强化学习评估神经网络采用的行为的效用,改进了模糊控制的效果。将Agent与经验知识和Q学习算法相结合,研究单个路口的动态配时问题。采用Q学习方法以减少延误为目标对单路口进行信号配时的优化,并应用模糊控制规则改善信号控制,研究结果表明该方法优于定时控制、感应式控制。将Q学习及BP神经元网络应用于切换式的信号控制优化,结果表明该模型能够感知交通流变化,并能够自适应控制,比定时控制相比具有明显的优势。总体上说,现有技术中建立基于强化学习的交通控制模型的做法是不考虑周期的概念,在每个时间步判断各相位的放行权是否切换;没有和传统的交通控制优化目标进行结合,建立的优化目标的可行性没有被验证;而且这些方法都是基于风险中立的强化学习方法,优化的过程中没有考虑车辆到达的随机波动,只能先离线学习获得初始强化学习矩阵,然后再在线应用,在优化的实时性和动态性方面具有一定的局限。总之,现有技术中城市交通信号控制系统存在以下缺陷(1)采用小步距对配时方案进行优化,优化滞后于实际交通流状态;(2)在很小的空间中优化,解为局部最优解,性能差;(3)对经历的历史状态不具有记忆性,效率低。(4)路网几何尺寸布局一旦调整,就需要花费大量时间对系统的参数进行调试。
技术实现思路
本专利技术的目的是克服现有技术的缺陷,提供,提出能够计算全局最优解、且具有记忆性的信号配时优化技术。解决现有技术只能在很小的空间中进行优化,难以保证解的最优化的问题。解决现有技术不能够积累经验、形成管理预案的缺点。相对于风险中立的强化学习优化技术,本专利技术解决了需要事先离线学习进行初始化的不足,保证了配时方案的连续性、小波动。风险中立的强化学习技术属于方案选择式原理,风险敏感的强化学习技术属于方案生成式原理。本专利技术采用人工智能领域的风险敏感强化学习理论建立了配时优化技术,该技术能够对整个优化空间进行搜索,得到全局最优解;该技术具有学习能力,对经历的历史状态具有记忆能力;由于风险敏感强化学习技术解决了规避车辆随机到达带来的风险问题,因此可以直接在线学习。与风险中立强化学习技术相比,本专利技术不需要事先离线学习,具有更好的实时性和适应性。其技术方案为,包括以下步骤(I)状态、行为、奖赏选取11)以各相位关键车流的排队长度组成的向量作为状态,为了提高计算效率,状态空间采用离散形式,离散步长为平均排队长度差的整数倍数;12)以各相位绿灯时间组成的向量作为行为,采用动态行为集技术首先计算各相位关键车流的平均排队长度占交叉口总排队长度的比例,然后将这一比例乘以事先确定的周期长度,得到各相位的基准绿灯时间,以基准绿灯时间为原点,以周期的某一比例值作为半径,构成各相位绿灯时间的行为集;13)以各相位关键车流的加权排队长度差的绝对值之和作为奖赏,优化目标是等排队长度,通过权重系数反映交通流向的重要程度;(2)强化学习矩阵更新公式强化学 习矩阵 更新公 式为:Q(s,a) = (1-P)Q{s,a) + fia[r + rmaxQ(s',a')-Q{s,a)]其中 β 为权重因子,α 为学习率,Y为折扣因子,r表示当前奖励,Q (s,a)表示状态S、行为a对应的强化学习值;(3)建立仿真优化平台31)以Excel VBA作为主控程序,将微观交通仿真软件Vissim和Matlab软件作为调用对象,分别采用COM接口和Excel Link接口 ;32)利用Vissim软件建立交通仿真模型,利用Matlab开发优化排队长度的强化学习模型,基于实时数据利用该平台计算强化学习矩阵;(4)在线运行41)按照步骤⑴中提到的离散步长,通过视频检测器判断排队长度处于哪个区间;42)在线运行指数平滑型的强化学习模型,优化信号配时;43)利用本文档来自技高网...
【技术保护点】
一种优化信号交叉口排队长度的在线学习方法,其特征在于,包括以下步骤:(1)状态、行为、奖赏选取11)以各相位关键车流的排队长度组成的向量作为状态,为了提高计算效率,状态空间采用离散形式,离散步长为平均排队长度差的整数倍数;12)以各相位绿灯时间组成的向量作为行为,采用动态行为集技术:首先计算各相位关键车流的平均排队长度占交叉口总排队长度的比例,然后将这一比例乘以事先确定的周期长度,得到各相位的基准绿灯时间,以基准绿灯时间为原点,以周期的某一比例值作为半径,构成各相位绿灯时间的行为集;13)以各相位关键车流的加权排队长度差的绝对值之和作为奖赏,优化目标是等排队长度,通过权重系数反映交通流向的重要程度;(2)强化学习矩阵更新公式强化学习矩阵更新公式为:其中β为权重因子,α为学习率,γ为折扣因子,r表示当前奖励,Q(s,a)表示状态s、行为a对应的强化学习值;(3)建立仿真优化平台31)以Excel?VBA作为主控程序,将微观交通仿真软件Vissim和Matlab软件作为调用对象,分别采用COM接口和Excel?Link接口;32)利用Vissim软件建立交通仿真模型,利用Matlab开发优化排队长度的强化学习模型,基于实时数据利用该平台计算强化学习矩阵;(4)在线运行41)按照步骤(1)中提到的离散步长,通过视频检测器判断排队长度处于哪个区间;42)在线运行指数平滑型的强化学习模型,优化信号配时;43)利用数据采集手段对优化效果进行评估。FSA00000826147200011.tif...
【技术特征摘要】
1.一种优化信号交叉口排队长度的在线学习方法,其特征在于,包括以下步骤: (1)状态、行为、奖赏选取 11)以各相位关键车流的排队长度组成的向量作为状态,为了提高计算效率,状态空间采用离散形式,离散步长为平均排队长度差的整数倍数; 12)以各相位绿灯时间组成的向量作为行为,采用动态行为集技术:首先计算各相位关键车流的平均排队长度占交叉口总排队长度的比例,然后将这一比例乘以事先确定的周期长度,得到各相位的基准绿灯时间,...
【专利技术属性】
技术研发人员:卢守峰,刘喜敏,
申请(专利权)人:长沙理工大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。