一种智能交通信号控制方法、装置及系统制造方法及图纸

技术编号:20846505 阅读:33 留言:0更新日期:2019-04-13 09:09
一种智能交通信号控制方法、装置及系统,构建了交通信号控制模型,交通信号控制模型采集交通状态数据,通过算法计算累积奖励函数值,形成多维的长期控制目标,交通信号控制模型具有记忆可以用于选择决策,输出最优控制指令,输出的最优控制指令用于信号控制,产生新的交通状态。本发明专利技术根据实时的交通状态,可自动生成最优控制指令,实现实时智能最优自适应信号控制。采用阈值字典排序方法处理多目标控制问题,让最优控制指令与目标的优先级相适应,提高信号控制的适用范围。

【技术实现步骤摘要】
一种智能交通信号控制方法、装置及系统
本专利技术属于交通信号控制领域,涉及一种智能交通信号控制方法、装置及系统。
技术介绍
随着全球范围内交通需求的增加,交通拥堵已经成为生活中的常见问题,城市道路的快速增长破坏了人类社会在能源效率和环境污染方面的可持续发展,城市交通引起的空气污染对健康和生活环境造成了严重的影响。因此,交通的问题需要考量不同维度的控制目标。现代城市道路和高速公路的交通管控,广泛应用了各种不同的控制工具,其中城市交通信号是城市交通控制中一个至关重要的组成部分。现有信号控制方法多针对某一目标或基于某一路口进行优化,存在工程应用性差,难以实现全区域的、多维目标、便于调整控制目标的交通信号控制。
技术实现思路
针对上述
技术介绍
介绍中存在的问题,本专利技术的目的在于提供一种智能交通信号控制方法、装置及系统,在结合城市全域交通状态条件下,可自动生成控制方案,实现实时智能自适应信号控制,有效缓解交通拥堵。本专利技术采用的技术方案是:一种智能交通信号控制方法,包括步骤:采集交通状态数据、若干奖励函数、协调信息、控制指令集,输入已构建的交通信号控制模型,输出最优控制指令;交通信号控制模型,包括若干奖励函数、一控制指令集、一转移概率、一协调信息,奖励函数以交通状态与控制指令为变量,控制指令集与协调信息相关联;交通信号控制模型求解包括:多目标决策步骤,获得若干个信号控制目标,信号控制目标为在未来时间段的积累奖励函数值最优,奖励函数值由所述奖励函数、转移概率计算获得,将控制目标转化为可迭代目标;多目标控制步骤,在可迭代目标约束下,求解满足可迭代目标的最优控制指令。进一步地,交通信号控制模型,具体为:其中,i=1,2,…,nobj为奖励函数的数量,x为交通状态,u为控制指令,ri(x,u)为第i个奖励函数,π(x)为控制指令集,P(xsub|x,u)∈[0,1]为给定交通状态x与控制指令u的后续交通状态xsub的转移概率;c为协调信息;γ∈[0,1]为考虑重要性水平的折扣因子。进一步地,多目标决策步骤,获得若干个信号控制目标,具体为:将控制目标转化为可迭代目标,具体为:Q*(xt,ut)=r(xt,ut)+γQ*(xt+1,ut+1)r(xt,ut)=[r1(xt,ut),r2(xt,ut),...,rn(xt,ut)]T。进一步地,多目标控制步骤,在可迭代目标约束下,求解满足可迭代目标的最优控制指令,具体为:识别可迭代目标的优先级;以最高优先级的积累奖励函数值最大为目标,求解获得最优控制指令:可迭代目标约束:s.t.其中,qthre为预定义阈值向量;求解的过程,具体为:假设交通状态xt,执行控制指令ut,下一刻获得奖励rt+1,交通状态演变为xt+1,满足关系:Qt+1(xt,ut)=Qt(xt,ut)+αδt(xt,ut)δt(xt,ut)=rt+1+γQt(xt+1,ut+1)-Qt(xt,ut)其中,Qt(xt,ut)和δt(xt,ut)分别表示累积奖励向量和时间差向量,α表示学习率;初始化控制指令集合U,阈值-qthre,空的可用控制指令集-Uavai;搜索控制指令集U中的各个控制指令u,计算Q(xt,u),如果满足Q(xt,u)≥qthre,则将该控制指令u加入可用控制指令集-Uavai,将令Q1最大值的以冒泡方式排到可用控制指令集的第一位,作为最优控制指令;如果在遍历控制指令集U后可用控制指令集Uavai仍为空,则从固定概率(0≤ε≤1)的所有控制指令中选择随机控制指令,作为最优控制指令进一步地,采集交通状态数据,具体为:其中,j=1,2,...,nint,l=1,2,...,nint表示交叉口的数量,表示入口车道数量,Nj,l,t表示t时刻与第j个交叉口相关联的第l车道上的车辆数,qj,l,t表示同一车道t时刻前累积时间内的交通流量,所述前累积时间为5分钟。进一步地,采集若干奖励函数,具体为:采集2个奖励函数,分别为其中,表示第j个交叉口的入口车道数,表示在周期时长内第l车道交通流量的最大值和Tj,l,t表示第l车道当前周期时长内通过的车辆数,Cj,t表示当前运行的周期时长,表示在第j个交叉口被指定提供更高操作优先级的车道数集合。进一步地,采集协调信息、控制指令集,具体为:第j个交叉口的控制指令集变化量满足条件:s.t.Δgj,m,t∈Sadj,其中,表示第j个交叉口的相位数量,Sadj表示持续调整时间的集合,指的是监督控制器建议的第m个相位的绿灯时间,gj,m,t,yj,m,t和rj,m,t分别表示第m个相位的绿灯时间,黄灯时间和全红时间,M是无穷大整数,Z+表示正整数的集合,协调信息δ表示如下:进一步地,交通信号控制模型,还包括:设置初始奖励函数值步骤,初始奖励函数值通过预学习方式获得,具体步骤:设置初始知识值为零,确定预学习的学习集的数量和每一集中的学习步骤的数量,设置不同的策略的奖励,学习集包括交通状态数据集;引入监督控制器,监督控制器存有交通状态数据与控制指令集的对应关系;每集中的一步学习过程从交通状态数据和奖励开始,得到的t+1时刻控制指令发送给监督控制器;监督控制器基于存有的交通状态数据与控制指令集的对应关系,输出控制指令集;更新累积知识值,如下:Qt+1(xt,ut)=Qt(xt,ut)+αδt(xt,ut)δt(xt,ut)=rt+1+γQt(xt+1,ut+1)-Qt(xt,ut)不断重复此过程,直到学习完成所有学习集,获得最终的积累知识值,以最终的积累知识值为初始奖励函数值。一种智能交通信号控制装置,包括交通状态获取单元、奖励函数生成单元、协调信息单元、初始知识生成单元、控制指令集单元、交通信号控制模型单元、最优控制指令输出单元,其中,交通状态获取单元,获取初始交通状态数据并进行预处理;初始知识生成单元,提供初始知识值;奖励函数生成单元,提供一个或多个奖励函数;协调信息单元,确定工作模式,所述工作模式包括协调模式、非协调模式;控制指令集单元,根据协调信息单元确定的工作模式,生成可选择的控制指令集;交通信号控制模型单元,存储有积累知识值,根据交通状态获取单元提供的交通状态数据、奖励函数单元提供的奖励函数、累积知识值、转移概率,计算获得知识优化目标;在控制指令集单元提供的可选择的控制指令集中搜索,获得满足知识优化目标的最优控制指令集;并更新积累知识值;最优控制指令输出单元,输出交通信号控制模型单元提供的最优控制指令集。一种智能交通信号控制系统,包括一总协调控制器和若干智能交通信号控制装置,其中,总协调控制器,传输指令给所述智能交通信号控制装置,确定所述智能交通信号控制装置的工作模式、初始知识值、奖励函数;一种智能交通信号控制装置,包括交通状态获取单元、奖励函数生成单元、协调信息单元、初始知识生成单元、控制指令集单元、交通信号控制模型单元、最优控制指令输出单元,其中,交通状态获取单元,获取初始交通状态数据并进行预处理;初始知识生成单元,接收总协调控制器传输的指令,提供初始知识值;奖励函数生成单元,接收总协调控制器传输的指令,提供一个或多个奖励函数;协调信息单元,接收总协调控制器传输的指令,确定工作模式,所述工作模式包括协调模式、非协调模式;控制指令集单元,根据协调信息单元确定的工作本文档来自技高网...

【技术保护点】
1.一种智能交通信号控制方法,其特征在于:包括步骤:采集交通状态数据、若干奖励函数、协调信息、控制指令集,输入已构建的交通信号控制模型,输出最优控制指令;所述交通信号控制模型,包括若干奖励函数、一控制指令集、一转移概率、一协调信息,所述奖励函数以交通状态与控制指令为变量,所述控制指令集与所述协调信息相关联;所述交通信号控制模型求解包括:多目标决策步骤,获得若干个信号控制目标,所述信号控制目标为在未来时间段的积累奖励函数值最优,所述奖励函数值由所述奖励函数、所述转移概率计算获得,将控制目标转化为可迭代目标;多目标控制步骤,在可迭代目标约束下,求解满足所述可迭代目标的最优控制指令。

【技术特征摘要】
1.一种智能交通信号控制方法,其特征在于:包括步骤:采集交通状态数据、若干奖励函数、协调信息、控制指令集,输入已构建的交通信号控制模型,输出最优控制指令;所述交通信号控制模型,包括若干奖励函数、一控制指令集、一转移概率、一协调信息,所述奖励函数以交通状态与控制指令为变量,所述控制指令集与所述协调信息相关联;所述交通信号控制模型求解包括:多目标决策步骤,获得若干个信号控制目标,所述信号控制目标为在未来时间段的积累奖励函数值最优,所述奖励函数值由所述奖励函数、所述转移概率计算获得,将控制目标转化为可迭代目标;多目标控制步骤,在可迭代目标约束下,求解满足所述可迭代目标的最优控制指令。2.根据权利要求1所述的一种智能交通信号控制方法,其特征在于:所述交通信号控制模型,具体为:[r1(x,u),r2(x,u),...,ri(x,u),...,rnobj(x,u),π(x),P(xsub|x,u),c,γ]其中,i=1,2,…,nobj为奖励函数的数量,x为交通状态,u为控制指令,ri(x,u)为第i个奖励函数,π(x)为控制指令集,P(xsub|x,u)∈[0,1]为给定交通状态x与控制指令u的后续交通状态xsub的转移概率;c为协调信息;γ∈[0,1]为考虑重要性水平的折扣因子。3.根据权利要求2所述的一种智能交通信号控制方法,其特征在于:所述多目标决策步骤,获得所述若干个信号控制目标,具体为:所述将控制目标转化为可迭代目标,具体为:Q*(xt,ut)=r(xt,ut)+γQ*(xt+1,ut+1)r(xt,ut)=[r1(xt,ut),r2(xt,ut),...,rn(xt,ut)]T。4.根据权利要求1所述的一种智能交通信号控制方法,其特征在于:所述多目标控制步骤,在可迭代目标约束下,求解满足所述可迭代目标的所述最优控制指令,具体为:识别所述可迭代目标的优先级;以最高优先级的积累奖励函数值最大为目标,求解获得所述最优控制指令:所述可迭代目标约束:其中,qthre为预定义阈值向量;所述求解的过程,具体为:假设交通状态xt,执行控制指令ut,下一刻获得奖励rt+1,交通状态演变为xt+1,满足关系:Qt+1(xt,ut)=Qt(xt,ut)+αδt(xt,ut)δt(xt,ut)=rt+1+γQt(xt+1,ut+1)-Qt(xt,ut)其中,Qt(xt,ut)和δt(xt,ut)分别表示累积奖励向量和时间差向量,α表示学习率;初始化控制指令集合U,阈值qthre,空的可用控制指令集-Uavai;搜索控制指令集U中的各个控制指令u,计算Q(xt,u),如果满足Q(xt,u)≥qthre,则将该控制指令u加入可用控制指令集Uavai,将令Q1最大值的以冒泡方式排到可用控制指令集的第一位,作为最优控制指令;如果在遍历控制指令集U后可用控制指令集Uavai仍为空,则从固定概率(0≤ε≤1)的所有控制指令中选择随机控制指令,作为最优控制指令5.根据权利要求1所述的一种智能交通信号控制方法,其特征在于:所述采集交通状态数据,具体为:其中,j=1,2,...,nint,l=1,2,...,nint表示交叉口的数量,表示入口车道数量,Nj,l,t表示t时刻与第j个交叉口相关联的第l车道上的车辆数,qj,l,t表示同一车道t时刻前累积时间内的交通流量,所述前累积时间为5分钟。6.根据权利要求5所述的一种智能交通信号控制方法,其特征在于:所述采集若干奖励函数,具体为:采集2个奖励函数,分别为其中,表示第j个交叉口的入口车道数,表示在t时刻前的周期时长内第l车道最大的排队长度和Tj,l,t表示第l车道t时刻前周期时长内通过的车辆数,Cj,t表示当前运行的周期时长,表示在第j...

【专利技术属性】
技术研发人员:金峻臣吴越李瑶杨宪赞周浩敏郭海锋
申请(专利权)人:银江股份有限公司
类型:发明
国别省市:浙江,33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1