一种基于Qlearning的单点信号配时方案选择方法技术

技术编号：30371566 阅读：44 留言：0更新日期：2021-10-16 17:52

一种基于Qlearning的单点信号配时方案选择方法，兼顾信号配时优化的稳定性和灵活性，以交叉口时段内原始固定配时方案为基准，向它的上下两个安全搜索区域进行方案的探索和选择，实现控制的稳定性；同时对时段内相对长久缓慢或异常的的变化做出及时的响应，实现控制的灵活性。通过不断训练，依据最终得到的Q值表选择出与当前交通环境状态匹配的信号配时方案。案。案。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于Qlearning的单点信号配时方案选择方法

[0001]本专利技术涉及交通信号控制领域，具体涉及一种基于Qlearning的单点信号配时方案选择方法。

技术介绍

[0002]当前，交叉口信号控制往往采用多时段固定配时方案，通过这种简单设计的多时段配时方案经常会随着交通环境的长期或短期变化无法适应交通的需求，引起不必要的延误甚至是部分时段的拥堵。因此，对时段内的方案进行实时优化非常必要，常见的实时优化方法未根据反馈进行学习，而且计算过程复杂，或变化过于灵活不安全，不利于实施和流程化操作，不能完全满足动态交通信号配时的需要。
[0003]现有技术下已有相关的专利情况，例如：
[0004]专利《基于交叉口过车记录的单点信号控制优化方法》(专利申请号：201610971018.5)，根据车道通过流量及排队情况分析绿灯利用指数，存在绿灯时间剩余，则缩短绿灯时间。但该方法只适用于路口交通流量较小的情况，当出现突发大流量时则不能生成合适的信号控制方案。
[0005]专利《一种减少机动车尾气排放的交叉口信号...

【技术保护点】

【技术特征摘要】
1.一种基于Qlearning的单点信号配时方案选择方法，其特征在于包括以下步骤：S1，状态空间定义；将状态空间定义为S＝(C,F)，其中，C代表状态集，F代表状态开关；对状态集进行简化设计，选取某一时段内运行的固定配时方案为基准方案Pl，并向它的上下两个方向各拓展l
‑
1套方案，l的取值根据实际应用情况选择，状态集C共设置2l
‑
1套方案,C＝(P1,P2,
…
Pl,
…
,P(2l
‑
1))，其中，Pl为原始基准方案，P1为向下拓展方案1，P(l
‑
1)为向下拓展方案l
‑
1，P(2l
‑
1)为向上拓展方案2l
‑
1；设置开关量F，区分交通状态的异常与否：设置开关量F，区分交通状态的异常与否：式中，y为交叉口的关键流量比，交叉口为j相位，q
i
为相位i的关键车流的流量，s
i
为车道的饱和流量，y
now
为当前关键流量比，y
last
为依据历史数据分析得到的该时段公允关键流量比，与y
last
同比增大超过e可判定为异常状态，e可根据实际交叉口情况进行设置；S2，动作空间定义；一个完整的动作空间包括交叉口在一个时间步内所有可能的信号配时方案，动作空间定义为：A＝(a1,a2,
…
am,
…
,aw)；其中，am为动作空间中的第m套信号配时方案；各方案中的周期是不一样的，各方案中的相位时长可根据各相位关键车流的流量比进行分配调节；S3，回报函数；回报函数依据延误时间计算得到，延误时间通过仿真软件直接获得或实际应用中计算得到；首先，通过聚类算法分析得到交叉口该时段内不同类别延误变化范围的上限值d；其次，定义奖惩函数为：式中：d
t0
为动作执行前的延误，d
tk
为动作执行后的延误；设置连续相同动作标志b，若连续两次相同的动作，则b＝2；若连续三次相同的动作，则b＝3；依此类推，每增加一次连续相同动作，b值加1；连续动作被中断，则b＝1；针对不同的b、r
t
(s,a)、dif调整反馈r
t
(s,a)，规则如下：dif＝d
tk
‑
d
t0
；当b＝2且r
t
(s,a)＝
‑
1时，说明被选中的方案已经是连续第二次被选中，动作选择策略采取贪婪算法,可知被选中的方案曾是一套相对优秀的方案；当延误升高幅度不大，即dif<k时，修正r
t
(s,a)＝0；当延误升高幅度较大，即dif≥k时，保持r
t
(s,a)＝
‑
1，k的值可依据经
验...

【专利技术属性】
技术研发人员：朱海峰，郭敏，温熙华，陈鹏飞，
申请(专利权)人：浙江海康智联科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人