【技术实现步骤摘要】
基于强化学习和交通车道竞争理论的交通控制方法及系统
本专利技术涉及计算机软件和交通领域,具体地,涉及一种基于强化学习和交通车道竞争理论的交通控制方法及系统,更为具体的,涉及一种基于强化学习和交通车道阶段竞争理论的交通控制方法及系统。
技术介绍
交通拥堵已经成为了当今城市中对人们日常生活影响越来越大的一个问题,其由很多因素产生,例如过载的交通流量和糟糕的道路设计。这里面有一些因素是需要政策和长期计划来改善,但是也有一些可以通过大数据和先进的学习算法来改善。目前,应用最广泛的交通信号控制系统是SCATS和SCOOT,其还是基于手动设计的方案,但这些手动设计的方案并不能适用于当今复杂多变的交通情况。近期,越来越多的研究者开始使用强化学习的方法来解决交通信号控制这一问题。不同于以前基于手动设计方案的控制方法,强化学习的方法可以直接通过学习信号决策与环境的交互来优化控制方案。在强化学习和交通控制这一领域中,典型的做法是将交叉路口处理成智能体,智能体通过奖励机制来优化其产生的行为决策来达到控制交通信号的目的。但是目前的这些方法大 ...
【技术保护点】
1.一种基于强化学习和交通车道竞争理论的交通控制方法,其特征在于,包括:/n初始化步骤:定义交通信号控制问题中各个变量,初始化交通信号控制算法模型;/n智能体构造步骤:构造交通信号控制算法模型,优化决策降低通行时间计算方法;/n网络结构构造步骤:构造交通信号控制算法模型的网络结构,确定交通信号控制算法模型在从初始状态到能够输出优化的交通信号控制决策的过程中,所需要迭代更新的参数;/n交通车道阶段竞争的信号控制方法构造步骤:基于交通车道阶段竞争理论构造交通信号控制算法模型的计算逻辑,获得奖励函数的输出,提升交通信号控制算法模型的效果;/n行为更新步骤:根据构建的交通信号控制算 ...
【技术特征摘要】 【专利技术属性】
1.一种基于强化学习和交通车道竞争理论的交通控制方法,其特征在于,包括:
初始化步骤:定义交通信号控制问题中各个变量,初始化交通信号控制算法模型;
智能体构造步骤:构造交通信号控制算法模型,优化决策降低通行时间计算方法;
网络结构构造步骤:构造交通信号控制算法模型的网络结构,确定交通信号控制算法模型在从初始状态到能够输出优化的交通信号控制决策的过程中,所需要迭代更新的参数;
交通车道阶段竞争的信号控制方法构造步骤:基于交通车道阶段竞争理论构造交通信号控制算法模型的计算逻辑,获得奖励函数的输出,提升交通信号控制算法模型的效果;
行为更新步骤:根据构建的交通信号控制算法模型中奖励函数,进行迭代计算,得到训练后的交通信号控制算法模型;
预测结果计算步骤:根据训练后的交通信号控制算法模型计算出预测的交通信号控制策略;
所述交通信号控制算法模型:通过算法来实现交通信号的控制,交通信号的控制策略是算法计算出来的;
所述奖励函数:交通信号算法通过结合强化学习实现的。
2.根据权利要求1所述的一种基于强化学习和交通车道竞争理论的交通控制方法,其特征在于,所述初始化步骤包括:
所述定义交通信号控制算法模型的必要参数包括:交通车道定义、交通运动定义、交通运动信号定义和交通阶段定义;
所述交通车道定义包括:每个交叉路口有四个车道,四个车道包括东、西、南和北,分别表示为E、S、W和N;
所述交通运动定义包括:以某一方向运动的车辆;
所述交通运动信号定义包括:车辆被允许行驶设为1,不允许行驶设为0;
所述交通阶段定义包括:以预设个单位字节向量P来表示交通阶段的组合,每个单位向量代表一个路口的交通信号灯情况。
3.根据权利要求1所述的一种基于强化学习和交通车道竞争理论的交通控制方法,其特征在于,所述智能体构造步骤包括:构造交通信号控制算法模型,优化决策降低通行时间计算方法;
智能体通过学习一个优化决策降低通行时间,将本优化决策降低通行时间描述为一个马尔可夫决策问题,优化决策降低通行时间计算公式如下:
状态S、行为A和奖励R,则S×A→R;
其中,Gt表示车辆队列长度,即优化决策降低通行时间;下标t表示时刻;γ表示系数;∞表示正无穷;
所述网络结构构造步骤包括:应用Ape-X深度Q-学习网络构造交通信号控制算法模型的计算框架。
4.根据权利要求1所述的一种基于强化学习和交通车道竞争理论的交通控制方法,其特征在于,所述交通车道阶段竞争的信号控制方法构造步骤包括:交通车道阶段需求模型构建步骤、交通车道阶段对表示步骤和交通车道阶段对竞争步骤;
所述交通车道阶段需求模型构建步骤:将每一个车道的信号需求进行数学表示如下:
其中,其中,表示i路口的车辆隐层向量,ReLU()表示Relu激活函数,Wv表示权重,fiv表示i路口车辆特征向量,bv表示偏置,上标v表示车辆,上标s表示信号,上标h表示考虑了bv和bs后的值;di表示在当前交通运动下产生的信号需求;
交通车道阶段需求模型构建表示如下:
d(p)=di+dj,pi=pj=1(5)
其中,dj表示j路口对绿灯的需求向量,pi表示i路口p阶段的向量,pj表示j路口p阶段的向量;
所述交通车道阶段对表示步骤:交通车道阶段对需求会被映射成D维向量,再经过K维卷积层和1×1的卷积核进行计算,则第k层的交通车道阶段对表示为:
其中,表示k个卷积层下的交通信号需求向量,表示权重,表示k-1个卷积层的交通信号需求向量,表示偏置;
所述交通车道阶段对竞争步骤包括:一个阶段竞争Hc表示为:
其中,表示k个卷积层的交通信号需求向量;
然后再用1×1的卷积核进行卷积计算,得到交通车道阶段对竞争C如下所示:
C=ReLU(Wc·Hc+bc)(8)。
5.根据权利要求1所述的一种基于强化学习和交通车道竞争理论的交通控制方法,其特征在于,所述行为更新步骤包括:根据交通车道阶段对竞争获得交通信号算法模型中的奖励函数的输出,不断迭代计算损失函数,直至损失函数不再降低,实现交通信号算法模型中可训练参数的更新,得到训练后的交通信号控制算法模型;
所述预测结果计算步骤包括:根据上述训练好的交通信号控制算法模型,计算获取交通信号的控制策略。
技术研发人员:薛贵荣,徐凯,
申请(专利权)人:上海天壤智能科技有限公司,
类型:发明
国别省市:上海;31
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。