【技术实现步骤摘要】
基于线下强化学习与宏观模型的匝道控制方法
[0001]本专利技术属于智能交通控制领域,涉及一种基于线下强化学习与宏观模型的匝道控制方法。
技术介绍
[0002]强化学习技术在交通控制领域尤其是匝道控制中得到了广泛的探索。但目前的研究大多依赖以微观仿真平台以实现线上的探索和学习,对数据量要求极高。这使得强化学习很难应用到实际的交通控制中,而微观仿真与实际交通条件的区别也会使基于强化学习的匝道控制效果大打折扣。而完全的线下强化学习则很难收敛,同时通过固定策略获得的数据很难满足强化学习对状态和动作多样性的要求。
技术实现思路
[0003]技术问题:本专利技术提供一种能够在线上探索、宏观模型辅助以及线下强化学习的迭代中不断优化,能在有限的数据和学习周期内达到较好的效果的匝道控制方法。
[0004]技术方案:本专利技术的基于线下强化学习与宏观模型的匝道控制方法,包括以下步骤:
[0005]步骤10)获取高速公路几何参数,基于原有的控制策略进行匝道控制,获取每个控制周期的道路交通数据以及匝道控制信息,建立并标定宏观交通流模型;所述高速公路几何参数包括车道数和检测器间距,所述道路交通数据包括交通流量、平均速度、时间占有率以及交通密度,所述匝道控制信息为在定周期情况下匝道控制的红灯时长;
[0006]步骤20)在一个数据采集周期后,根据所采集的交通流量、平均速度、交通密度以及匝道控制信息,在宏观交通流模型中生成若干的合成强化学习数据,与该数据采集周期所采集的数据混合获得强化学习数据集; >[0007]步骤30)根据强化学习数据集,基于Q学习进行线下强化学习:
[0008]首先,获取相邻的状态,以及对应的动作和奖励,如果任一状态不在Q表中,则在Q表中增加该状态,根据相应的动作、奖励以及下一个状态的Q值,更新状态的Q值;其中状态由当前控制周期交织区上游平均流量、交织区上游平均速度、瓶颈下游检测器的占有率、匝道排队长度以及上一控制周期的红灯时长五个状态参数确定,动作定义为当前控制周期的红灯时长,奖励为当前控制周期路网总的输出流量;
[0009]步骤40)根据以下方法进行线上控制并采集道路交通数据以及匝道控制信息:如果实时交通状态已经在强化学习算法中被访问,则采取步骤30)的强化学习算法对应的最优动作控制,反之采取步骤10)的高速公路原有的控制策略。
[0010]步骤50)重复步骤20)、30)和40)迭代训练强化学习智能体,直到智能体访问的状态空间满足精度要求。
[0011]进一步的,本专利技术方法中,步骤10)和40)按照如下方式获取交通数据:
[0012]在高速公路以及匝道上,均布设有电磁感应线圈作为检测器,相邻两个电磁感应
线圈的距离在500米到1500米之间;电磁感应线圈均布设在道路截面的所有车道上。
[0013]进一步的,本专利技术方法中,步骤10)按照如下方式建立并标定宏观交通流模型:在宏观交通流模型中,高速公路网络被划分为若干段,每一段的特征为每个用于标定的离散时间步长,即一个匝道控制周期内的交通密度、平均速度以及驶出路段的流量。
[0014]进一步的,本专利技术方法中,步骤20)通过以下流程获取强化学习数据:
[0015]首先,以一个数据采集周期所采集的道路交通数据以及匝道控制信息作为真实强化学习状态数据集;随后,根据真实强化学习状态数据集中的交通流量、平均速度、交通密度以及匝道控制信息,在已经标定的宏观交通模型进一步生成合成强化学习数据,加入真实强化学习状态数据集构成强化学习数据集;其中强化学习数据集中的一条训练数据是一组状态转换数据,即[当前状态,动作,奖励,下一状态]。
[0016]合成数据的生成流程如下所述:在每个训练周期内,对于每个一组状态转换数据,除了已实施的动作,所有有限的可行的控制动作被列举出来。一组状态转换数据对应的交通状况与新列举的可行的控制动作逐个输入宏观交通流模型,预测下一步的交通状态并记录对应的奖励。如果预测的下一步的交通状态存在于前述的真实强化学习状态数据集中,则将该组状态转换数据的交通状况对应的强化学习状态,该控制动作对应奖励和宏观交通流模型预测的下一步的交通状态对应的强化学习状态作为一条合成强化学习数据。
[0017]进一步的,本专利技术方法中,步骤20)根据如下标准确定合成强化学习数据的数量:
[0018]假设强化学习数据集中真实数据的比率的比例随着迭代次数的增加而增加,我们使用以下函数来确定在第w次迭代中真实数据的比例:
[0019]η=θ1+exp(
‑
θ2·
w)
[0020]其中θ1和θ2是该函数的参数,根据计算最初与迭代最终的真实数据比率确定。而在每次迭代中,合成数据的数量由η决定,多余的合成训练数据被丢弃。
[0021]有益效果:本专利技术与现有技术相比,具有以下优点:
[0022]通过线上线下迭代的方式进行学习,既避免了通过微观仿真平台与实际交通条件的固有不匹配所带来的系统误差,也避免了完全线下学习的收敛问题。宏观交通模型为强化学习提供了新的动作探索的途径,解决了实际环境中数据有限的问题,提高了学习效率,保证了控制效果。最终的控制方案与原有方案相比,更好地控制了交通拥堵,提高了交通运行的效率。
附图说明
[0023]图1是本专利技术的流程框图;
[0024]图2是本专利技术实施例的路网结构与检测器布设图;
[0025]图3是本专利技术实施例迭代过程中的真实数据比率的演变图;
[0026]图4是本专利技术实施例迭代过程中以及最终方案的总行程时间与PI
‑
ALINEA以及无控制方案的总行程时间的对比图。
具体实施方式
[0027]下面结合实施例和说明书附图对本专利技术作进一步的说明。
[0028]在一个实施例中,如图1所示,提供了一种基于线下强化学习与宏观模型的匝道控
制方法,包括以下步骤:
[0029]步骤10)获取高速公路几何参数,基于原有的控制策略进行匝道控制,获取每个控制周期的道路交通数据以及匝道控制信息,建立并标定宏观交通流模型;所述高速公路几何参数包括车道数和检测器间距,所述道路交通数据包括交通流量、平均速度、时间占有率以及交通密度,所述匝道控制信息为在定周期情况下匝道控制的红灯时长;
[0030]本实例中,基于真实的高速公路路段在SUMO中搭建微观仿真作为测试平台。实验所用路段为位于澳大利亚布里斯班地区的布鲁斯高速公路从北到南方向的一部分。实验路段包括与Anzac大街相连的上下匝道,该匝道目前的控制策略为PI
‑
ALINEA。该路段全长约5千米,主线三车道,交织区直到匝道影响区下游1千米四车道。主线每隔400
‑
700米设有交通流检测器,共设有11个检测器。这些检测器每20秒(一个控制周期)返回当前步长内的交通流量、平均速度以及检测器的时间占有率。图2给出了道路结构以及检测器的具体位置。
[0031]该阶本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种基于线下强化学习与宏观模型的匝道控制方法,其特征在于,该方法包括以下步骤:步骤10)获取高速公路几何参数,基于原有的控制策略进行匝道控制,获取每个控制周期的道路交通数据以及匝道控制信息,建立并标定宏观交通流模型;所述高速公路几何参数包括车道数和检测器间距,所述道路交通数据包括交通流量、平均速度、时间占有率以及交通密度,所述匝道控制信息为在定周期情况下匝道控制的红灯时长;步骤20)在一个数据采集周期后,根据所采集的交通流量、平均速度、交通密度以及匝道控制信息,在宏观交通流模型中生成若干的合成强化学习数据,与该数据采集周期所采集的数据混合获得强化学习数据集;步骤30)根据强化学习数据集,基于Q学习进行线下强化学习:首先,获取相邻的状态,以及对应的动作和奖励,如果任一状态不在Q表中,则在Q表中增加该状态,根据相应的动作、奖励以及下一个状态的Q值,更新状态的Q值;其中状态由当前控制周期交织区上游平均流量、交织区上游平均速度、瓶颈下游检测器的占有率、匝道排队长度以及上一控制周期的红灯时长五个状态参数确定,动作定义为当前控制周期的红灯时长,奖励为当前控制周期路网总的输出流量;步骤40)根据以下方法进行线上控制并采集道路交通数据以及匝道控制信息:如果实时交通状态已经在强化学习算法中被访问,则采取步骤30)的强化学习算法对应的最优动作控制,反之采取步骤10)的高速公路原有的控制策略。步骤50)重复步骤20)、30)和40)迭代训练强化学习智能体,直到智能体访问的状态空间满足精度要求。2.根据权利要求1所述的基于线下强化学习与宏观模型的匝道控制方法,其特征在于,所述的步骤10)和40)中按照如下方式获取交通数据:在高速公路以及匝道上,均布设有电磁感应线圈作为检测器,相邻两个电磁感应线圈的距离在500米到1500米之间;电磁感应线圈均布设在道路截面的所有车道上。3.根据权利要求1所述的基于线下强化学习与宏观模型的匝道控制方法,其特征在于,所述的步骤10)中按照如下方式建立并标定宏观交通流模型:在宏观交通流模型中,高速公路网络被划分为若干段,每一段的特征为每个用于标定的离散时间步长,即一个匝道控制周期内的交通密度、平均速度以及驶出路段的流量。4.根据权利要求1所述的基于线下强化学习与宏观模型的匝道...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。