System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 网联混行场景下的效率与安全并重的多目标信号控制方法技术_技高网

网联混行场景下的效率与安全并重的多目标信号控制方法技术

技术编号:41279166 阅读:7 留言:0更新日期:2024-05-11 09:30
本发明专利技术提出了一种网联混行场景下的效率与安全并重的多目标信号控制方法,步骤为:确定交叉口几何布局、进口车道渠化方案及各信号相位得到信号动作策略池;估计非网联车的位置和速度生成优化时刻的动态车辆状态矩阵;对动态车辆状态矩阵进行降维压缩得到车辆状态;从信号动作策略池中随机选取动作,实时风险预测模型根据不同的状态动作观测并收集冲突次数,确定安全奖励;根据不同的状态动作对确定延误奖励,计算综合奖励;用实时风险预测模型分别训练策略函数和价值函数及分别对应的主网络与目标网络;基于深度确定性策略梯度算法通过目标网络更新主网络中的参数,选取最优策略。本发明专利技术能更快更准确的拟合到最优信号控制策略。

【技术实现步骤摘要】

本专利技术涉及多目标信号控制的,尤其涉及一种网联混行场景下的效率与安全并重的多目标信号控制方法


技术介绍

1、随着城市机动车保有量的增加,城市道路交通尤其是交叉口附近区域交通引发严重拥堵问题,同时也埋下了严重的安全隐患。在城市交叉口附近由于不同流向车辆的行驶线路存在冲突,从而造成的严重死亡、伤害和财产损失等问题日益突出。随着当前信息化及高新技术的迅猛发展,联网车技术可以将车辆自身各类传感器,如gps、速度传感器、雷达波等收集到的数据,通过预订的专用网络协议和信息格式以无线网络传输技术高频传输给交叉口控制者,用于提升传统信号控制方法中采用历史数据或定点检测器导致的数据不全面、精度低等问题。而当前信号控制领域先进的研究,大多仅以提升交通效率为导向,在优化目标中并未考虑安全风险因素对交叉口车辆运行的影响及对行驶安全方面的提升。

2、当前只有少部分信号控制研究将提升通行效率和安全同时作为优化目标,相关研究构建的实时风险碰撞预测模型存在着预测时间段较长(一般为5-10分钟)或模型输入交通流参数依赖于固定信号周期时长等缺陷,不适用于能够灵活探索短间隔信号动作策略的信号控制中;此外,当前对多目标信号控制的研究多采用典型的深度强化学习算法,采用同一网络对策略价值函数和状态价值函数进行值估计,导致参数更新前后容易引起较高的估计误差,进而影响模型训练的效果,难以拟合到最优策略。

3、另外,我国网联车技术仍未完全完成普及化,联网车和自动驾驶汽车预计到2035年左右才能实现全面普及,预计至少在未来的十几年内,道路车辆环境仍由联网车和传统机动车构成。而当前少数研究发现,多目标信号控制控制方法在网联混行场景中的表现明显下降,目前仍未有相关的多目标信号控制优化研究,对此问题提出有效的改善措施。以上几点均为目前研究的空缺。

4、申请号为202310680098.9的专利技术专利公开了一种适用多模式交通的多目标信号控制优化方法,包括模型准备、带约束的多目标全概率贝叶斯优化和终止迭代,其中,模型准备部分构建多模式交通整合模型,获取先验训练集;带约束的多目标全概率贝叶斯优化部分是基于模型准备部分的先验训练集优化得到下一采样点(一组信号配时方案),并将结果输入至多模式交通整合模型中运行获得所有目标函数值;之后通过终止迭代部分判断是否终止优化过程。可以利用本专利技术对多模式交通信号控制多目标优化问题进行求解,当达到终止迭代中设置的条件,就可获得满意的信号配时方案。上述专利技术同样适用于无模型的场景(即完全脱离微观交通仿真平台和交通安全评估软件),既能真实反应交通环境,又能使各类交通出行者更加安全、公平、高效地通过信号控制交叉口。但是,上述专利技术无法适用于网联自动驾驶和传统人工驾驶车辆混行混行场景;此外,多目标信号控制优化问题由于多函数目标和非线性约束条件的特性,求解过程较为复杂,难以通过数学模型有效的获取最优解;另外,事故风险预测模型的时间间隔较长,难以和灵活的信号相位执行时间相匹配。本专利技术可有效解决上述专利技术存在的几点问题。


技术实现思路

1、针对现有交叉口信号控制方法仅考虑通行效率而未考虑提升通行安全,且多目标信号控制方法构建的实时风险碰撞模型预测时段长、在网联混行场景下性能表现差及需要基于固定周期处理的技术问题,本专利技术提出一种网联混行场景下的效率与安全并重的多目标信号控制方法,实现了在网联混行场景下的效率与安全并重的多目标信号控制优化,采用深度确定性策略梯度算法提前构建分别对应的价值函数和策略函数的主网络及目标网络,更快、更准确的拟合到最优信号控制策略,为交通管理和规划部门制定有效的多目标自适应信号控制方法提供基础,提升车辆通行效率的同时降低事故风险。

2、为了达到上述目的,本专利技术的技术方案是这样实现的:一种网联混行场景下的效率与安全并重的多目标信号控制方法,其步骤如下:

3、步骤一:确定交叉口几何布局、进口车道渠化方案及各信号相位,得到信号动作策略池,观测并计算阻塞密度和车流波动速度得到反应时间和车辆间隔最小时的安全距离;在实时优化场景中收集网联车的轨迹数据以及通过固定检测器的时间和瞬时速度;

4、步骤二:在信号控制优化时刻,采用基于结合宏微观交通流理论的多源数据融合算法估计非网联车的位置和速度生成优化时刻的动态车辆状态矩阵;

5、步骤三:利用卷积神经网络构建实时风险预测模型,实时风险预测模型对动态车辆状态矩阵进行降维压缩得到车辆状态;根据交叉口信号动作策略池,随机选取相位策略;

6、步骤四:从信号动作策略池中随机选取动作,组成不同的状态动作对,实时风险预测模型根据不同的状态动作观测并收集冲突次数,确定安全奖励;

7、步骤五:根据不同的状态动作对确定延误奖励,计算综合效率和安全的多目标的综合奖励;

8、步骤六:基于所确定的车辆状态、动作和综合奖励,用实时风险预测模型分别训练策略函数和价值函数及分别对应的主网络与目标网络;

9、步骤七:基于深度确定性策略梯度算法每隔固定周期通过目标网络更新主网络中的参数,使用训练好的深度q网络选取最优策略。

10、优选地,从交叉口几何布局掌握进口车道渠化方案,结合城市交叉口几何布局和进口车道渠化方案信息确定交叉口的各信号相位,最后通过各信号相位确定信号动作策略池a;

11、在交叉口进口道处,观测并收集自由行驶路段和排队路段的车流量及其对应的车流密度,得到车流波动速度w;观测车流密集到车辆无法移动时的密度,即阻塞密度kj;根据宏观车流波动理论中的车流波动速度w和阻塞密度kj,计算驾驶员反应时间τ和车辆间隔最小时的安全距离驾驶员的反应时间

12、基于无线通信技术将网联车在不同车道任意时刻的位置和速度信息传输给控制者,通过将位置和速度信息进行处理得到网联车的轨迹数据;定点检测器检测所有通过的车辆时间及车辆的瞬时速度,将网联车的速度位置、定点检测器检测的车辆通过时间和瞬时速度分别列表并进行对比,确定通过定点检测器的车辆是否为网联车。

13、优选地,所述步骤二中采用改进的newell车辆跟驰模型推测非网联车的位置和速度,实现方法为:

14、从每辆网联车之后的首辆非网联车开始,按车道估算非网联车在优化时刻t的位置和速度

15、将时间段[t0,t]通过反应时间τ作为时间间隔离散化,计算出t时刻的位移其中,表示第n-1辆车在t时刻的位置,δxn-1,n(t)为前后两辆车的间距;

16、根据两个速度优化函数计算时刻t+τ的优化速度:

17、

18、其中,为权重系数,δvn-1,n(t)表示第n-1辆车和第n辆车的速度之差;v1[δxn-1,n(t)]和v2[δvn-1,n(t)]为两个速度优化函数;

19、考虑到时刻的速度优化函数受到两辆车的间距和速度差两个变量的影响,两个速度优化函数分别为:

20、

21、v2[δvn-1,n(t)]=γtanh[cδvn-1,n(t)]<本文档来自技高网...

【技术保护点】

1.一种网联混行场景下的效率与安全并重的多目标信号控制方法,其特征在于,其步骤如下:

2.根据权利要求1所述的网联混行场景下的效率与安全并重的多目标信号控制方法,其特征在于,从交叉口几何布局掌握进口车道渠化方案,结合城市交叉口几何布局和进口车道渠化方案信息确定交叉口的各信号相位,最后通过各信号相位确定信号动作策略池A;

3.根据权利要求1或2所述的网联混行场景下的效率与安全并重的多目标信号控制方法,其特征在于,所述步骤二中采用改进的Newell车辆跟驰模型推测非网联车的位置和速度,实现方法为:

4.根据权利要求1所述的网联混行场景下的效率与安全并重的多目标信号控制方法,其特征在于,所述车辆状态的实现方法为:在优化时刻T,按车道编号和距停车线距离远近的车辆位置和速度的矩阵分别为矩阵Pc和矩阵Sc,将四相位交叉口的八种相位组合方式按照独热编码的方式生成8×1维度的信号策略动作向量;矩阵Pc和矩阵Sc作为卷积神经网络的输入层数据依次通过两个卷积层和两个池化层进行压缩降维;在卷积和池化完成之后输入8×1维度的信号策略动作向量,经过含有512层的全连接层和隐藏层的卷积神经网络处理,输出降维压缩后的车辆状态;

5.根据权利要求1或4所述的网联混行场景下的效率与安全并重的多目标信号控制方法,其特征在于,所述安全奖励用于整个交叉口在[t0,T]期间碰撞时间总预测次数的表示,计算方法为:

6.根据权利要求5所述的网联混行场景下的效率与安全并重的多目标信号控制方法,其特征在于,两个状态动作对之间出行的延误奖励的计算方法:

7.根据权利要求6所述的网联混行场景下的效率与安全并重的多目标信号控制方法,其特征在于,基于确定的车辆状态s,选取随机动作a与环境交互,从仿真中观测生成的综合奖励Rt,记录车辆状态s、随机动作a、综合奖励Rt并观测下一步的车辆状态s′,将车辆与环境交互每一步产生的状态信息(s,a,Rt,s′)放入经验池D;若经验池D储存经验数超过10000条时,输出经验池D,否则重复以上操作;

8.根据权利要求7所述的网联混行场景下的效率与安全并重的多目标信号控制方法,其特征在于,所述步骤七中训练策略函数和价值函数及分别对应的主网络与目标网络的方法为:从经验池D中随机抽取四组容量为2500条数据作为训练样本,分别计算每组的时序差分目标yt;以车辆状态s和动作a为输入,时序差分目标yt为输出,用人工神经网络分别训练第一、二组样本,构建以θQ为参数组合的价值函数主网络Qt(s,a;θQ)和以θQ-为参数组合的价值函数目标网络Qt(s,a;θQ-);以车辆状态s为输入,以动作a为输出,用人工神经网络分别训练第三、四组样本,获得以θμ为参数组合的策略函数主网络μ(st;θμ)和以θμ-为参数组合的策略函数目标网络μ(st;θμ-);输出价值函数和动作函数的主网络和目标网络。

9.根据权利要求8所述的网联混行场景下的效率与安全并重的多目标信号控制方法,其特征在于,所述时序差分目标yt的计算方法为:

10.根据权利要求9所述的网联混行场景下的效率与安全并重的多目标信号控制方法,其特征在于,所述深度确定性策略梯度算法的实现方法为:

...

【技术特征摘要】

1.一种网联混行场景下的效率与安全并重的多目标信号控制方法,其特征在于,其步骤如下:

2.根据权利要求1所述的网联混行场景下的效率与安全并重的多目标信号控制方法,其特征在于,从交叉口几何布局掌握进口车道渠化方案,结合城市交叉口几何布局和进口车道渠化方案信息确定交叉口的各信号相位,最后通过各信号相位确定信号动作策略池a;

3.根据权利要求1或2所述的网联混行场景下的效率与安全并重的多目标信号控制方法,其特征在于,所述步骤二中采用改进的newell车辆跟驰模型推测非网联车的位置和速度,实现方法为:

4.根据权利要求1所述的网联混行场景下的效率与安全并重的多目标信号控制方法,其特征在于,所述车辆状态的实现方法为:在优化时刻t,按车道编号和距停车线距离远近的车辆位置和速度的矩阵分别为矩阵pc和矩阵sc,将四相位交叉口的八种相位组合方式按照独热编码的方式生成8×1维度的信号策略动作向量;矩阵pc和矩阵sc作为卷积神经网络的输入层数据依次通过两个卷积层和两个池化层进行压缩降维;在卷积和池化完成之后输入8×1维度的信号策略动作向量,经过含有512层的全连接层和隐藏层的卷积神经网络处理,输出降维压缩后的车辆状态;

5.根据权利要求1或4所述的网联混行场景下的效率与安全并重的多目标信号控制方法,其特征在于,所述安全奖励用于整个交叉口在[t0,t]期间碰撞时间总预测次数的表示,计算方法为:

6.根据权利要求5所述的网联混行场景下的效率与安全并重的多目标信号控制方法,其特征在于,两个状态动作对之间出行的延误奖励的计算方...

【专利技术属性】
技术研发人员:汪德才吴宗远侯熙洋成凯何培培张群磊李世明刘威展
申请(专利权)人:华北水利水电大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1