【技术实现步骤摘要】
基于行为趋向聚类和特征映射的多智能体可变限速控制方法
[0001]本专利技术属于智能交通和交通控制
,具体涉及一种基于行为趋向聚类和特征映射的多智能体可变限速控制方法,用来提升高速公路的效率和安全。
技术介绍
[0002]高速公路是交通运输系统的动脉,饱和通行需求下车辆之间相互干扰与冲突加剧,导致普遍存在多种类型的交通瓶颈。改善高速公路交通问题的主要既有手段为交通流主动控制技术(Active Traffic Management),即通过主动干预交通流运行状态,疏解瓶颈区域交通供需矛盾,常见技术手段包括匝道流量控制、主线可变限速控制、动态车道功能控制等,形成了丰富的理论研究成果。然而,现有的协同控制策略,一方面存在控制动作延迟、计算量大等缺点;另一方面缺乏对多个控制点的动作协同,上述局限与约束导致该技术无法在连续多瓶颈路段集成控制与多种方式协同控制场景中取得良好的效果,其控制精度与实施效果受到较大限制。
技术实现思路
[0003]针对现有研究不足,本专利技术提出一种基于行为趋向聚类和特征映射的多智能体可 ...
【技术保护点】
【技术特征摘要】
1.一种基于行为趋向聚类和特征映射的多智能体可变限速控制方法,其特征在于,包括以下步骤:S10:在每个瓶颈路段部署一个智能体进行限速控制,计算各个智能体奖励值r,各个智能体奖励值r的包括道路通行效率奖励r
efficiency
和道路安全奖励r
safety
,根据各个智能体的奖励值r计算得到整条公路的全局奖励值R;S20:获得连续多瓶颈高速公路各路段的交通流数据,对交通流数据归一化处理并生成当前时间步交通流状态信息s和各个智能体奖励值r;S30:采用结合参数再梯度化的多智能体深度强化学习算法,利用S20中生成的当前时间步交通流状态信息s和各个智能体奖励值r对模型进行训练最大化全局奖励值R,生成各瓶颈路段当前时间步协同限速控制动作,为所有的智能体建立一个回放记忆库D存放步骤S30训练过程中产生的数据;其中,所述深度强化学习算法为演员神经网络Net
a
和批评家神经网络Net
c
,所述回放记忆库存放的数据包括:当前时间步交通流状态信息s、限速控制动作值a和各个智能体奖励值r;S40:从回放记忆库中采集奖励值r位于前30%的序列数据记为Γ,设计具有持久记忆和信息交换功能的神经网络Net
Θ
,以Γ为输入数据,通过网络Net
Θ
计算实时交通流运行行为趋向Θ,使用高斯混合模型对Θ聚类,将Θ最大后验概率所属分布相同的智能体分到一个组;S50:随机选择同组内一个智能体为源智能体,将组内其它智能体设计为共享智能体,共享智能体网络net
t
和源智能体网络net
s
的结构相同,但net
t
没有权重w,对net
s
和net
t
进行横向特征映射;S60:将同组内智能体同步更新演员神经网络Net
a
和批评家神经网络Net
c
,进入下一个学习时间步,重复执行步骤S20
‑
S60直至Net
a
和Net
c
收敛;S70:利用收敛后的神经网络Net
a
和Net
c
进行可变限速控制,基于采集到的交通流数据,Net
a
和Net
c
实时计算高速公路各个控制区最优限速值,将限速值传输到可变限速控制板进行发布。2.根据权利要求1所述的一种基于行为趋向聚类和特征映射的多智能体可变限速控制方法,其特征在于,所述步骤S10中的通行效率奖励r
efficiency
表示为:其中,k
cr
是瓶颈路段的关键密度,k为瓶颈实际密度,b为参数,且b>0。3.根据权利要求1所述的一种基于行为趋向聚类和特征映射的多智能体可变限速控制方法,其特征在于,所述步骤S10中的道路安全奖励r
safet
表示为:表示为:其中,TTC
i
(t)表示两辆车相撞之前的剩余时间量,其中i为车辆编号,x
i
‑1(t)表示前车的位置,x
i
(t)表示后车的位置,x
i
‑1(t)
‑
x
i
(t)表示两车间的距离,v
i
(t)表示后车的速度,
v
i
‑1(t)表示前车的速度,v
i
(t)
‑
v
i
‑1(t)表示两车的相对速度,TTC
i
(t)在后车速度大于前车速度的时候才有意义,否则为无穷大,TTC
i
(t)表示在t时刻第i辆车的TTC,M表示瓶颈路段内的车辆数。4.根据权利要求1所述的一种基于行为趋向聚类和特征映射的多智能体可变限速控制方法,其特征在于,所述步骤S10中的全局奖励函数表示为:r
j
=ε1r
safety
+ε2r
efficiency
其中,R表示整条公路的全局奖励值,r
j
表示第j个智能体的奖励值,ω
j
表示第j个智能体奖励值权重,N为智能体个数,ε1和ε2为常数。5.根据权利要求1所述的一种基于行为趋向聚类和特征映射的多智能体可变限速控制方法,其特征在于,所述的S20具体包括:S21:通过GPS每30秒获取一次当前车辆的经、纬度以及海拔高度,确定当前车辆的位置信息,将车辆位置信息进行封装,封装的格式包括:车辆标识、速度、车辆GPS信息、时间戳;S22:对封装的数据进行归一化处理,生成道路的实时交通状态信息s,s信息包括:主路瓶颈上游的需求d
up
,匝道的需求d
ramp
,主路瓶颈上游的密度k
up
,主路瓶颈下游的密度k
down
,入口匝道的密度k
ramp
,主路瓶颈区域每辆车i的速度v
i
(k)和位置x
i
(k)。6.根据权利要求1所述的一种基于行为趋向聚类和特征映射的多智能体可变限速控制方法,其特征在于,所述步骤S30具体方法如下:S31:控制算法初始化演员神经网络Net
a
和批评家神经网络Net
c
;S32:每个时间步,可变限速控制的每个智能体i(一共有N个)同时与真实的道路场景进行交互,输入所有全局交通状态信息s,奖励值r;S33:每个智能体有m个可选动作,演员神经网络Net
a
生成每个智能体i的动作输出概率值结合参数再...
【专利技术属性】
技术研发人员:郑思,李志斌,黎萌,冯汝怡,王顺超,杨逸飞,
申请(专利权)人:东南大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。