一种车联网下实现实时智能交通管理的分级决策方法技术

技术编号:21631992 阅读:32 留言:0更新日期:2019-07-17 12:07
本发明专利技术提供了一种车联网下实现实时智能交通管理的分级决策方法在路口利用周边局部交通环境信息进行实时的局部交通控制决策,而在一个更大的时间尺度上,云处理中心对全局交通环境进行观测,以提高全局交通性能为目标,利用学习技术估计得到每个路口决策系统的关键参数,并将这些参数反馈给各个路口,让各个路口根据反馈得到的系统参数调整决策算法,从而实现协同的智能交通管理。本发明专利技术提出了一种在不同时间尺度上的分级交通管理决策机制,实现了兼顾全局最优性和实时性的智能交通控制。

A Hierarchical Decision-Making Method for Real-time Intelligent Transportation Management Based on Vehicle Networking

【技术实现步骤摘要】
一种车联网下实现实时智能交通管理的分级决策方法
本专利技术涉及一种车联网中的实时智能交通管理决策方法,属于信息

技术介绍
随着信息和通信技术的发展,城市变得越来越智能化。车联网场景下智能交通管理是城市智能化需要解决的一个重要问题。通过现代通信信息技术和优化控制理论,根据获取的交通环境信息进行实时的交通管理控制,从而提高驾驶体验度、减少交通拥堵、降低交通事故和减少车辆污染排放,是智慧交通管理的重要目标。在实际复杂多变的车联网城市场景中,为了保证交通控制的实时性,传统的智能交通管理主要由路口计算节点根据周边的环境信息进行局部的交通信号智能控制。现有的方法利用深度强化学习技术,根据交叉路口周边环境的状态提取,通过学习的方式对路口交通信号进行实时控制。虽然上述深度学习技术可以很大程度降低交通控制决策的计算维度,但是很难实现交叉口之间的协作,并且无法将网络的全局最优性考虑进去。
技术实现思路
本专利技术的目的是提供一种在保证交通控制决策实时性的前提下,兼顾全局交通网络最优性的交通决策方法,以提高城市整体的交通性能。为了达到上述目的,本专利技术的技术方案是提供了一种车联网下实现实时智能交通管理的分级决策方法,其特征在于,包括以下步骤:步骤1、各个路口计算节点收集周边交通环境信息,提取当前路口状态信息,将第k个路口计算节点的状态信息定义为sk;步骤2、进行实时的局部交通控制决策,包括以下步骤:步骤201、定义第k个路口计算节点的优化目标收益函数为r(sk,wk,ak),则有:r(sk,wk,ak)=wk,1Dk(sk,ak)+wk,2Tk(sk,ak)+wk,3Ek(sk,ak)+wk,4Nk(sk,ak)式中,wk,1、wk,2、wk,3、wk,4表示权重,wk,1、wk,2、wk,3、wk,4组成权重向量wk=[wk,1,wk,2,wk,3,wk,4];Dk(sk,ak)表示第k个路口计算节点减少的总的车辆等待时长;Tk(sk,ak)表示第k个路口计算节点减少的车辆路上耗费的总时间;Ek(sk,ak)表示第k个路口计算节点车辆节省的总能耗;Nk(sk,ak)表示第k个路口计算节点通过的总车辆数目;各个路口根据上述目标收益函数、状态和决策的定义,将路口的交通决策问题建立为一个动态决策问题,即在给定当前的状态信息sk下,做出行为决策ak使得其长期的总收益最大,ak表示第k个路口计算节点所作的行为决策,包括路口交通信号灯控制决策和联网车辆的行为控制决策,建立求解动态决策问题的动态方程:式中,Qk(sk,ak)表示t时刻的状态值函数,状态值函数Qk(sk,ak)为t+1时刻的收益和最大的未来收益的加和;E[·]表示对随机变量求期望;Rk,t+1表示t+时刻第k个路口计算节点的收益随机变量;γ表示折扣因子;Sk,t+1表示t+1时刻第k个路口计算节点的状态;a′k表示第k个路口计算节点在状态Sk,t+1下的可能的行为决策;Sk,t表示t时刻第k个路口计算节点的状态随机变量;sk表示第k个路口计算节点某个具体的状态实例;Ak,t表示t时刻第k个路口计算节点的行为决策随机变量;ak表示第k个路口计算节点在t时刻的某个具体的行为决策实例;步骤202、根据步骤201建立的动态方程,利用深度强化学习算法估计出第k个路口的Q值表,即所有可能状态sk和行为决策ak对应的Qk(sk,ak)估计值,最后基于估计的Q值表,得到第k个路口计算节点所作的行为决策;步骤3、在比步骤2更大的时间尺度上,云处理中心收集全局的交通环境状态信息,进行交通协同管理,以提升全局交通性能为目标,利用学习优化算法得到各个路口的权重向量,并反馈给各个路口;步骤4、各个路口根据云处理中心的反馈更新自己目标函数的权重并回到步骤2。优选地,所述路口状态信息包括各个车道上的车辆数目和所处的位置、车道上等待的车辆队列长度、车道上车辆的当前等待时长、当前路口和邻近路口交通信号灯的相位状态。优选地,步骤201中,所述第k个路口计算节点车辆节省的总能耗Ek(sk,ak)为油耗和电耗加权和。优选地,步骤202中,利用DeepQ-Network算法求解步骤201建立的动态方程,即利用DeepQ-Network算法得到状态决策值Qk(sk,ak)的估计值。基于估计得到的所有可能的状态决策值Qk(sk,ak),最终得到第k个路口计算节点所作的行为决策,包括:1)创建一个神经网络用来近似状态值函数Qk(sk,ak);2)利用经验回放选择神经网络的训练样本,即将经验数据累积到一定量,然后随机抽取一批样本进行训练;3)神经网络第i次迭代的时候,最小化以下损失函数来更新神经网络参数:式中,θk,i表示第k个路口计算节点的神经网络在第i次迭代的时候的参数,每一次迭代都进行更新,而神经网络参数每C次迭代更新一次,rk表示第k个路口计算节点在状态sk和决策ak下对应的收益。优选地,步骤3中,所述全局的交通环境状态信息包括各个路口的交通情况。优选地,步骤3中,所述学习优化算法为DeepQ-Network算法。本专利技术提出了一种在不同时间尺度上的分级交通管理决策机制,实现了兼顾全局最优性和实时性的智能交通控制。附图说明图1为场景示意图,如图1所示,各个路口计算节点对局部的交通进行实时的控制决策,比如对路口交通信号状态和联网车辆行为进行控制,而在一个更长的时间尺度上,云处理中心利用全局网络信息调整各个路口决策系统的参数设置,从而实现协同的交通管理。具体实施方式下面对本专利技术的实施例作详细说明,本实施例在以本专利技术技术方案为前提下进行实施,给出了详细的实施方式和具体的操作过程,但本专利技术的保护范围不限于下述的实施例。本专利技术提出的一种车联网下实现实时智能交通管理的分级决策方法在路口利用周边局部交通环境信息进行实时的局部交通控制决策,而在一个更大的时间尺度上,云处理中心对全局交通环境进行观测,以提高全局交通性能为目标,利用学习技术估计得到每个路口决策系统的关键参数,并将这些参数反馈给各个路口,让各个路口根据反馈得到的系统参数调整决策算法,从而实现协同的智能交通管理。本专利技术具体包括以下步骤:步骤1、各个路口计算节点收集周边交通环境信息,提取当前路口状态信息,包括各个车道上的车辆数目和所处的位置、车道上等待的车辆队列长度、车道上车辆的当前等待时长、当前路口和邻近路口的相位状态等,将第k个路口计算节点的状态信息定义为sk;步骤2、进行实时的局部交通控制决策,包括以下步骤:步骤201、定义第k个路口计算节点的优化目标收益函数为r(sk,wk,ak),则有:r(sk,wk,ak)=wk,1Dk(sk,ak)+wk,2Tk(sk,ak)+wk,3Ek(sk,ak)+wk,4Nk(sk,ak)式中,wk,1、wk,2、wk,3、wk,4表示权重,wk,1、wk,2、wk,3、wk,4组成权重向量wk=[wk,1,wk,2,wk,3,wk,4],权重向量wk是第k个路口计算节点决策的系统参数,在一段时间内保持不变;ak表示第k个路口计算节点所作的行为决策,包括路口交通信号灯控制决策和联网车辆的行为控制决策;Dk(sk,ak)表示第k个路口计算节点减少的总的车辆等待时长;Tk(sk,ak)表示第k个路口计算节点减少的车辆路上耗费的本文档来自技高网...

【技术保护点】
1.一种车联网下实现实时智能交通管理的分级决策方法,其特征在于,包括以下步骤:步骤1、各个路口计算节点收集周边交通环境信息,提取当前路口状态信息,将第k个路口计算节点的状态信息定义为sk;步骤2、进行实时的局部交通控制决策,包括以下步骤:步骤201、定义第k个路口计算节点的优化目标收益函数为r(sk,wk,ak),则有:r(sk,wk,ak)=wk,1Dk(sk,ak)+wk,2Tk(sk,ak)+wk,3Ek(sk,ak)+wk,4Nk(sk,ak)式中,wk,1、wk,2、wk,3、wk,4表示权重,wk,1、wk,2、wk,3、wk,4组成权重向量wk=[wk,1,wk,2,wk,3,wk,4];ak表示第k个路口计算节点所作的行为决策,包括路口交通信号灯控制决策和联网车辆的行为控制决策;Dk(sk,ak)表示第k个路口计算节点减少的总的车辆等待时长;Tk(sk,ak)表示第k个路口计算节点减少的车辆路上耗费的总时间;Ek(sk,ak)表示第k个路口计算节点车辆节省的总能耗;Nk(sk,ak)表示第k个路口计算节点通过的总车辆数目;各个路口根据上述目标收益函数、状态和决策的定义,将路口的交通决策问题建立为一个动态决策问题,即在给定当前的状态信息sk下,做出行为决策ak使得其长期的总收益最大,建立求解动态决策问题的动态方程:...

【技术特征摘要】
1.一种车联网下实现实时智能交通管理的分级决策方法,其特征在于,包括以下步骤:步骤1、各个路口计算节点收集周边交通环境信息,提取当前路口状态信息,将第k个路口计算节点的状态信息定义为sk;步骤2、进行实时的局部交通控制决策,包括以下步骤:步骤201、定义第k个路口计算节点的优化目标收益函数为r(sk,wk,ak),则有:r(sk,wk,ak)=wk,1Dk(sk,ak)+wk,2Tk(sk,ak)+wk,3Ek(sk,ak)+wk,4Nk(sk,ak)式中,wk,1、wk,2、wk,3、wk,4表示权重,wk,1、wk,2、wk,3、wk,4组成权重向量wk=[wk,1,wk,2,wk,3,wk,4];ak表示第k个路口计算节点所作的行为决策,包括路口交通信号灯控制决策和联网车辆的行为控制决策;Dk(sk,ak)表示第k个路口计算节点减少的总的车辆等待时长;Tk(sk,ak)表示第k个路口计算节点减少的车辆路上耗费的总时间;Ek(sk,ak)表示第k个路口计算节点车辆节省的总能耗;Nk(sk,ak)表示第k个路口计算节点通过的总车辆数目;各个路口根据上述目标收益函数、状态和决策的定义,将路口的交通决策问题建立为一个动态决策问题,即在给定当前的状态信息sk下,做出行为决策ak使得其长期的总收益最大,建立求解动态决策问题的动态方程:式中,Qk(sk,ak)表示t时刻的状态值函数,状态值函数Qk(sk,ak)为t+1时刻的收益和最大的未来收益的加和;E[·]表示对随机变量求期望;Rk,t+1表示t+1时刻第k个路口计算节点的收益随机变量;γ表示折扣因子;Sk,t+1表示t+1时刻第k个路口计算节点的状态;a′k表示第k个路口计算节点在状态Sk,t+1下的可能的行为决策;Sk,t表示t时刻第k个路口计算节点的状态随机变量;sk表示第k个路口计算节点某个具体的状态实例;Ak,t表示t时刻第k个路口计算节点的行为决策随机变量;ak表示第k个路口计算节点在t时刻的某个具体的行为决策实例;步骤202、根据步骤201建立的动态方程,利用深度强化学习算法估计出第k个路口的Q值表,即...

【专利技术属性】
技术研发人员:罗喜良杨付乾
申请(专利权)人:上海科技大学
类型:发明
国别省市:上海,31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1