【技术实现步骤摘要】
一种基于PPO和图卷积神经网络区域交叉口信号控制方法
本专利技术涉及自适应交通信号灯协调控制领域,具体涉及一种基于PPO和图卷积神经网络区域交叉口信号控制方法。
技术介绍
随着人工智能的兴起,计算机视觉技术不断完善,强化学习、图卷积神经网络等智能新算法的不断兴起,实时获取交叉口交通信息并且基于数据驱动型算法快速稳定地计算出适应性强的信号控制方案成为实现交叉口信号高效稳定控制的有效新方法。多智能体方法与边缘计算相配合减少了硬件的计算负担,使控制变得更加实时可靠。强化学习算法在不断与环境交互中回去奖励最终自学习到一种相对较好的策略的性质很适合应用到对交叉口信号控制中,使得交叉口通过不断检测环境信息自学习到适应当前交通状态的控制策略。已有研究中,中国专利CN202010064330.2基于强化学习中的3DQN_PSER算法对交叉口进行信号控制,通过双Q网络来调整Q值的选择并使用竞争架构Q网络来微调网络结构,可以保证其应用到交叉口信号控制问题上算法具有很好的收敛性;中国专利CN202010034436.8基于深度循环Q学习构 ...
【技术保护点】
1.一种基于PPO和图卷积神经网络区域交叉口信号控制方法,其特征在于,包括如下步骤:/n步骤1、选择需要进行协调控制的交叉口构建交叉口协调控制区域,构建该区域的网络模型,并依此定义强化学习的状态、动作和奖励以及图卷积神经网络的特征矩阵;/n步骤2、依据PPO强化学习算法和图卷积神经网络构建区域交叉口分层信号控制模型;/n步骤3、构建仿真场景,运行仿真获取状态、动作和奖励相关数据存入回放经验池,并从回放经验池中提取处理数据构建训练数据集和测试数据集;/n步骤4、对区域交叉口分层信号控制模型进行训练,保留经过训练的模型最终参数;/n步骤5、依据训练好的区域交叉口分层信号控制模型 ...
【技术特征摘要】
1.一种基于PPO和图卷积神经网络区域交叉口信号控制方法,其特征在于,包括如下步骤:
步骤1、选择需要进行协调控制的交叉口构建交叉口协调控制区域,构建该区域的网络模型,并依此定义强化学习的状态、动作和奖励以及图卷积神经网络的特征矩阵;
步骤2、依据PPO强化学习算法和图卷积神经网络构建区域交叉口分层信号控制模型;
步骤3、构建仿真场景,运行仿真获取状态、动作和奖励相关数据存入回放经验池,并从回放经验池中提取处理数据构建训练数据集和测试数据集;
步骤4、对区域交叉口分层信号控制模型进行训练,保留经过训练的模型最终参数;
步骤5、依据训练好的区域交叉口分层信号控制模型对控制区域进行联合协同控制,对区域内各交叉口在下一阶段所要采用的信号相位进行集中管控分配。
2.根据权利要求1所述的基于PPO和图卷积神经网络区域交叉口信号控制方法,其特征在于,步骤1所述选择需要进行协调控制的交叉口构建交叉口协调控制区域,构建该区域的网络模型,并依此定义强化学习的状态、动作和奖励以及图卷积神经网络的特征矩阵,具体如下:
选择需要进行协调控制的网络区域I,I为区域内交叉口的集合,I=[i1,i2,...,in],其中,i1表示编号为1交叉口,n为协调控制区域内交叉口的数量;
控制区域内单个交叉口的状态由s表示,即为交叉口i1的状态,交叉口的状态由该交叉口各车道组上的车辆数和交叉口当前所出信号控制相位组成,s=[l1,l2,...,lz,c],l1为车道组1上的车辆数,z为交叉口中车道组的数量,c为该交叉口当前所处信号控制相位;
控制区域内单个交叉口的动作由a表示,即表示交叉口i1的动作,交叉口的动作为该交叉口在下一阶段要采取的信号控制相位;
控制区域内单个交叉口的奖励由r表示,即表示交叉口i1的奖励,奖励r为交叉口在s状态下采取动作a后获得的奖励,具体奖励形式为下一时间步长内通过交叉口的车辆总数;
step为单一时间步长;g(t)为时刻t时通过交叉口的车辆数;
控制区域的特征矩阵H为控制区域内各交叉口特征h的集合,即为交叉口i1的特征,单点交叉口特征h由该交叉口所处位置、各车道组车辆数、交叉口当前控制相位、交叉口下一时间步长要采用的控制相位组成,即h=[x,y,l1,l2,...,lz,c,a],x为交叉口的横坐标,y为交叉口的纵坐标,I为车道组的车辆数,z为车道组的数量,c为该交叉口当前所处信号控制相位,a为交叉口在下一时间步长选择的信号相位。
3.根据权利要求1所述的基于PPO和图卷积神经网络区域交叉口信号控制方法,其特征在于,步骤2所述依据PPO强化学习算法和图卷积神经网络构建区域交叉口分层信号控制模型,该控制模型具有上下两层结构,下层结构为基于PPO强化学习算法的单点交叉口控制模型,上层结构为基于图卷积神经网络的区域统筹控制模型,具体实现步骤如下:
步骤2.1、构建基于PPO强化学习算法的单点交叉口控制模型,该模型接受单点交叉口状态s,输出交叉口在该状态s下采取各个相位动作的概率和所能得到回报的期望值,该模型由Critic和Actor两个子模型构成,具体构建方法如下:
步骤2.1.1、构建Critic网络模型,Critic网络模型是一个由多层全连接层FC构建的神经网络模型,输入层为单点交叉口的状态s,输出为该交叉口在状态s下获得回报的期望值V(s),计算过程如下:
V(s)=[σ(FC(s))]m
式中,σ表示激活函数,用于神经网络全连接层之后,m为神经网络模型全连接层的层数;
步骤2.1.2、构建Actor网络模型,Actor网络模型也是一个由多层全连接层FC构建的神经网络模型,输入层为单点交叉口的状态s,输出为该交叉口在状态s下采取各个动作a的概率P(s),计算过程如下:
P(s)=[σ(FC(s))]d
式中,σ表示激活函数,d为神经网络模型全连接层的层数;
步骤2.2、构建基于图卷积神经网络的区域统筹控制模型,该模型输入为表示控制区域内交叉口拓扑结构的邻接矩阵A和步骤1中定义的特征矩阵H,输出为控制区域通过车辆总数的预测值gout,该模型构建关系如下:
Hp=σ(AHp-1Wp-1)
Hp为第p层图卷积层,H0=H,pend为图卷积的最终层;
邻接矩阵A为一个k×k大小的0-1矩阵,k为控制区域I内交叉口的数量,如果交叉口o和交叉口r相连,o,r∈I,表示交叉口o和r都在控制区域I中,A[o,r]=1,否则A[o,r]=0;
Wp为第p层的权重系数矩阵,为待训练的矩阵;
Δ为将矩阵展开为向量的操作;
FC为全连接层;σ为激活函数。
4.根据权利要求1所述的基于PPO和图卷积神经网络区域交叉口信号控制方法,其特征在于,步骤3所述构建仿真场景,运行仿真获取状态、动作和奖励相关数据存入回放经验池,并从回放经验池中提取处理数据构建训练数据集和测试数据集...
【专利技术属性】
技术研发人员:王昊,刘晓瀚,董长印,杨朝友,
申请(专利权)人:东南大学,扬州市法马智能设备有限公司,
类型:发明
国别省市:江苏;32
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。