一种基于迁移强化学习的交通信号灯控制方法技术

技术编号:38847812 阅读:9 留言:0更新日期:2023-09-17 09:57
本发明专利技术公开了一种基于迁移强化学习的交通信号灯控制方法,涉及智能交通控制技术领域,本发明专利技术设计的基于模型的预训练算法,可以对下一状态的观测进行预测,为实现多交叉口之间的协作和知识共享,使用图卷积网络来获取当前路口及其邻居路口的特征信息,并且使用多头注意力机制来确定不同路口对当前路口的影响程度,从而更好地反映交通流的特征和规律。当训练新的路口时,利用预训练阶段训练的源策略来加速训练过程,使用概率分布的方式来选择最适合当前环境的源策略,能够在短时间内找到最佳的源策略,大大提高了数据效率,并降低了训练成本。本发明专利技术有效解决了当前一些基于深度强学习的交通信号控制算法存在的数据效率低、训练成本高等问题。练成本高等问题。练成本高等问题。

【技术实现步骤摘要】
一种基于迁移强化学习的交通信号灯控制方法


[0001]本专利技术涉及智能交通控制
,特别是涉及一种基于迁移强化学习的交通信号灯控制方法。

技术介绍

[0002]深度强化学习作为一种基于数据驱动的方法,可以从大量交通数据中学习到最佳的交通信号控制策略,以实现交通流的最优控制。但数据效率一直是强化学习领域和核心问题,深度强化学习算法需要通过反复尝试来学习最优策略,这需要进行大量的训练数据,而现有的基于深度强化学习的交通信号灯控制算法大多不具备从历史经验中提取决策知识的能力,所以存在着训练效率低,收敛速度慢等问题。
[0003]基于模型的策略迁移是目前常用到的一种提高数据效率的方法,该方法可以通过选择一个合适的源策略来加速新任务的学习过程,以弥补训练前期样本不足的问题。
[0004]但是直接进行策略复用存在如何选择源策略,要迁移哪些策略信息的问题,处理不好会出现源策略对新任务作用不大或者负迁移的情况。因此,如何选择或者处理迁移的源策略是亟需解决的技术问题。

技术实现思路

[0005]在基于深度强化学习的交通信号灯控制算法大多不具备从历史经验中提取决策知识的能力,所以存在着训练效率低,收敛速度慢等问题。为了提高训练效率,降低训练成本,本专利技术提出了一种基于迁移强化学习的交通信号灯控制方法,在提高训练效率,降低训练成本方面具有良好的理论和使用价值。
[0006]为此,本专利技术提供了以下技术方案:
[0007]本专利技术公开了一种基于迁移强化学习的交通信号灯控制方法,包括
[0008]将交通网络建模为图结构;所述交通网络中包括多个路口,每个路口为一个智能体,将与该路口相连的所有车道上的车辆数量和相位作为该智能体的观测;
[0009]对多种交通环境对应的模型进行预训练,得到训练好的多个源策略;所述模型的网络结构包括:MLP编码器、图卷积神经网络CNN、Q网络和自解码器;所述模型的输入为所述图结构中各智能体当前状态的观测;所述模型的输出为Q值和下一状态观测的预测值;每个模型为一个源策略;
[0010]利用训练好的源策略,对当前新的交通环境中要训练的模型进行迁移调优,在训练的每一时间步,选择一个源策略来加速新任务的学习过程;
[0011]利用当前新的交通环境中的迁移调优后的模型进行交通信号灯控制。
[0012]进一步地,所述图卷积神经网络中还包括:多头注意力机制。
[0013]进一步地,所述自解码器包括两层全连接网络。
[0014]进一步地,在选择预源策略时,根据公式使用概率的方式在不同的源策略之间进行选择,根据策略选择动作与环境交互更新策略。
[0015]进一步地,在迁移调优的过程中,以∈的概率基于预训练的源策略进行环境交互和动作选择,以1

∈的概率基于要训练的模型进行环境交互和动作选择,并且使用欧氏距离来计算预测的下一状态的观测和真实的下一状态的观测之间的距离。
[0016]进一步地,所述预训练过程包括:
[0017]对K个数据集进行训练,总共训练M个回合;
[0018]从环境中获得初始状态s;
[0019]从初始状态s中获得当前的观测值o;
[0020]智能体按照ε

greedy的策略选择动作;
[0021]智能体通过执行联合动作,获得奖励r,然后到达下一状态s


[0022]更新损失函数;
[0023]将训练得到的策略保存到模型池中。
[0024]进一步地,所述迁移模型的训练过程包括:
[0025]对所有的预训练模型参数取平均然后初始化要训练的策略θ0;
[0026]设定训练的回合数;
[0027]从环境中获得的状态s和当前观测o;
[0028]智能体以∈的概率根据概率分布P选择预训练的源策略,以ε

greedy的方式选择动作,以1

∈的概率选择当前要训练的模型,根据最大Q值选择动作;
[0029]对概率分布P进行更新;
[0030]智能体执行联合动作a,获得下一状态s

和奖励r;
[0031]将数据经验<s,a,r,s

>存储到经验池中;
[0032]使用损失函数对当前策略进行更新。
[0033]本专利技术的优点和积极效果:本专利技术设计的基于模型的预训练算法,可以对下一状态的观测进行预测,而且为实现多交叉口之间的协作和知识共享,本专利技术还使用图卷积网络来获取当前路口及其邻居路口的特征信息,并且使用多头注意力机制来确定不同路口对当前路口的影响程度,从而更好地反映交通流的特征和规律。当训练新的路口时,利用预训练阶段训练的源策略来加速训练过程,使用概率分布的方式来选择最适合当前环境的源策略,该方法能够使算法在短时间内找到最佳的源策略,大大提高了数据效率,并降低了训练成本。本专利技术有效解决了当前一些基于深度强学习的交通信号控制算法存在的数据效率低、训练成本高等问题。
附图说明
[0034]为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图做以简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
[0035]图1为本专利技术实施例中MDGN

Trans算法预训练过程的算法流程图;
[0036]图2为本专利技术实施例中MDGN

Trans算法迁移过程的算法流程;
[0037]图3为本专利技术实施例中迁移数据集1的分布图;
[0038]图4为本专利技术实施例中迁移数据集2的分布图;
[0039]图5为本专利技术实施例中迁移数据集3的分布图;
[0040]图6为本专利技术实施例中迁移实验一奖励训练曲线示意图;
[0041]图7为本专利技术实施例中迁移实验二奖励训练曲线示意图;
[0042]图8为本专利技术实施例中迁移实验三奖励训练曲线示意图。
具体实施方式
[0043]为了使本
的人员更好地理解本专利技术方案,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分的实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本专利技术保护的范围。
[0044]需要说明的是,本专利技术的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本专利技术的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于迁移强化学习的交通信号灯控制方法,其特征在于,包括:将交通网络建模为图结构;所述交通网络中包括多个路口,每个路口为一个智能体,将与该路口相连的所有车道上的车辆数量和相位作为该智能体的观测;对多种交通环境对应的模型进行预训练,得到训练好的多个源策略;所述模型的网络结构包括:MLP编码器、图卷积神经网络CNN、Q网络和自解码器;所述模型的输入为所述图结构中各智能体当前状态的观测;所述模型的输出为Q值和下一状态观测的预测值;每个模型为一个源策略;利用训练好的源策略,对当前新的交通环境中要训练的模型进行迁移调优,在训练的每一时间步,选择一个源策略来加速新任务的学习过程;利用当前新的交通环境中的迁移调优后的模型进行交通信号灯控制。2.根据权利权利要求1所述的一种基于迁移强化学习的交通信号灯控制方法,其特征在于,所述图卷积神经网络中还包括:多头注意力机制。3.根据权利权利要求1所述的一种基于迁移强化学习的交通信号灯控制方法,其特征在于,所述自解码器包括两层全连接网络。4.根据权利权利要求1所述的一种基于迁移强化学习的交通信号灯控制方法,其特征在于,在选择预源策略时,根据公式使用概率的方式在不同的源策略之间进行选择,根据策略选择动作与环境交互更新策略。5.根据权利权利要求1所述的一种基于迁移强化学习的交通信号灯控制方法,其特征在于,在迁移调优的过程中,以∈的概率基于预训练的源策略进行环境交互和动作选择,以1<...

【专利技术属性】
技术研发人员:张程伟刘欣李一鸿
申请(专利权)人:大连海事大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1