【技术实现步骤摘要】
基于邻居感知的多智能体强化学习的交通信号控制方法
[0001]本专利技术涉及交通控制
,更具体地说,涉及一种基于邻居感知的多智能体强化学习的交通信号控制方法。
技术介绍
[0002]ATSC(自适应交通信号控制)的目标是在实时道路交通测量的基础上自适应地调整信号相位以减少交通拥挤。
[0003]为了解决ATSC问题,现有一些工作利用集中训练分布式执行(CTDE)机制学习最优联合策略,解决多智能体协作问题。然而,由于联合动作空间随着智能体数量的增加呈指数增长,集中式学习难以扩展。在真实的城市交通环境中,可能有上千个交叉口共同协调以优化城市交通。将交通信号控制定义为分散的多智能体协同控制(MARL)更为自然,即每个交叉口由一个具有局部观测的单一智能体控制。
[0004]迄今为止,大多数现有的ATSC多智能体视角的工作都集中在基于分散优化的方法上,这些方法使用了来自其他协调智能体的局部观测和消息,将ATSC问题看作是一个全局层面或邻居层面的多智能体合作博弈,但是忽略了单个智能体之间的相互关系,通常是在基于图的 ...
【技术保护点】
【技术特征摘要】
1.一种基于邻居感知的多智能体强化学习的交通信号控制方法,其特征在于,所述方法包括:将自适应交通信号控制问题建模为邻居感知的马尔可夫博弈,根据道路网络将交叉口建模为连通的智能体;所述邻居感知的马尔可夫博弈中,智能体的观测被定义为交叉口和它的邻居信息;所有交叉口在时刻采取动作后所观察到的智能体的奖励定义为所有进入的队列中等待车辆的平均数量;运行交通控制交互环境;确定智能体与其连接邻居之间的相关性;根据智能体之间的相关性对各个分散的加强学习智能体的观测和奖励信息进行加权,得到更新后的观测和奖励信息;根据更新后的观测和奖励信息训练智能体,进而每个智能体进行交通信号分散控制;重复多次训练智能体,直至完成交通信号控制。2.根据权利要求1所述的一种基于邻居感知的多智能体强化学习的交通信号控制方法,其特征在于,确定智能体与其连接邻居之间的相关性,包括:根据其相邻交叉口的等待车辆数确定智能体与其连接邻居之间的相关性。3.根据权利要求2所述的一种基于邻居感知的多智能体强化学习的交通信号控制方法,其特征在于,根据其相邻交叉口的等待车辆数确定智能体与其连接邻居之间的相关性,包括:交叉口i和交叉口j在t时刻的相关系数c
ij(t)
定义为:其中n
max
是一个常数用来表示车辆的上限,在交叉口i的进入线中等待车辆的数量;L
i
是交叉口i的进车道集合。4.根据权利要求1所述的一种基于邻居感知的多智能体强化学习的交通信号控制方法,其特征在于,确定智能体与其连接邻居之间的相关性,包括:根据当前交叉口和相邻交叉口的奖励序列计算皮尔森相关系数,基...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。