TransformerLight基于序列建模的门控Transformer交通信号控制制造技术

技术编号：40322372 阅读：6 留言：0更新日期：2024-02-09 14:17

提供了基于TransformerLight模型的道路交叉口交通信号控制方法，包括：获取道路交叉口的历史轨迹数据，其中历史轨迹数据包括多个条目，每个条目包括道路状态、控制信息与奖励信息；从所述历史轨迹数据构造第一非结构化序列数据；将所述非第一结构化序列数据归一化，得到第一归一化序列数据；将所述第一归一化序列数据提供给TransformerLight模型，所述TransformerLight模型输出第一交通控制信息；向所述道路交叉口施加根据所述第一交通控制信息确定的交通信号相位。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及机器学习技术，具体地，涉及利用基于序列建模的门控transformer控制交通信号相位的方法及其信息处理设备。

技术介绍

1、随着交通需求的不断增加，提高现有交通基础设施的效率以减少城市拥堵和废气排放是至关重要的。其中，实时自适应交通信号就是提高我国城市交通网络效率的主要工具之一。然而，由于交通系统的复杂性和随机性，交通信号控制(tsc,traffic signalcontrol)仍然是一项具有挑战性的任务。

2、基于强化学习的机器学习技术已经在交通信号控制中应用。交通信号优化问题可以表述为马尔可夫决策过程(markov decision process,mdp)，其中，s代表道路状态集合，a代表交通信号控制动作集合，r代表奖励(如图1所示)。交通信号控制智能体决定在给定状态s∈s，采取的对交通信号的控制行为a∈a，以实现预期奖励最大。交通信号控制智能体是例如交通红绿灯控制设备或控制系统。中国专利申请cn107134156a提供了基于深度学习的智能交通灯系统及其控制交通灯的方法，中国专利申请cn109544913a提供了基于深度q网络学习的交通灯动态配时算法。中国专利申请cn113012432b提供了云计算与雾计算协同强化学习的交通红绿灯控制系统。

3、然而，由于复杂交通系统的随机性和非线性使得tsc的优化具有较大的挑战性。目前常见的tsc系统在很大程度上依赖于人类专家对交通信号设置的预定义操作，而这些操作并不适用于实时的动态交通流。因此，在这些传统的tsc方法之外开发新的机制来缓解交通拥堵并提高运输效率变得至关重要。

4、机器学习(ml，machine learning)框架尤其是深度学习(dl，deep learning)方法，凭借能够从观察到的数据中自动学习的能力在广泛的领域取得了巨大的成功。然而，tsc问题并不是一个典型的ml问题，因为现实世界中的交通系统是不断变化的，无法适用于指定数据的训练和测试过程。强化学习(rl，reinforcement learning)可以从交通环境的反馈中学习和调整策略，因此，强化学习(rl)结合深度学习(dl)的相关方法也在tsc中获得了较好的结果，尽管这些结果主要是理论层面或仅在实验室仿真环境中得到的。遗憾的是，这些与rl相关的方法需要经过不稳定且缓慢的训练过程后才能部署在真实十字路口环境中。此外，考虑到真实交通的安全性，大多数训练过程都是在仿真环境中进行的。据我们所知，现实世界中很少有交通系统采用与rl相关的tsc方法。

5、试错是传统rl模型训练过程的关键步骤，但离线rl抛弃了试错过程，尝试从先前的交互数据中直接学习策略，这种方式有助于克服传统rl方法的局限性。然而，离线rl本身面临着在线rl方法中不存在的问题，即分布转移。在线rl可以通过适当的探索策略来规避分布转移，但离线rl方法由于无法与真实环境交互，可能会导致策略值的高估，目前主要的解决方法是通过限制决策策略或降低策略q值来部分缓解这种数据分布偏移(out ofdistribution，ood)的情况。

6、当前，transformer(https://ai.googleblog.com/2017/08/transformer-novel-neural-network.html)已经成功地应用于包括bert和gpt在内的各种自然语言处理(nlp，natural language processing)应用程序，也显著地推进了计算机视觉(computervision,cv)领域的发展。

7、transformer神经网络模型本质上基于“编码器-解码器”结构，由带有残差连接的堆叠自注意力层组成。在编码器中，输入数据将首先通过一个自注意力层(attention())以获得具有额外权重的特征向量zatt(公式(1))。自注意力层使用线性转换将输入标记映射为向量，包括k、q和v：

8、

9、其中zatt是自注意力层的输出，score＝qkt和是用于稳定梯度的归一化分数。然后，zatt被发送到编码器的前馈神经网络(ffn)模块，该模块是由relu函数激活的两层完全连接的神经网络(公式(2))。

10、z＝ffn(zatt) (2)

11、此外，transformer在对输入向量进行编码时引入了位置编码(positionalencoding)的特性。因此，transformer可以区分不同位置的输入标记。

12、当前被广泛关注的gpt模型(https://s3-us-west-2.amazonaws.com/openai-assets/research-covers/language-unsupervised/language_understanding_paper.pdf)只使用transformer的解码器部分，并对transformer的解码器进行了一些改动(参看图2)。transformer的解码器包括多个串联的transformer模块，原本的解码器的每个transformer模块包含两个多头注意力机制层(multi-head attention)。gpt沿用了串联的多个(12个)transformer模块的结构，但每个transformer模块只保留了一个多头自注意力层。

13、gpt的每个transformer模块包括一个多头自注意力层(768维向量和12个注意力头)和一个前馈神经网络(feed forward)。

14、虽然大多数nlp和cv任务是基于数据标签的监督或半监督学习，但传统的rl的主要特点是通过奖励机制挑战决策，使得transformer在rl中的应用相对较少。近年来提出的decision transformer[https://openreview.net/forum？id＝a7apmm4b9d]和trajectorytransformer[https://proceedings.neurips.cc/paper/2021/hash/099fe6b0b444c23836c4a5d07346082b-abstract.html]能够在离线数据集(经验中收集)上进行训练，其利用的主要技术不是传统rl使用时序差分(td，temporal-difference)学习等策略，而是序列建模。这些transformer模型在各种决策系统中表现出了优于sota离线rl技术的性能，但尚未应用于tsc任务。

技术实现思路

1、现有技术的tsc方法的目前局限性总结如下：

2、·传统的rl方法在实际应用中需要反复试错的学习过程，学习成本过高

3、·离线rl方法在动态规划中仍然存在数据分布转移问题

4、·transformer模型尚未应用于tsc任务中用于正确的交通信号决策

5、为应对上述挑战，根据本申请的实施例做出了以下贡献：

6、·创新性地将tsc表述为一个序列建模问题，该模型具有由状态、本文档来自技高网...

【技术保护点】

1.道路交叉口交通信号控制方法，包括：

2.根据权利要求1所述的道路交叉口交通信号控制方法，还包括：

3.根据权利要求1或2所述的道路交叉口交通信号控制方法，其中

4.根据权利要求1-3之一所述的方法，其中，

5.根据权利要求1-4之一所述的方法，其中，

6.根据权利要求1-5之一所述的方法，其中，

7.根据权利要求1-6之一所述的方法，其中

8.根据权利要求1-7之一所述的方法，还包括：

9.训练用于产生交通控制信息的TranformerLight模型的方法，其中

10.一种信息处理设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的程序，其特征在于，所述处理器执行所述程序时实现根据权利要求1-9之一所述的方法。

【技术特征摘要】

1.道路交叉口交通信号控制方法，包括：

2.根据权利要求1所述的道路交叉口交通信号控制方法，还包括：

3.根据权利要求1或2所述的道路交叉口交通信号控制方法，其中

4.根据权利要求1-3之一所述的方法，其中，

5.根据权利要求1-4之一所述的方法，其中，

6.根据权利要求1-5之一所述的方法，其中，

<...

【专利技术属性】
技术研发人员：武强，
申请(专利权)人：北京小橙智算科技有限责任公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人