一种基于自适应空间自注意力图卷积的交通预测方法技术

技术编号:28473721 阅读:42 留言:0更新日期:2021-05-15 21:41
一种基于自适应空间自注意力图卷积的交通预测方法属于交通领域和深度学习领域,提出一种自适应空间自注意力图卷积网络(ASSAGCN)用于交通预测。ASSAGCN的由2个残差块堆叠而成。每个残差块由一个图卷积模块(GCN)、一个多头空间自注意力模块(MHSSA)、一个门控融合模块(GF)和一个多感受野空洞因果卷积模块(MRDCC)构成。其中GCN基于连通性对路网的局部空间相关性进行建模;MHSSA用于捕获路网的隐含空间相关性,同时还能从全局聚合各个节点的信息;GF对GCN和MHSSA的输出进行融合;MRDCC用于建模时间相关性。输入层采用一个简单的全连接层将输入映射到一个高维空间提高模型的表达能力,输出层采用2个1

【技术实现步骤摘要】
一种基于自适应空间自注意力图卷积的交通预测方法


[0001]本专利技术属于交通领域和深度学习领域,具体涉及交通状况预测。

技术介绍

[0002]随着智能交通系统的快速发展,城市交通预测越来越受到人们的关注。准确、及时的交通预测,有助于出行者合理地规划出行路线,也有助于缓解交通拥堵,提高交通运行效率,对城市交通规划、交通管理和交通控制具有重要意义。然而,由于交通数据表现出复杂的时空相关性,交通预测问题一直是交通领域中一个具有挑战性的研究课题。
[0003]作为一种典型的时空预测问题,交通预测已经被研究了几十年。早期的交通预测方法主要是基于统计模型或简单的机器学习模型。统计模型中最具代表性的方法是自回归综合移动平均法(ARIMA)、向量自回归法(VAR)和卡尔曼滤波(KF),这些方法依赖于序列数据的平稳假设,然而在现实中这种假设往往是不成立的。此外,这些方法忽略了路网的空间相关性,因此预测精度较低。机器学习模型中最具代表性的方法包括K最近邻法(KNN)和支持向量回归(SVR),这些方法的预测性能很大程度上依赖于特征工程,而且没有考虑交通数据的空间相关性,不能充分挖掘大量交通数据之间复杂的时空模式,极大地限制了它们的性能。
[0004]近年来,深度学习在许多具有挑战性的学习任务中取得了突破性进展,受到这些工作的启发,越来越多的研究者将深度学习应用于交通预测中。Yu等人使用深度信念网络(DBN)进行短期交通速度预测;Jia等人提出了一种DBN与多层感知器(MLP)结合的速度预测模型;Lv等人采用堆叠自动编码器(SAE)提取交通特征,用于交通流预测。循环神经网络(RNN)及其变体(LSTM,GRU)也常被用于时间序列预测问题。Yan等人使用长短期记忆网络(LSTM)对66个路段的交通速度进行建模,然后利用该模型预测每个路段的出行时间;Fu等人使用门控循环单元(GRU)来预测短期交通流。然而,这些模型将来自不同道路的交通序列视为独立的数据流,没有利用交通数据中的空间信息,预测精度不高。为了同时捕获到交通数据的时间相关性和空间相关性,研究者们将循环神经网络(RNN)和卷积神经网络(CNN)相结合。Ma等人将交通数据当作图像来处理,利用CNN建模空间相关性,并利用RNN建模时间相关性。Yu等人将CNN与LSTM结合用于交通速度预测。然而,CNN只适合于处理欧式空间中的数据(如图像、视频等),而交通数据是一种典型的图结构数据,CNN不能有效地对交通路网的复杂拓扑结构进行建模。近几年图卷积神经网络(GCN)已经成为一个越来越活跃的研究领域,GCN将卷积算子从欧式空间的数据推广到图结构数据,在分子特征提取、人体动作识别、文本分类、点云分类等许多领域都取得了显著的效果。考虑到路网的图结构,一些研究者们利用GCN对路网的拓扑结构进行建模。Li等人提出了扩散卷积用于捕获空间相关性,为了同时捕获到时间相关性,他们用扩散卷积代替GRU中的全连接层,并采用机器翻译中的seq2seq结构进行交通速度预测。尽管取得了比较好的预测效果,但是循环神经网络在计算下一时刻的隐含状态时需要用到上一时刻的隐含状态,不便于并行计算,模型训练非常耗时,而且用seq2seq结构进行多步预测在解码阶段采用的是一种step

by

step的方式,这会
造成误差积累。为了克服循环神经网络计算速度慢的问题,Yu等人提出了时空图卷积网络(STGCN),将谱图卷积和1D卷积相结合,利用1D卷积建模时间相关性,虽然提高了计算速度,但普通的1D卷积没有考虑到输入序列时间上的先后顺序,而且采用的是预定义的邻接矩阵,无法对隐含的空间相关性进行建模。最近Wu等人提出了GraphWaveNet,他们采用可学习的邻接矩阵建模隐含的空间相关性,在建模时间相关性方面,他们采用空洞因果卷积,不仅增大了感受野而且考虑了输入时间序列的顺序。尽管取得了比较好的预测效果,但这种可学习的邻接矩阵在模型训练完成后便固定下来了,无法适应路网拓扑结构的动态变化。
[0005]尽管图卷积在交通预测任务中取得了显著的效果,但在建模空间相关性方面仍然存在一些值得研究的问题。首先,路网的拓扑结构可能会受到某些因素的影响而发生变化(例如某地举行马拉松、或者道路结冰亦或者是某路段发生交通事故导致这些路段暂时封锁),而现有的方法无论是基于预定义的邻接矩阵或者是采用可学习的邻接矩阵都无法捕捉到路网结构的动态变化。其次,由于图卷积只能堆叠有限层,因此只能聚合有限范围内的邻居节点信息,而无法建模全局空间相关性。对于大规模的图,仅采用图卷积效果不太理想。

技术实现思路

[0006]考虑到图卷积在空间上感受野有限以及路网中存在潜在的空间相关性,本专利技术将图卷积和多头空间自注意力机制相结合,提出了一种自适应空间自注意力图卷积网络(ASSAGCN),不仅能够捕获到路网中潜在的空间相关性,同时还能从全局聚合各个节点的信息,此外,由于自注意力机制中节点的相关性是根据输入数据计算得到的,因此可以很好地适应路网结构的动态变化。
[0007]本专利技术提出一种自适应空间自注意力图卷积网络(ASSAGCN)用于交通预测。ASSAGCN的模型结构如图1所示,它由2个残差块堆叠而成。每个残差块由一个图卷积模块(GCN)、一个多头空间自注意力模块(MHSSA)、一个门控融合模块(GF)和一个多感受野空洞因果卷积模块(MRDCC)构成。其中图卷积模块基于连通性对路网的局部空间相关性进行建模;多头空间自注意力模块用于捕获路网的隐含空间相关性,同时还能从全局聚合各个节点的信息;门控融合模块对GCN和MHSSA的输出进行融合;多感受野空洞因果卷积模块用于建模时间相关性。此外,输入层采用一个简单的全连接层将输入映射到一个高维空间提高模型的表达能力,输出层采用2个1
×
1的卷积层,其中第1个1
×
1的卷积层用于对特征维度进行衰减,第2个1
×
1的卷积层用于对时间序列的长度进行变换,使得模型能够适用于不同时长的交通预测。
[0008]本专利技术所提出方法的具体步骤如下:
[0009]1.数据预处理
[0010]本专利技术在PEMSD4和PEMSD8数据集上进行实验。PEMSD4数据集包含了2018年1月1日至2018年2月28日旧金山湾区307个环形检测器的交通数据(包括流量、速度、车道占用率)。PEMSD8数据集包含了2016年7月1日至2016年8月31日圣贝纳迪诺地区170个环形检测器收集的交通数据(包括流量、速度、车道占用率)。原始数据包括两部分,一部分是交通数据,另一部分是各个传感器之间的距离。数据预处理包括切分数据集制作训练、验证和测试样本以及图的构建。
[0011]1.1训练、验证和测试样本的制作
[0012]为了使训练过程更加稳定首先对原始数据进行归一化处理:
[0013][0014]其中m是原始数据X的平均值,σ
x
是原始数据X的标准差,X

是归一化后的数据。然后将归一化后的数本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于自适应空间自注意力图卷积的交通预测方法,其特征在于:1)数据预处理原始数据包括两部分,一部分是交通数据,交通数据包括流量;另一部分是各个传感器之间的距离;数据预处理包括切分数据集制作训练、验证和测试样本以及图的构建;1.1训练、验证和测试样本的制作为了使训练过程更加稳定首先对原始数据进行归一化处理:其中m是原始数据X的平均值,σ
x
是原始数据X的标准差,X

是归一化后的数据;然后将归一化后的数据按6:2:2的比例切分成3部分;对切分后的3部分分别采用窗口滑动的方式沿着时间维度滑动得到训练集、验证集和测试集,利用一小时的历史交通数据预测未来一小时的交通状况,因此时间窗口的大小取24,前面12个时间步作为输入,后面12个时间步作为标签;1.2图的构建图的构建也就是邻接矩阵的构建,原始数据是传感器之间的距离,采用阈值高斯核的方式进行处理得到邻接矩阵A,即:其中,A
i,j
表示邻接矩阵A的第i行第j列的元素,d
i,j
表示节点即传感器v
i
和v
j
之间的距离,σ
d
表示各节点间距离的标准差,ε是设定的阈值,设置为0.1;2)ASSAGCN模型构建基于图卷积的交通预测就是根据历史交通数据和路网的拓扑结构来预测未来的交通状况,用下式来定义:{X
t+1
,X
t+2

X
t+M
}=f(X
t

F+1
,X
t

F+2

X
t
,A)
ꢀꢀꢀꢀꢀ
(3)其中,X
t+1
,X
t+2

X
t+M
表示未来交通数据序列,X
t

F+1
,X
t

F+2

X
t
表示历史交通数据序列,M,F分别表示要预测的未来交通数据序列的长度和输入的历史交通数据序列的长度,t表示当前时刻,A是由公式(2)计算得到的路网的邻接矩阵,f表示交通预测模型;因此,交通预测问题描述为:给定历史交通数据序列X
t

F+1
,X
t

F+2

X
t
和路网的邻接矩阵A,需要找到一个函数f即交通预测模型将它们映射为未来交通数据序列X
t+1
,X
t+2

X
t+M
;提出的自注意力图卷积网络采用3个核心的模块来建模时空相关性,分别是:图卷积模块(GCN)、多头空间自注意力模块(MHSSA)和多感受野空洞因果卷积模块(MRDCC);其中GCN和MHSSA分别用于建模局部空间相关性和全局空间相关性,MRDCC用于建模时间相关性;2.1全连接层FC进行特征映射为了提高表达能力,首先利用全连接层(FC)将归一化后的数据映射到高维空间,即:X
FC
=W
I
X
I
+b
I
ꢀꢀꢀꢀꢀꢀ
(4)其中,X
I
表示全连接层的输入,W
I
表示全连接层的权重矩阵,b
I
表示偏置,W
I
和b
I
是可学习的参数,是在模型训练时中通过最小化化损失函数来迭代更新的,迭代更新方式将在模型训练部分说明;X
FC
表示全连接层的输出;
2.2空间相关性建模从两方面考虑空间相关性:路段之间的连通性即局部空间相关性和交通状况模式相似性即隐含的空间相关性;利用GCN根据路段之间的连通性从局部来聚合节点信息,利用多头空间自注意力机制根据不同路段交通状况的模式相似性从全局来聚合节点信息;(1)局部空间相关性为了捕获局部空间相关性,采用切比雪夫多项式的图卷积聚合邻居节点的信息,在谱理论中,图是用它的归一化拉普拉斯矩阵L来表示的:其中,I
N
是N
×
N的单位矩阵,N表示节点数,A是由公式(2)计算得到的邻接矩阵;D是度矩阵,它是一个对角矩阵,对角线元素为A
ij
是邻接矩阵A的第i行j列的元素;切比雪夫多项式形式的图卷积定义为:其中,Θ*G表示对图G中的信号x进行图卷积操作,是缩放后的归一化拉普拉斯矩阵,λ
max
是L的最大特征值,θ
k
(k=0,1,

K)是切比雪夫多项式的第k项的系数,它是可学习的参数,是在模型训练过程中通过优化损失函数不断迭代更新的,具体迭代更新过程在模型训练部分说明;的k阶切比雪夫多项式递归的定义为:的k阶切比雪夫多项式递归的定义为:采用k阶切比雪夫多项式聚合k阶邻居节点的信息;式(6)是对于一维图信号而言的,它也推广到多维图信号,首先将式(6)简记为:其中,表示式公式(6)中的那么对于多维图信号的图卷积定义为:其中,C
i
,C
o
分别表示输入通道数和输出通道数,即输入特征维度和输出特征维度,X
i
表示第i个输入通道特征,Y
j
表示第j个输出通道特征,Θ
ij
表示在计算第j个输出通道时对第i个输入通道进行的图卷积操作;(2)全局空间相关性采用空间自注意力机制来聚合邻居节点的信息;空间自注意力机制的计算步骤如下:1)对每个节点的特征向量用3个不同的矩阵W
Q
,W
K
,W
V
进行映射,得到3个向量Query,Key,Value,Query和Key的维度为d
k
,Value的维度为d
v
;其中W
Q
,W
K
,W
V
是可学习的参数矩阵,是在模型训练过程中通过优化损失函数不断迭代更新的,具体迭代更新过程在模型训练会详细介绍;用d表示节点特征向量的维度,则W
Q
和W
K
的形状为d
×
d
k
,W
V
的形状为d
×
d
v
;2)将每个节点的Query向量与所有节点的Key向量作内积,并经过softmax函数进行归一化得到该节点与所有节点的Attention Score;softmax函数将一个向量的各个元素压缩到0

1之间,softmax函数定义如下:
其中,z
i
表示向量的第i维,K表示向量的维度;为了使得训练时梯度更加稳定,在进行softmax归一化之前先除以一个缩放因子避免进入softmax函数梯度较小的区域,其中d
k
就是前面提到的Query和Key的维度;3)根据该节点与所有节点的注意力分数(Attention Score)对各个节点的Value向量进行加权求和;如果用N
×
d的矩阵X表示N个节点的特征向量矩阵,那么上述步骤简单的表示为矩阵相乘的形式:Q=XW
Q
ꢀꢀꢀꢀ
(10)K=XW
K
ꢀꢀꢀꢀꢀ
(11)V=XW
V
ꢀꢀꢀꢀꢀꢀꢀ
(12)其中,Q的形状为N
×
d
k
,它表示N个节点的Query向量构成的矩阵;...

【专利技术属性】
技术研发人员:张勇林锋胡永利尹宝才
申请(专利权)人:北京工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1