基于多层树状长短期记忆网络的大规模数据时空预测方法技术

技术编号:35184416 阅读:20 留言:0更新日期:2022-10-12 17:54
一种基于多层树状长短期记忆网络的大规模数据时空预测方法,首先对原始城市规模感知数据进行归一化、线性插值法填补缺失的数据预处理;然后通过对同一位置数据的信息熵、不同位置数据的互信息和冗余度数据分析,获取感知数据时间和空间相关性,从而确定每个地点上的数据自身的时间周期性以及任一地点数据和其余哪些位置数据在空间上最具相关性;再利用多通道奇异谱分析算法对短期数据进行重构,生成训练集用于训练基于深度学习的预测模型;在在线预测阶段,对预处理后的大规模城市感知数据,利用训练好的预测模型实现预测。本发明专利技术解决数据规模大和质量低的问题,大大提高预测准确度。确度。确度。

【技术实现步骤摘要】
基于多层树状长短期记忆网络的大规模数据时空预测方法


[0001]本专利技术涉及的是一种神经网络应用领域的技术,具体是一种基于多层树状长短期记忆 网络的针对城市规模交通、分类垃圾数据的时空预测方法。

技术介绍

[0002]智慧城市和物联网技术的发展,催生如智能交通系统、城市环境监测一系列应用。这 些应用从大规模的历史数据中提取特征,预测数据未来的时空趋势,对城市的发展具有重要 意义。现有的时空预测技术主要可以分为基于数学分析的方法和基于深度学习的方法。基于 数学分析的方法特点是计算量小,运行成本低,但是无法有效的处理城市级别的大规模数据; 除此之外,该方法不能捕捉复杂的非线性时空相关性,因此预测的准确率较低。基于深度学 习的方法对数据的质量要求严格,城市规模数据中的数据时间短、噪声和缺失现象都限制深 度学习方法的应用;且该方法通常无法同时提取数据的时间和空间的特征,导致预测结果不 准确,而且计算大规模的数据也会增加该方法训练和运行的成本。

技术实现思路

[0003]本专利技术针对现有技术的数据处理规模小、对数据质量要求高、无法充分提取数据的时 空相关性的缺陷和不足,提出一种基于多层树状长短期记忆网络的大规模数据时空预测方法, 利用大规模数据本身存在的时空相关性,通过信息熵计算和多通道奇异谱分析重构数据,进 而使用动态的多层树状长短期记忆神经网络进行训练,解决数据规模大和质量低的问题,大 大提高预测准确度。
[0004]本专利技术是通过以下技术方案实现的:
[0005]本专利技术涉及一种基于多层树状长短期记忆网络的大规模数据时空预测方法,首先对原 始城市规模感知数据进行归一化、线性插值法填补缺失的数据预处理;然后通过对同一位置 数据的信息熵、不同位置数据的互信息和冗余度数据分析,获取感知数据时间和空间相关性, 从而确定每个地点上的数据自身的时间周期性以及任一地点数据和其余哪些位置数据在空间 上最具相关性;再利用多通道奇异谱分析(MSSA)算法对短期数据进行重构,生成训练集用于 训练基于深度学习的预测模型;在在线预测阶段,对预处理后的大规模城市感知数据,利用 训练好的预测模型实现预测。
[0006]所述的原始城市规模感知数据是指:智慧城市应用中产生的多个位置上的时间序列数 据,例如,城市每个路段的每半小时的平均通行速度、车流密度,城市每个垃圾站点每天干、 湿、可回收、有害垃圾的量、城市噪音监测数据、城市空气污染监测数据。原始感知数据主 要包含不同位置上按照某种采集频率获取的相应感知数据时间序列,序列的长短根据系统开 始采集的时间可能较短。
[0007]所述的线性插值,即对于某一时刻缺失的数据,将其填充为前后时刻数据的平均数。
[0008]所述的时间和空间相关性是指:对于序列数据X=(v0,v1,...v
N
‑1),其n个时间单位
之 前的数据Y
n
=(v0‑
n
,v1‑
n,...v
N
‑1‑
n
),两者之间的时间相关性可以条件熵计算:H(X|Y
n
)= H(Y
n
,X)

H(X),其中:对于数据X和Y
n
构成的序列对,经过离散化后,P(y
n
,x)是离散化的 序列W中(y
n
,x)出现的次数,,x)出现的次数,对于数据(v0,v1,...v
N
‑1),将v
i
的连续值离散成Q个不相交的子区间,故原数据同 于(k0,k1,...k
N
‑1),k
i
∈[0,Q

1],s
j
表示离散值中j的出现次数,j∈[0,Q

1],X是的j概 率为
[0009]通过观察条件熵随着n的变化可以得到数据的时间周期,即条件熵最小值对应的n。 对于空间相关性,让和分别表示在位置l1和l2的数据,可以计算和的相互信息 其中:和的冗余度衡量空间相关性:对于每一个位置的数据,计算其与其余所有位置的数据的冗余度, 冗余度越高则说明两个位置的数据的空间相关性越高。
[0010]所述的多通道奇异谱分析算法是指:用表示在位置l
i
和时间t测量的数据的值, i∈{1,2,...,L},t∈{1,2,...,N},L是位置的总数,N是测量数据的总数。所有数据的数据都被 滞后并嵌入到一个矩阵中,该矩阵的窗口长为M:其中:X是一个行数为L*M,列数为N

M+1的矩阵,其自协方差矩阵C
X
=XX
T
是一个 L*M的分块Toeplitz矩阵:其中:矩阵C
ij
表示从l
i
和l
i
位置收集 的数据之间的滞后协方差矩阵。然后计算C
X
的特征值λ
K
和特征向量P
K
,其中较大的特征值对 应的特征向量反映原始数据的主要趋势,较小的特征值对应的特征向量反映噪声,可以将其 剔除;矩阵X的第t列X
t
在P
K
上的正交投影系数为:其中: 1≤t≤T

M+1,表示第k个特征向量在位置l
i
的分量,时间滞后为j,反映数据的空 间和时间变化,P
k
为时间空间经验正交函数(ST

EOF)。a
t,k
表示在X
t
上的权重,被称为第 k个时间空间主成分(ST

PC)。重构数据需要ST

EOF和ST

PC的共同参与。当第k个特征向 量重构时,得到为去除原始数据中的噪声, 选择前k个主成分重建数据:在数据重建过程中,对于每个位置,选择数据 相应的时间周期作
元的的输出。如果数据和的冗余度高,就认为两个位置具有空间相关性,则将的输出连接到将其记为第p层单元的连接方式与第一层的拓扑结构相同,此外每 个网络单元也将第p

1层对应的输出作为其输入之一。例如,单元也将作为输入。最 后,全连接层将最后一层树状长短期记忆网络的输出作为输入,得到所有位置最终的预测结 果。在模型的参数设计上,对于树状长短期记忆网络的输入长度T,使用数据的时间周期长度; 对于树状长短期记忆网络的层数P,由于多层的网络学习能力更强,因此选择两层的结构;对 于每个位置的空间最相关的其余位置数量,根据冗余度计算选取最高的5个位置。
[0020]本方法经过具体实际实验,在运行Ubuntu16.04LTS 64bit操作系统的计算机上,使用 PyTorch深度学习框架搭建了模型代码。本方法选取了两个数据集进行训练,分别是美国加利 福尼亚州交通数据集PeMS、上海徐汇区垃圾数据集。在训练过程中,每个数据集共计训练 200轮,初始的模型学习率设置为0.01,且每经过10轮本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于多层树状长短期记忆网络的大规模数据时空预测方法,其特征在于,首先对原始城市规模感知数据进行归一化、线性插值法填补缺失的数据预处理;然后通过对同一位置数据的信息熵、不同位置数据的互信息和冗余度数据分析,获取感知数据时间和空间相关性,从而确定每个地点上的数据自身的时间周期性以及任一地点数据和其余哪些位置数据在空间上最具相关性;再利用多通道奇异谱分析算法对短期数据进行重构,生成训练集用于训练基于深度学习的预测模型;在在线预测阶段,对预处理后的大规模城市感知数据,利用训练好的预测模型实现预测。2.根据权利要求1所述的基于多层树状长短期记忆网络的大规模数据时空预测方法,其特征是,所述的原始城市规模感知数据是指:智慧城市应用中产生的多个位置上的时间序列数据。3.根据权利要求1所述的基于多层树状长短期记忆网络的大规模数据时空预测方法,其特征是,所述的时间和空间相关性是指:对于序列数据X=(v0,v1,...v
N
‑1),其n个时间单位之前的数据Y
n
=(v0‑
n
,v1‑
n,...v
N
‑1‑
n
),两者之间的时间相关性条件熵计算:H(X|Y
n
)=H(Y
n
,X)

H(X),其中:对于数据X和Y
n
构成的序列对,经过离散化后,P(y
n
,x)是离散化的序列W中(y
n
,x)出现的次数,,x)出现的次数,对于数据(v0,v1,...v
N
‑1),将v
i
的连续值离散成Q个不相交的子区间,故原数据同于(k0,k1,

k
N
‑1),k
i
∈[0,Q

1],s
j
为离散值中j的出现次数,j∈[0,Q

1],X是的j概率为4.根据权利要求1所述的基于多层树状长短期记忆网络的大规模数据时空预测方法,其特征是,对于空间相关性,让和分别为在位置l1和l2的数据,计算和的相互信息其中:和的冗余度衡量空间相关性:对于每一个位置的数据,计算其与其余所有位置的数据的冗余度,冗余度越高则说明两个位置的数据的空间相关性越高。5.根据权利要求1所述的基于多层树状长短期记忆网络的大规模数据时空预测方法,其特征是,所述的多通道奇异谱分析算法是指:用为在位置l
i
和时间t测量的数据的值,i∈{1,2,...,L},t∈{1,2,...,N},L是位置的总数,N是测量数据的总数;所有数据的数据都被滞后并嵌入到一个矩阵中,该矩阵的窗口长为M:其中:X是一个行数为L*M,列数为N
...

【专利技术属性】
技术研发人员:朱弘恣李淳钦楼紫阳过敏意
申请(专利权)人:上海交通大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1