一种交通数据弥补方法技术

技术编号:10506729 阅读:122 留言:0更新日期:2014-10-08 10:59
本发明专利技术公开一种交通数据弥补方法,该方法包括以下步骤:步骤S1:按照设定的交通数据缺失率对完整交通数据集进行随机缺失处理,获得缺失处理后的完整交通数据集;步骤S2:对缺失处理后的完整数据集和完整交通数据集进行归一化处理,得到归一化后的交通数据;步骤S3:对基于降噪堆式自动编码器深层网络结构的交通数据弥补模型进行训练,构建出弥补模型;步骤S4:调用弥补模型对输入的含缺失数据的不完整的交通数据进行弥补,得到弥补后的交通数据值。本发明专利技术将缺失数据和观测数据视为整体,以数据恢复的角度弥补交通数据,深度挖掘交通数据之间的结构关联,一次补全缺失数据,效率高,鲁棒性好。

【技术实现步骤摘要】
一种交通数据弥补方法
本专利技术属于智能交通系统领域,特别涉及一种基于降噪堆式自动编码器(DenoisingStackedAutoencoders)深层网络结构的交通数据弥补方法。
技术介绍
交通数据是交通领域应用和研究的基础。个体出行者的出行规划、研究者和政府部门的交通控制与管理均需要足够的交通数据作为支持。然而,采集自实际交通系统中的交通数据往往是不完整的数据,含有部分缺失数据。这些缺失数据的存在为交通分析和研究带来诸多不便。交通数据弥补旨在尽可能准确地填补这些缺失的数据,为交通领域的应用和研究提供足够的数据支持。现有的交通数据弥补方法主要有基于时间序列分析的方法,非参数回归方法和统计学习估计方法。基于时间序列分析的方法通常使用待弥补位置的历史交通数据建立一个预测模型并预测缺失位置的数据。非参数回归方法通常使用临近位置或者临近状态的数据来估计缺失位置的数据。统计学习估计方法通常使用观测数据学习一个模型并通过迭代的模式推测缺失的数据。上述这些方法在不同的应用场景中均表现出一定的应用价值。但是这些方法的弥补误差通常会随着数据缺失率的提高而增大。而且这些方法将观测数据和缺失数据分开对待,不能充分挖掘交通数据之间的结构关联。对于数据量较大的交通数据,这些方法的弥补效率不高。
技术实现思路
(一)要解决的技术问题本专利技术的目的是解决现有技术对于数据量较大的交通数据,弥补效率低的问题,提出一种基于降噪堆式自动编码器的深层网络结构的交通数据弥补方法。(二)本专利技术的技术方案本专利技术的一种交通数据弥补方法,包括以下步骤:步骤S1:按照设定的交通数据缺失率对完整交通数据集进行随机缺失处理,获得缺失处理后的完整交通数据集;步骤S2:对缺失处理后的完整交通数据集和完整交通数据集进行归一化处理,得到归一化后的交通数据;步骤S3:对基于降噪堆式自动编码器深层网络结构的交通数据弥补模型进行训练,构建出弥补模型;步骤S4:调用弥补模型对输入的含缺失数据的不完整的交通数据进行弥补,得到弥补后的交通数据值。(三)本专利技术的有益效果现有技术中目前还没有基于降噪堆式自动编码器的深层网络结构的交通数据弥补方法,本专利技术考虑深度挖掘交通数据之间的结构关联,高效率地弥补交通数据的方法,研究基于深层结构模型的交通数据弥补问题。本专利技术包括数据处理,深层网络训练,利用深层网络进行交通数据弥补。利用完整的交通数据,通过训练基于降噪堆式自动编码器的深层网络结构,得到一个深层结构的网络弥补模型进行交通数据弥补。本专利技术将缺失数据和观测数据视为整体,以数据恢复的角度弥补交通数据,深度挖掘交通数据之间的结构关联,能够一次补全缺失的交通数据,在不同的数据缺失率下保持稳定的弥补误差,弥补效率高,鲁棒性好。附图说明图1是本专利技术交通数据弥补方法流程图。图2是本专利技术获取交通数据弥补模型流程图。图3是降噪自动编码器结构示意图。图4是堆式自动编码器结构示意图。图5是本专利技术深层网络交通数据弥补模型结构图。具体实施方式下面将结合附图对本专利技术加以详细说明,应指出的是,所描述的实施例仅旨在便于对本专利技术的理解,而对其不起任何限定作用。如图1所示,本专利技术给出一种交通数据弥补方法,具体地,该方法包括以下步骤:步骤S1:按照设定的交通数据缺失率对完整交通数据集进行随机缺失处理,获得缺失处理后的完整交通数据集;所述完整的交通数据集来源于交通数据采集系统,可以通过线圈检测、视频检测等手段获取。获取的交通数据为每个观测点在一定时间间隔内的属性,例如流量,平均速度,平均占有率等。以下描述以交通数据中的流量为例说明。所述设定的交通数据缺失率是待弥补交通数据的缺失率。所述随机缺失处理是按照设定的交通数据缺失率,指定完整交通数据的缺失率,按照缺失率对完整交通数据进行随机缺失处理,记录缺失数据的位置,得到缺失处理后的完整交通数据集。随机缺失处理是随机地将完整交通数据中的部分数据置零,并使这部分数据与总数据的比例为设定的数据缺失率。此过程中记录缺失数据的位置。步骤S2:对缺失处理后的完整交通数据集和完整交通数据集进行归一化处理,得到归一化后的交通数据;所述归一化处理是选取完整交通数据集中交通数据的最大值Xmax,将缺失处理前后的完整交通数据集中的数据与最大值Xmax的比值作为归一化到[0,1]区间的交通数据。选取完整交通数据集中的最大流量值Xmax,则归一化后的交通数据x定义为:其中,x是归一化到[0,1]区间的交通流量值,X是归一化前的交通流量值,从而获得归一化的缺失前后的交通数据。步骤S3:对基于降噪堆式自动编码器深层网络结构的交通数据弥补模型进行训练,构建出弥补模型;附图2:获取交通数据弥补模型流程,包括以下步骤:步骤S31:按照交通数据的周期将归一化后的交通数据分组,得到多个缺失后交通数据组、多个缺失前交通数据组的输入输出数据对;具体的,给定归一化后的交通数据,指定交通数据的周期,通常为一天。按照周期分别将缺失后交通数据和缺失前交通数据分为N组,每组数据包含一个周期内的M个数据,则分别得到缺失前后的N×M个数据。对于每组缺失前的交通数据对应有一组缺失后的交通数据。对于N组缺失前的交通数据则有对应的N组缺失后的交通数据,即得到N对的输入输出数据对,所述N对是缺失后交通数据和缺失前交通数据。步骤S32:将得到的输入输出交通数据对分为训练集和测试集;具体的,将上述N对数据对分为训练集和测试集,其中训练集包含p对数据,测试集包含q即(N-p)对数据。步骤S33:根据一个周期内交通数据的个数设定深层网络的输入、输出交通数据维数,在限定范围内选取深层网络的隐层数、隐层节点数;设定深层网络的输入层神经元的个数、输出层神经元的个数都等于一个周期内交通数据的个数M,在限定范围内选取深层网络的隐层数、隐层节点数;选取Sigmoid函数作为深层网络的激活函数表示如下:其中,y为神经元的输出,x为神经元的输入。根据前向神经网络运算规则表示如下:其中,xj为某层第j个神经元的输入,ai为低一层第i个神经元的输出,wij为连接权重,bj为偏置量。步骤S34:在每个选取的深层网络结构上,利用训练集数据,非监督逐层训练深层网络中堆积的每个自动编码器的权重参数;附图4示出堆式自动编码器结构是由多个自动编码器堆积而成;其中,最底层自动编码器的输入是缺失后并归一化后的交通数据,单一自动编码器的输出目标和输入一致,图4右半部分虚线层表示单一自动编码器的输出层。低层的单一自动编码器训练完后获得输入到隐层的连接权重Wi,其隐层作为高一层自动编码器的输入层,同时也是堆式自动编码器的隐层i。具体的,单一自动编码器的训练过程为,给定训练集中数据对的输入数据{x(1),x(2),x(3),…,x(p)},其中x(i)(i=1,2,3,…,p)在此处表示训练集中第i对输入输出数据对的输入部分,自动编码器对输入x(i)按照公式(1)进行编码,获得编码数据y(x(i))表示如下:y(x(i))=f(W1x(i)+b)(1)并对输入x(i)依据公式(2)进行解码,获得解码数据z(x(i))表如下:z(x(i))=g(W2y(x(i))+c)(2)其中,单一自动编码器的输入层到隐层以及隐层到输出层的连接权重分别是W1、W2,偏置分别是b、c。f(x)和g(x)分本文档来自技高网...
一种交通数据弥补方法

【技术保护点】
一种交通数据弥补方法,其特征在于,该方法包括以下步骤:步骤S1:按照设定的交通数据缺失率对完整交通数据集进行随机缺失处理,获得缺失处理后的完整交通数据集;步骤S2:对缺失处理后的完整数据集和完整交通数据集进行归一化处理,得到归一化后的交通数据;步骤S3:对基于降噪堆式自动编码器深层网络结构的交通数据弥补模型进行训练,构建出弥补模型;步骤S4:调用弥补模型对输入的含缺失数据的不完整的交通数据进行弥补,得到弥补后的交通数据值。

【技术特征摘要】
1.一种交通数据弥补方法,其特征在于,该方法包括以下步骤:步骤S1:按照设定的交通数据缺失率对完整交通数据集进行随机缺失处理,获得缺失处理后的完整交通数据集;步骤S2:对缺失处理后的完整交通数据集和完整交通数据集进行归一化处理,得到归一化后的交通数据;步骤S3:对基于降噪堆式自动编码器深层网络结构的交通数据弥补模型进行训练,构建出弥补模型,所述基于降噪堆式自动编码器深层网络结构的交通数据弥补模型包括堆式自动编码器和恢复层,其中堆式自动编码器包括输入层,隐层1、隐层2、隐层3、以及它们之间的连接权重W1、W2、W3,恢复层的输入是堆式自动编码器最高层的隐层3,恢复层输出目标为缺失处理前的数据,形成一个降噪堆式自动编码器;步骤S4:调用弥补模型对输入的含缺失数据的不完整的交通数据进行弥补,得到弥补后的交通数据值。2.根据权利要求1所述的交通数据弥补方法,其特征在于,所述随机缺失处理是按照设定的交通数据缺失率,指定完整交通数据的缺失率,按照缺失率对完整交通数据进行随机缺失处理,记录缺失数据的位置,得到缺失处理后的完整交通数据集。3.根据权利要求1所述的交通数据弥补方法,其特征在于,所述归一化处理是选取完整交通数据集中交通数据的最大值Xmax,将缺失处理前后的完整交通数据集中的数据与最大值Xmax的比值作为归一化到[0,1]区间的交通数据。4.根据权利要求1所述的交通数据弥补方法,其特征在于,所选取交通数据的周期为一天。5.根据权利要求1...

【专利技术属性】
技术研发人员:王飞跃段艳杰吕宜生亢文文朱凤华刘裕良赵一飞
申请(专利权)人:中国科学院自动化研究所
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1