当前位置: 首页 > 专利查询>清华大学专利>正文

一种基于时空融合的交通数据多模式缺失填补方法技术

技术编号:28376188 阅读:36 留言:0更新日期:2021-05-08 00:03
本发明专利技术公开了一种基于时空融合的交通数据多模式缺失填补方法,该方法包括:S1.基于不同时间点、不同位点的交通数据形成多个时间序列;S2.对时间序列进行分解,生成周期项、趋势项、残差项;S3.根据周期项、趋势项进行缺失值的时间维度上的初步估计;S4.将残差项作为输入,利用机器学习的方式进行残差的训练,以推断出缺失值的残差部分;S5.根据初步估计的缺失值、推断的缺失值的残差部分得到填补值。通过本发明专利技术,能够综合考虑交通数据的时空特点,对交通数据的缺失值的填补上实现更高的填补精度。

【技术实现步骤摘要】
一种基于时空融合的交通数据多模式缺失填补方法
本专利技术涉及交通、数据处理
,尤其涉及一种基于时空融合的交通数据多模式缺失填补方法。
技术介绍
智能交通系统可以利用实时监控和通信设施向驾驶员或交通管理机构提供丰富的信息并据此做出更好的决策来提高整体服务水平。通常智能交通系统依赖于各种数据收集设备来收集路网的交通数据,例如环路检测器,微波检测器,视频传感器,GPS设备等。但这些设备面临内在或外在环境的随机干扰,包括硬件或软件故障,网络通信中断,电源短缺,设备维护或恶劣天气等。这些中断导致设备无法上传交通数据,从而形成“数据缺失”的问题。数据缺失不仅降低了交通数据的质量,而且还弱化了交通参与者的决策能力,使其可能基于不完整的信息而做出错误的决策。现有的缺失数据填补方法多依赖于相邻数据以估计缺失部分。当缺失模式为随机缺失时,缺失值在时间和空间上随机分布,大多数填补方法能取得较好的结果。但数据收集设备面临非局部事件(例如端点、数据丢失和恶劣天气)时,数据缺失模式表现出群聚的特点,即数据在连续一段时间内完全丢失。此时需要无法利用相3聚和随机缺失的混合缺失模型,对数据填补方法提出了挑战。机器学习作为人工智能领域的一个分支,已在交通问题中有很多典型应用。机器学习的输入和输出之间没有明显的数学表达,但通过大量数据的训练后的模型可以高效反应变量之间的复杂非线性关系。在交通数据缺失填补领域,机器学习模型可以构造包含很多特征的数据点,缺失值体现在特征的缺失上。其主要思想是通过已知的特征去“预测”缺失的特征值,该过程通过一些经典的机器学习模型如人工神经网络和支持向量回归可以实现。另外一种思路是通过将原始数据构建为一个二维矩阵或高维张量。前者可以在数据矩阵上采用一些特殊的插值方法进行填充,或假设每行数据服从某种统计分布,进而用概率主成分分析等方法由隐向量来恢复缺失值。虽然这些方法能取得较好的填充效果,但是它们缺少对交通数据时空特性的进一步刻画,比如交通数据是有周期性和规律性的。考虑到交通数据的缺失模式也表现出较大复杂性,有某些情况下,一个数据点的所有特征可能全部缺失,使得一些经典的机器学习模型无法适用。
技术实现思路
鉴于上述问题,提出了本专利技术以便提供一种克服上述问题或者至少部分地解决上述问题的技术方案。因此,本专利技术的一个方面,提供了一种基于时空融合的交通数据多模式缺失填补方法,该方法包括:S1.基于不同时间点、不同位点的交通数据形成多个时间序列;S2.对时间序列进行分解,生成周期项、趋势项、残差项;S3.根据周期项、趋势项进行缺失值的时间维度上的初步估计;S4.将残差项作为输入,利用机器学习的方式进行残差的训练,以推断出缺失值的残差部分;S5.根据初步估计的缺失值、推断的缺失值的残差部分得到填补值。可选的,步骤S2包括:通过有限项数的傅里叶级数拟合生成周期项;通过拟合逻辑斯蒂增长模型生成趋势项。可选的,步骤S3中使用拟合后的模型初步估计各时刻的缺失值。可选的,步骤S4包括:S41.根据所述初步估计的一位点的缺失值、未缺失的时间序列分解生成的周期项和趋势项计算残差时间序列;S42.根据所有位点的残差时间序列重构残差矩阵;S43.根据初步估计的各位点的缺失值重构初步预测矩阵。可选的,步骤S4还包括:S44.将所述残差矩阵作为输入;S45.将所述残差矩阵中某一时间点的残差序列利用概率主成分分析法对缺失值相应部分的残差值进行空间维度的填补;S46.根据填补的所述残差值重构残差矩阵。可选的,所述步骤S45具体包括:采用概率主成分分析(PPCA)法对残差值进行缺失填补,其基本数学模式为:∈=Wτ+μ+∈′其中∈是一个p维的向量,τ是一个k维的隐向量(k<dd),W是d×k的投影矩阵,参数μ使保证∈的均值为0,∈′是残差的残差。可选的,如果∈是完整的,则采用主成分分析法直接计算W,W在∈′的协方差矩阵上进行奇异值分解得到;如果∈不完整,提取出缺失部分∈miss和非缺失残差∈obse分区;对于缺失部分,隐含变量通过最小化残差的残差得到,即min根据计算出的W,用最小二乘法得到隐含变量的最佳估计;根据隐含变量计算残差缺失值,本申请实施例中提供的技术方案,通过综合在时间维度上进行初步填补和在空间维度上进行残差填补,得到最终的填补值,以此考虑了交通数据的时空特点,实现了更高的填补精度。上述说明仅是本专利技术技术方案的概述,为了能够更清楚了解本专利技术的技术手段,而可依照说明书的内容予以实施,并且为了让本专利技术的上述技术方案和其目的、特征和优点能够更明显易懂,以下特举本专利技术的具体实施方式。附图说明通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本专利技术的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:图1示出了交通数据的四种缺失模式;图2示出了本专利技术提出的基于时空融合的交通数据多模式缺失填补方法的流程图;图3示出了基于时空融合的交通数据具体填补过程。具体实施方式下面将参照附图更详细地描述本专利技术的示例性实施例。虽然附图中显示了本专利技术的示例性实施例,然而应当理解,可以以各种形式实现本专利技术而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本专利技术,并且能够将本专利技术的范围完整的传达给本领域的技术人员。本专利技术采用体现交通数据不同特点的缺失填补方法,以进一步提高填补的精度。本专利技术提出了时空混合的框架以处理交通数据多模式的缺失问题。框架分成时间序列精细分解和空间模型填残差预测两部分。首先对不同位点的交通数据形成的时间序列进行精细化分解,包含周期项,趋势项,和异常项,周期项采用有限项数的傅里叶级数进行拟合,趋势项用自适应的分段函数进行拟合,异常项为前两项无法拟合的残差。通过时序的拟合可以得到缺失值的初步估计,为提高填补的精度,框架的空间模型部分以残差部分为输入,采用机器学习框架进行残差的训练,并推断出缺失值的残差部分。通过初步填补和残差填补的汇总,得到最终的填补值,以此考虑了交通数据的时空特点,并实现更高的填补精度。本专利技术首先将交通数据组织为矩阵的形式,矩阵的列代表某个位点的连续数值。缺失模式分成4种,如图1所示,分别为随机缺失,连续非完全缺失,连续完全缺失,混合缺失。其中,图1(a)示出了随机缺失模式,每一个数值以概率p完全随机缺失,不受其他因素影响。图1(b)示出了连续非完全缺失模式,连续非完全缺失中缺失值呈现出群聚的特点,表现为某些邻近位点在连续一段时间内同时缺失,常见原因如该段时间内某片区域内发生集体停电。图1(c)示出了连续完全缺失模式,连续完全缺失也表现出缺失值的群聚效应,但在某一个时刻,所有检测器全部停止工作,形成数据真空。这种情况下,无法通过临近的空间信息去推断缺失的值,而只能利本文档来自技高网
...

【技术保护点】
1.一种基于时空融合的交通数据多模式缺失填补方法,其特征在于,该方法包括:/nS1.基于不同时间点、不同位点的交通数据形成多个时间序列;/nS2.对时间序列进行分解,生成周期项、趋势项、残差项;/nS3.根据周期项、趋势项进行缺失值的时间维度上的初步估计;/nS4.将残差项作为输入,利用机器学习的方式进行残差的训练,以推断出缺失值的残差部分;/nS5.根据初步估计的缺失值、推断的缺失值的残差部分得到填补值。/n

【技术特征摘要】
1.一种基于时空融合的交通数据多模式缺失填补方法,其特征在于,该方法包括:
S1.基于不同时间点、不同位点的交通数据形成多个时间序列;
S2.对时间序列进行分解,生成周期项、趋势项、残差项;
S3.根据周期项、趋势项进行缺失值的时间维度上的初步估计;
S4.将残差项作为输入,利用机器学习的方式进行残差的训练,以推断出缺失值的残差部分;
S5.根据初步估计的缺失值、推断的缺失值的残差部分得到填补值。


2.根据权利要求1所述的方法,其特征还在于,步骤S2包括:通过有限项数的傅里叶级数拟合生成周期项;通过拟合逻辑斯蒂增长模型生成趋势项。


3.根据权利要求3所述的方法,其特征还在于,步骤S3中使用拟合后的模型初步估计各时刻的缺失值。


4.根据权利要求2所述的方法,其特征还在于,步骤S4包括:
S41.根据所述初步估计的一位点的缺失值、未缺失的时间序列分解生成的周期项和趋势项计算残差时间序列;
S42.根据所有位点的残差时间序列重构残差矩阵;
S43.根据初步估计的各位点的缺失...

【专利技术属性】
技术研发人员:李萌李会平郭娅明林犀
申请(专利权)人:清华大学
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1