基于时空相关性的检测器缺失数据的填补方法技术

技术编号:21034266 阅读:38 留言:0更新日期:2019-05-04 05:25
本发明专利技术尤其涉及一种基于时空相关性的检测器缺失数据的填补方法;包括采用了时间维度和空间维度的空值填补方法弥补交通领域的缺失数据;本发明专利技术提供的基于时空相关性的检测器缺失数据的填补方法,既采用通过时间邻近或相似的数据进行空值填补,又采用通过空间邻近的数据进行空值填补,准确率高、实用性强而且处理效率高。

Filling up missing data of detector based on spatio-temporal correlation

【技术实现步骤摘要】
基于时空相关性的检测器缺失数据的填补方法
本专利技术属于智能交通系统(IntelligentTrafficSystems,ITS)领域,具体涉及基于时间相关性和空间相关性对检测器缺失数据进行空值填补的方法。
技术介绍
随着城市智能交通系统建设规模的不断扩大,交通数据采集的范围、广度和深度急剧增加,正在形成海量交通数据。然而,当前城市交通数据还存在着诸多问题,如因硬件故障、通信故障、软件故障而导致的数据缺失、数据不准确、数据异常等问题。这些数据无法从空间或时间领域全面得展现城市交通的真实情况,更无法为深层次的交通数据挖掘、政府交通管控提供可靠的数据支持。同时,城市交通数据的时间特性和空间特性使得缺失数据既与时间邻近的历史数据相关,又与空间邻近的相邻检测器的数据相关。因而,通过时间维度和空间维度的数据填补空值的方法,能有效地提高当前交通数据的数据质量,为交通领域的研究奠定夯实的基础。本专利技术所提供的基于时间相关性和空间相关性对检测器缺失数据进行空值填补的方法既采用通过时间邻近或相似的数据进行空值填补,又采用通过空间邻近的数据进行空值填补,准确率高、实用性强而且处理效率高。
技术实现思路
为了实现缺失数据的有效填补,本方法采用了时间维度和空间维度的空值填补方法弥补交通领域的缺失数据,包括以下步骤:步骤一:获取数据:S11、对检测器数据进行采样,获取城市道路中每个车道的流量数据、每个路口的地理信息数据以及各路口中各车道的基础信息数据;S12、计算各路口之间的欧几里得距离,根据欧几里得距离的数值,确定离目标车道最近的路口;S13、通过数据筛选、数据清洗和数据转换,形成各车道流量数据,其中,各车道的进口方向保持一致;S14、按照每五分钟设定一个时间点的方式,为每天设定288个时间采样点,确定时间维度的基准;S15、将检测器数据的获取时间与采样点时间校准、比对,获得检测器数据获取的标准时间采样点,保证数据在时间维度的完整性和一致性;如果同一时间采样点具有检测器的数据,则插入检测器的数据,否则,则将该时间采样点对应检测器的数据设为-1。步骤二:判断数据的缺失情况:S21、根据标准时间采样点中各检测器的数值是否为-1,判断某检测器数据是否存在缺失,如果存在缺失,继续判断,继续判断数据缺失的情况为单个检测器数据缺失或多个检测器数据缺失;S22、判断标准时间点的相邻检测器数据或同方向相邻路口的检测器数据是否存在数据缺失,若相邻检测器数据不存在缺失,判断为单个检测器数据缺失;若相邻检测器数据或同方向相邻路口检测器数据存在缺失,判断为多个检测器数据缺失;若缺失情况为单个检测器缺失,执行步骤三,采用空间维度的回归填补方法进行空值填补;若缺失情况为多个检测器缺失,则继续进行时间维度的判断;S23、判断单个检测器缺失数据在时间维度的缺失情况:若缺失时间点的前一时间点和后一时间点的检测器数据不为缺失,则判断为孤单缺失值,执行步骤四;若缺失时间点的前后时间点数据存在缺失,则认为该检测器的缺失情况为连续型缺失,执行步骤五。步骤三:单个检测器数据缺失的回归填补:将缺失检测器数据作为因变量,邻近检测器及同方向邻近路口的检测器数据作为自变量,将全部数据集划分为训练集和测试集,在训练集中,根据自变量、因变量的数量关系,利用最小二乘法,建立回归模型,在判断模型准确的前提上,根据回归方程,预测测试集中的因变量数据。步骤四:孤单缺失值的空值填补:如果标准时间点的单个检测器缺失数据为孤单缺失值,则采用该检测器前一标准时间点的数据进行空值填补。步骤五:连续型缺失的空值填补:如果检测器缺失数据为连续性缺失,则根据缺失数据当月的数据。计算当月各工作日及各休息日的小时平均值,即计算当月周一、周二、周三、周四、周五、周六、周天的小时平均值。根据检测器缺失所处的时间点为一周的哪一天以及一天中的哪一小时,采用缺失数据对应的小时平均值替代缺失值。步骤六:导出结果:将填补后的检测器数据,存入结果数据库。借由上述方案,本专利技术至少具有以下优点:城市交通数据并不孤立存在,城市交通数据之间往往存在着各种各样的约束,这些约束既包括时间维度的关联关系,也包括空间维度的关联关系,它们共同描述了城市交通数据的关联关系。本方法基于城市交通数据的时空特性,采用空间维度的空值填补方法及时间维度的空值填补方法进行空值填补,准确率高、实用性强而且处理效率高。上述说明仅是本专利技术技术方案的概述,为了能够更清楚了解本专利技术的技术手段,并可依照说明书的内容予以实施,以下以本专利技术的较佳实施例并配合附图详细说明如后。附图说明图1为本专利技术的流程示意图;图2为检测器数据在空间维度的空值填补步骤,即步骤三的流程示意图。图3为检测器数据在时间维度的空值填补步骤,即步骤四和步骤五的流程示意图;图4为采用空间维度的空值填补后的结果示意图,其中,点数据为真实数据,线数据为填补数据;图5为采用时间维度的空值填补后的结果示意图,其中,点数据为真实数据,线数据为填补数据。具体实施方式下面结合附图和实施例,对本专利技术的具体实施方式作进一步详细描述。以下实施例用于说明本专利技术,但不用来限制本专利技术的范围。以下将详细阐述具体的填补过程。步骤一:获取数据:对检测器数据进行采样,获取城市道路中各个车道在不同时间点的流量数据、每个路口的地理信息数据以及路口各车道的基础信息数据。其中,流量数据表的各字段、车道信息表、车道关联表的各字段定义见表1至表3所示:表1流量数据表中各字段的描述字段名称数据类型字段含义Flow_ValueNUMBER流量值DateDATE时间Signal_Dector_NoVARCHAR2检测器编号Signal_Cross_NoVARCHAR2检测器所在路口Time_LagNUMBER时间间隔表2车道信息表中各字段的描述表3车道关联表中各字段的描述字段名称数据类型字段含义Signal_Cross_NoVARCHAR2路口编号Signal_Device_NoVARCHAR2设备编号Lane_NoVARCHAR2车道编号Shape(COMPLEX)地理坐标根据流量数据表、车道信息表、车道关联表的关联关系,完善流量数据表的数据,为流量数据表增加车道进口方向、车道行驶方向等字段。其中,流量数据表中的时间间隔为5分钟。根据车道关联表中的shape字段获取各路口的地理坐标(xi,yj)i=1,2,3,……,n计算各路口坐标之间的欧几里得距离:根据欧几里得距离,找到离目标车道最近的路口,在空间领域的空值填补中,将采用邻近检测器和邻近路口的检测器数据进行空值填补。根据检测器所在路口,筛选同一进口方向的车道,获取同一进口方向的检测器及邻近路口同方向的检测器流量数据。对各路口的流量数据进行转换,形成以五分钟为时间间隔的流量数据表。举例而言,字段形式通过以下方式呈现:时间,路口1车道1(北进口左转车道),路口1车道2(北进口直行车道),路口1车道3(北进口右转车道),路口2车道1(北进口左转车道),路口2车道2(北进口直行车道),路口2车道3(北进口右转车道)。转换后的数据采用以下形式呈现:时间路口(1)车道(1)路口(1)车道(2)路口(1)车道(3)路口(2)车道(1)…路口(i)车道(j)Time1Time2Time3Time4Time5…本文档来自技高网...

【技术保护点】
1.一种基于时空相关性的检测器缺失数据的填补方法,其特征在于包括以下步骤:步骤一、获取数据:S11、对检测器数据进行采样,获取城市道路中每个车道的流量数据、每个路口的地理信息数据以及各路口中各车道的基础信息数据;S12、计算各路口之间的欧几里得距离,根据欧几里得距离的数值,确定离目标车道最近的路口;S13、通过数据筛选、数据清洗和数据转换,形成各车道流量数据;S14、将每五分钟设定为一个时间点,为每天设定288个时间采样点,固定每天的采样时间,设定每天的采样时间点,确定时间维度的基准;S15、将检测器数据的获取时间点与采样时间点的检测器数据相校准、比对,获得检测器数据获取的标准时间采样点,保证数据在时间维度的完整性和一致性;如果同一时间点采样点具有该检测器的数据,则插入该检测器的数据,否则,则将该时间采样点对应检测器的数据设为‑1。步骤二、判断数据的缺失情况:S21、根据采样点中各检测器的数值是否为‑1,若是‑1,则存在缺失,继续判断数据缺失的情况为单个检测器数据缺失还是多个检测器数据缺失;S22、判断标准时间采样点的相邻检测器数据或同方向相邻路口的检测器数据是否存在数据缺失,如果相邻检测器数据不存在缺失,判断为单个检测器数据缺失,如果相邻检测器数据或同方向相邻路口检测器数据存在缺失,判断为多个检测器数据缺失;S23、判断单个检测器缺失数据在时间维度的缺失情况:若缺失时间点的前一时间点和后一时间点的检测器数据不缺失,则判断为孤单缺失值,执行步骤四;若缺失时间点的前一时间点和后一时间点的检测器数据存在缺失,则判断该检测器的缺失情况为连续型缺失,执行步骤五。步骤三、单个检测器数据缺失的回归填补:将缺失检测器数据作为因变量,邻近检测器及同方向邻近路口的检测器数据作为自变量,将全部数据集划分为训练集和测试集,在训练集中,根据自变量、因变量的数量关系,利用最小二乘法,建立回归模型;在判断模型准确的前提上,根据回归方程,预测测试集中的因变量数据。步骤四、孤单缺失值的空值填补:如果标准时间点的单个检测器缺失数据为孤单缺失值,则采用该检测器邻近时间点的数据进行空值填补。步骤五、连续型缺失的空值填补:如果检测器缺失数据为连续型缺失,根据缺失数据附近数据的平均值进行填补。步骤六、导出结果:将填补后的检测器数据,存入结果数据库。...

【技术特征摘要】
1.一种基于时空相关性的检测器缺失数据的填补方法,其特征在于包括以下步骤:步骤一、获取数据:S11、对检测器数据进行采样,获取城市道路中每个车道的流量数据、每个路口的地理信息数据以及各路口中各车道的基础信息数据;S12、计算各路口之间的欧几里得距离,根据欧几里得距离的数值,确定离目标车道最近的路口;S13、通过数据筛选、数据清洗和数据转换,形成各车道流量数据;S14、将每五分钟设定为一个时间点,为每天设定288个时间采样点,固定每天的采样时间,设定每天的采样时间点,确定时间维度的基准;S15、将检测器数据的获取时间点与采样时间点的检测器数据相校准、比对,获得检测器数据获取的标准时间采样点,保证数据在时间维度的完整性和一致性;如果同一时间点采样点具有该检测器的数据,则插入该检测器的数据,否则,则将该时间采样点对应检测器的数据设为-1。步骤二、判断数据的缺失情况:S21、根据采样点中各检测器的数值是否为-1,若是-1,则存在缺失,继续判断数据缺失的情况为单个检测器数据缺失还是多个检测器数据缺失;S22、判断标准时间采样点的相邻检测器数据或同方向相邻路口的检测器数据是否存在数据缺失,如果相邻检测器数据不存在缺失,判断为单个检测器数据缺失,如果相邻检测器数据或同方向相邻路口检测器数据存在缺失,判断为多个检测器数据缺失;S23、判断单个检测器缺失数据在时间维度的缺失情况:若缺失时间点的前一时间点和后一时间点的检测器数据不缺失,则判断为孤单缺失值,执行步骤四;若缺失时间点的前一时间点和后一时间点的检测器数据存在缺失,...

【专利技术属性】
技术研发人员:张磊陶虹陈超伦熊懿清
申请(专利权)人:苏州城方信息技术有限公司
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1