一种基于时空因果关系的城市感知数据处理方法技术

技术编号:23315162 阅读:38 留言:0更新日期:2020-02-11 17:49
本发明专利技术提供了一种基于时空因果关系的城市传感数据处理方法,用于修复车辆时空轨迹行为数据。本发明专利技术通过跳转图模型学习轨迹采集设备的空间相关性,并输出设备分布式向量表示用于后续处理;将噪声数据检测问题作为一个序列标记问题,通过双向LSTM的序列标注模型,检测错误数据和潜在缺失数据,对车辆轨迹点进行标注,利用基于双向LSTM的序列预测器来预测缺失的轨迹点;最后结合预测的缺失数据来修正错误的轨迹点。本发明专利技术方法实现自动检测含噪数据,并从时空因果关系的角度对缺失数据进行修复,以避免生成不合理的车辆轨迹,提高了错误轨迹数据修复的正确率。

A method of city perception data processing based on spatiotemporal causality

【技术实现步骤摘要】
一种基于时空因果关系的城市感知数据处理方法
本专利技术属于车辆时空轨迹行为数据处理
,具体涉及一种基于时空因果关系的城市感知数据的噪声处理方法。
技术介绍
城市感知是城市计算的基础,通过在不同的地理空间位置部署不同类型的传感器,实现对城市区域的自然环境和人文环境进行连续、协同的监测。随着传感技术的兴起,地理空间传感器收集了各种类型的时空数据,例如由感应环路检测器和远程交通微波传感器收集的交通流量数据,由基站收集的通信数据。此外,多传感器应用于现实中产生时空数据还包括气象监测、电气设备监控、天气预报、环境状态监视、安防监控等领域。然而,越来越多的报告表明由于恶劣的工作环境或不可控制的因素影响,如极端天气、设备故障和不稳定的通信信号,导致传感器采集的原始数据可能会偏离实际值或存在缺失值。电子警察和卡口系统是一种道路车辆智能监测和记录系统,电子交通卡口设备(ETBD)广泛部署在城市道路的交叉路口和高速公路路段,产生大量图像和文本格式的车辆轨迹数据,其中包括车牌号码、时间戳、车速和方向信息。虽然车牌自动识别(LPR)算法的精度越来越高,相机的像素也变得越来越高,但对来自九个不同设备厂商由早到晚收集的超过10万条数据进行人工标注发现,由于拍摄角度、光线、人为和车辆遮挡等原因,在实际场景中LPR的精度仍然不高于83%,这导致交通卡口设备收集的数据不是完全可靠的。因为电子警察系统收集的车辆轨迹数据为快速纠正交通违规、检测交通事故逃逸、机动车盗窃、伪造车牌以及交通量预测和交通规划提供了重要的技术手段和依据,因此提高数据准确性具有重要意义。目前,交管局有团队负责人工数据检查和纠正,但特别低效和耗时。因此,需要一种面向大规模的车辆轨迹行为数据的噪声处理、数据挖掘技术,以能显著地促进各种交通管理场景。现有的轨迹数据噪声滤波方法主要依赖于轨迹点之间的距离和行驶速度,其中大部分数据是由采样时间固定且采样时间较短的GPS传感器采集的,轨迹点由经纬度表示。电子警察采集是通过安装在指定位置的传感器来获取轨迹点,而且传感器的安装点分布不均匀,容易缺失数据。对于缺失数据,现有技术在时间序列中预测缺失数据,给出了数据丢失的位置,但与图像数据不同,轨迹数据有两个独特的属性:1)空间属性,由地理层次和距离组成;2)时间属性,由行驶时间和趋势组成;对于交通中车辆轨迹行为数据,轨迹数据缺失的时间仍不确定。在传统噪声数据清理中,数据质量的两个中心指标是一致性和准确性。数据库中的不一致和错误数据通常会出现为违反完整性约束的情况。这需要设定完整性约束,以建模数据的基本语义,但目前的工作很少研究这个问题。目前对约束进行的工作主要是基于传统的依赖关系,例如功能依赖关系和完全依赖关系等,主要为方案设计开发,但通常不足以捕获数据的语义。此外,对数据清理和数据库约束的正式研究主要集中在传统的关系数据库上,随着时空数据的规模正在迅速扩展,需要分布式文件系统或非关系数据库来管理和处理数据。目前关于空间轨迹噪声的滤波技术可分为三大类:1)均值(或中值)滤波:对于测量点ZI,估计的(未知)真值是ZI的均值(或中值),以及它的n-1前辈。但当轨迹点采样率很低,即两个连续点之间的距离可能大于几百米时,均值滤波和中值滤波不再是很好的选择。2)卡尔曼滤波和粒子滤波:卡尔曼滤波估计的轨迹是测量和运动模型之间的权衡,除了给出服从物理规律的估计外,卡尔曼滤波器还通过假设线性模型加高斯噪声来获得效率。粒子滤波放宽了这些假设,得到了一种更一般但效率较低的方案。然而,两者都取决于初始位置的测量。如果轨迹点上的第一点存在噪声,那么这两个滤波器的有效性就会显著下降。3)基于启发式的离群点检测:该方法根据行驶速度或距离直接从轨迹中去除噪声点。通过计算轨迹中每个点的行程速度,根据时间间隔、点与后继点之间的距离,以一个大于阈值的速度切断两个相邻点之间的段。基于距离的方法可以发现一个点在距离阈值内的邻居数小于点的p比例。所有这些方法都是为了处理GPS传感器产生的轨迹,其中相邻两个点之间的时间间隔是相同的,因此距离的数值波动并不特别大。然而,电子警察产生的轨迹数据由不同的设备采集,并以不规则的时间间隔进行采样,因此很难估计出上述启发式阈值。现有的因果关系数据挖掘技术主要集中在基于模式的方法上,其目的是应用模式挖掘技术从历史数据中提取频繁发生的现象。基于模式的方法可以快速地从历史数据中提取一组模式,例如频繁序列模式。频繁序列模式挖掘自提出以来,已成为一项重要的数据挖掘手段,它由在一组序列中频繁出现的子序列组成。针对序列模式挖掘,已提出了几种有效的算法,但这些频繁的模式只提供了对因果关系的浅薄理解,并且通常存在大量的频繁模式,这在很大程度上限制了模式集的可用性。
技术实现思路
针对目前智能交通系统中传感器存在分布不均匀、采样率低、故障率高等问题,使得所采集的大规模的车辆轨迹行为数据噪声大、可靠性差,靠人工纠错耗时耗力,本专利技术提供了一种基于时空因果关系的城市传感数据处理方法,实现自动检测含噪数据,并从时空因果关系的角度对缺失数据进行修复,以避免生成不合理的车辆轨迹。本专利技术的基于时空因果关系的城市传感数据处理方法,获取智能交通系统中传感器采集的数据,并从数据中获取车辆轨迹,然后执行如下步骤:利用skip-gram模型计算轨迹采集设备的空间相关性,得到轨迹采集设备的分布式向量表示;利用基于双向LSTM的序列标注模型,检测错误数据和潜在缺失数据,对采集的车辆轨迹点进行标注;所述的基于双向LSTM的序列标注模型,包含:分布式表示层,用于将轨迹点转换为分布式向量;Bi-LSTM层,用于编码输入的轨迹,捕获了各轨迹点的时空信息;推理层,根据Bi-LSTM层对轨迹点的编码值,预测每个轨迹点的标签;利用基于LSTM的序列预测模型计算缺失数据;利用数据修复模块,结合错误数据和缺失数据,对时空错位数据进行修复。所述的数据修复模块利用缺失的轨迹点来修复错误的轨迹点,包括:设第i个错误的轨迹点表示为trierror=(ei,ti,loci),其中,ei、ti、loci分别表示车辆的牌照号码、轨迹点发生时的时间戳、采集设备的识别码;设第j个候选的缺失轨迹点表示为trjmc=(ej,tl,tr,locj,cj),其中,ej表示车辆的牌照号码,locj表示采集设备的识别码,tl和tr分别表示缺失的轨迹点的前后轨迹点的时间戳,cj表示第j个候选的缺失轨迹点的置信度;利用缺失轨迹点trjmc来修复trierror,设得到一个修正的轨迹点triec=(ej,ti,loci),loci=locj;并利用匹配函数M(trierror,trjmc)来计算用trjmc来修复trierror的置信度;M(trierror,trjmc)=ReLU(cj(ti-tl)(tr-ti)D(ei,ej))其中,ReLU(·)表示直角线性单元,表示为:ReLU(x)=max(0,x);D(ei,ej)表示ei到ej的编辑距离。本专利技术根据时空因果关系对检测到的噪声数据进行修复本文档来自技高网
...

【技术保护点】
1.一种基于时空因果关系的城市传感数据处理方法,获取智能交通系统中传感器采集的数据,并从数据中获取车辆轨迹,然后执行:/n利用skip-gram模型计算轨迹采集设备的空间相关性,得到轨迹采集设备的分布式向量表示,为将轨迹点转化为对应的分布式向量提供数据基础;/n利用基于双向LSTM的序列标注模型,检测错误数据和潜在缺失数据,对采集的车辆轨迹点进行标注;所述的基于双向LSTM的序列标注模型,包含:分布式表示层,用于将轨迹点转换为分布式向量;Bi-LSTM层,用于编码输入的轨迹,捕获了各轨迹点的时空信息;推理层,根据Bi-LSTM层对轨迹点的编码值预测每个轨迹点的标签;/n利用基于LSTM的序列预测模型计算缺失的轨迹点位置;/n利用数据修复模块,结合错误数据和缺失数据,对时空错位数据进行修复;/n所述的数据修复模块利用缺失的轨迹点来修复错误的轨迹点,包括:设第i个错误的轨迹点表示为tr

【技术特征摘要】
20190916 CN 20191087158421.一种基于时空因果关系的城市传感数据处理方法,获取智能交通系统中传感器采集的数据,并从数据中获取车辆轨迹,然后执行:
利用skip-gram模型计算轨迹采集设备的空间相关性,得到轨迹采集设备的分布式向量表示,为将轨迹点转化为对应的分布式向量提供数据基础;
利用基于双向LSTM的序列标注模型,检测错误数据和潜在缺失数据,对采集的车辆轨迹点进行标注;所述的基于双向LSTM的序列标注模型,包含:分布式表示层,用于将轨迹点转换为分布式向量;Bi-LSTM层,用于编码输入的轨迹,捕获了各轨迹点的时空信息;推理层,根据Bi-LSTM层对轨迹点的编码值预测每个轨迹点的标签;
利用基于LSTM的序列预测模型计算缺失的轨迹点位置;
利用数据修复模块,结合错误数据和缺失数据,对时空错位数据进行修复;
所述的数据修复模块利用缺失的轨迹点来修复错误的轨迹点,包括:设第i个错误的轨迹点表示为trierror=(ei,ti,loci),其中,ei、ti、loci分别表示车辆的牌照号码、轨迹点发生时的时间戳、采集设备的识别码;设第j个候选的缺失轨迹点表示为trjmc=(ej,tl,tr,locj,cj),其中,ej表示车辆的牌照号码,locj表示采集设备的识别码,tl和tr分别表示缺失的轨迹点的前后轨迹点的时间戳,cj表示第j个候选的缺失轨迹点的置信度;利用缺失轨迹点trjmc来修复trierror,设得到一个修正的轨迹点triec=(ej,ti,loci),loci=locj;并利用匹配函数M(trierror,trjmc)来计算用trjmc来修复trierror的置信度;
M(trierror,tr...

【专利技术属性】
技术研发人员:邓攀
申请(专利权)人:北京航空航天大学
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1