本发明专利技术提供了一种系统化提升交通流数据质量方法,属于交通流数据处理技术领域,用于解决现有交通流数据修补精度较低的技术问题。本方法是针对交通流数据不同应用情况设计的一套提升数据的质量方法,包括异常数据的识别和修复方法的选择;通过交通数据在线和离线相结合,依靠数据完整性检验、方差检验、组合检验、阈值检验和零值检验,筛选出异常数据,然后通过数据的时间和空间相关性,对数据进行修复;本发明专利技术通过多种方法对异常数据进行筛选,克服了单一的阈值检验中数据筛选不完全的问题,同时运用组合检验,考虑交通流参数之间的关系,并根据异常数据的特点选择合适的数据修复方法,提高了数据修复的精准度,从而提高交通流数据的整体质量。
【技术实现步骤摘要】
本专利技术属于交通流数据处理,涉及一种系统化提升交通流数据质量方法。
技术介绍
1、随着道路上监视控制系统的应用,大量的交通数据得以采集,尤其是交通流数据,对研究人员进行道路运行情况的分析有较大的帮助,通过对交通流数据进行分析,可以对道路的运行情况进行探究,发现道路运行问题,可以说交通流数据是交通控制、管理、及评价应用与研究的基础。
2、然而,现有的一些检测器所获取的交通流数据中往往夹杂着许多被噪声污染或是缺失的数据,若直接对采集到的交通流数据进行应用,会导致出现分析结果与道路实际运行情况不匹配的问题。由于检测设备、检测手段、及检测方法的多样性,而且交通流是大量微观个体决策的群体涌现,因此其具有高度的复杂性和非线性。此外,数据在通过有线或无线网络传输的过程中,也会因电磁干扰或信道失稳等众多原因造成数据污染或丢失。显然,在数据获取过程中,造成数据质量低下的原因和环节众多且复杂,采集到的交通流数据中存在的问题可以概括为数据缺失,数据失真和数据异常三类,引起定点检测数据出错的原因主要有两方面:一方面是由于定点检测器在设备的安装、维护、数据传输过程中操作不当或者设备工作外场环境恶劣导致设备失灵而造成数据损失;另一方面是由于交通流异常,如车流异常密集,车流在检测器检测范围内频繁变换车道,导致设备不能正确识别从而出现失真数据和异常数据。
3、现有的数据质量提升方法有对所述待处理的交通数据进行识别,得到异常数据,然后采用k折交叉验证法对所述缺失数据进行补偿以及对错误数据进行修正;根据数据的相似性,去除冗余数据。
4、也有判断数据在时间上是否具有连续性,若具有连续性,即为时间连续数据,若不具有连续性,即为时间随机数据;判断时间连续数据是否有规律,若有规律,即为周期性数据,则利用时间相关性对异常数据进行修正,若无规律,即为非周期性数据,则利用异常数据同组的正常数据对异常数据进行修正;判断时间随机数据的异常数据规模是否超过预设阈值,若超过预设阈值,则直接舍弃该组数据,若不超过预设阈值,则将异常数据置零处理。
5、现有的解决方法几乎都是采用某一算法对所述缺失数据进行补偿;对错误的数据进行修正;根据数据的相似性,去除冗余数据。或者通过数据在时间上的连续性找到规律进而对数据进行补充,也有通过阈值来对数据的质量进行控制的方法;综合而言,目前针对交通数据的质量提升方法还面临如下的问题:
6、(1)对于交通数据的特点没有进行考虑,交通流数据包含流量、速度、及时间占有率三种参数,这三个参数的组合形式应符合交通流规律,若对此类关系考虑不足,会导致预测结果不符合实际运行规律的情况。
7、(2)因为流量、车速等交通参数并不是独立存在的个体,它们彼此之间存在一定的联系,故采用单参数阈值法独立评价各交通参数会导致数据质量评价不全面的问题。
8、(3)数据处理存在滞后的问题,部分针对交通数据的质量提升方法是通过对收集到的数据进行问题分类,然后利用各类算法或时间、空间等信息进行修复,但是无法在收集时便对数据进行区分,导致出现后续时间耗费较多的情况。
9、(4)数据修补的方法比较单一,仅通过一类方法进行修补,没有深入考虑某一方法是否适用于所有异常数据,导致出现数据修补精度不高的问题。
10、基于此,针对交通调查的数据在传输过程中可能会出现的数据异常情况,从而导致数据的质量存在问题,难以进行后续的数据分析;提出一种系统化提升交通流数据质量方法,对交通流数据的质量进行提升,提高数据修复精度,以便于后续的数据分析。
技术实现思路
1、本专利技术的目的是针对现有的技术存在上述问题,提出了一种系统化提升交通流数据质量方法,本专利技术要解决的技术问题是:如何提升交通流数据的质量。
2、本专利技术的目的可通过下列技术方案来实现:
3、一种系统化提升交通流数据质量方法,通过对采集到的交通流数据进行在线评价,筛选出缺失数据、异常数据和正确数据,然后通过离线评价计算数据的缺失率、错误率和日平均交通量变化率,最终对交通流数据进行修复从而提高数据的质量,具体步骤如下:
4、步骤一、数据完整性检验:在线检查原始数据的完整性,因为数据采集设备每5分钟上传一次数据包,所以每个站点每天应有的数据包数量是固定的,应为288个;通过统计每个站点每天的数据包数量,与每个站点每天应有的数据包数量对比,计算两者数量之差即可得到缺失的数据包数量。
5、步骤二、对完整的数据进行方差检验:检验速度、流量、时间占有率三个参数的方差是否为0,若为o,标记为异常数据。在实际工作中,会因为某些原因导致某个字段的数值一直为固定值;样本容量相同的情况下,方差越大,说明数据的波动性越大,越不稳定。因此,从数据的二阶特性出发,利用数据的二阶特性,通过方差计算评估出各字段数据的波动性。
6、步骤三、组合检验:对通过方差检验得到结果不为0的数据进行组合检验,根据交通流理论对异常组合的定义,对流量、速度、时间占有率进行组合判断,错误的组合形式为以下五种:v>0,q=0,o=0;v=0,q=0,o>0;v=0,q>0,o=0;v=0,q>0,o>0;v>0,q=0,o>0;其中v为速度,q为流量,o为时间占有率;之后将出现错误组合的数据标记为异常数据。
7、步骤四、阈值检验:组合判断之后进行阈值检验,阈值检验分为流量阈值检验、速度阈值检验、时间占有率阈值检验、跟车百分比阈值检验和车头间距阈值检验。异常高值的检验可通过设定阈值的方法进行识别,当数据超出设定阈值时,标记为异常数据。
8、4.1、流量阈值检验:定义流量检测值qd的合理范围:
9、其中,t为交通参数采集的时间间隔,fc为修正系数,一般取1.3~1.5,cmax为车道最大通行能力。由于车辆的计数是在一个相当短的时间内完成的(几十秒或几分钟),因此,qd的范围为道路的最大通行能力cmax与一定时间段的乘积,最小为0。
10、4.2、速度阈值检验:定义地点车速检测值vd的合理范围为:0≤vd≤fv×vmax;
11、其中,vmax为检测道路的限制车速,不同道路等级限制车速不同,fv为修正系数,一般取1.3~1.5。
12、4.3、时间占有率阈值检验:
13、时间占有率是指一定时间段内,检测器被车辆占用的时间与检测时间的比值。在交通量较小的情况下,相应的车速就高,单位时间内通过检测器的车辆较少,检测器的占有率低。随着交通量的增加,车速降低,单位时间内检测器被占有的时间较长,检测器的占有率就明显变高。一般情况下,占有率不会超过95%。因此,时间占有率筛选的阈值一般确定为95%。但是由于交通信号的存在,当车辆出现排队时容易出现高占有率,因此这种检测方法并不适用于信号控制交叉口道路。考虑到实际中的检测器大多设置在交叉口附近,基于对实际数据的分析,最终将时间占有率的阈值设置为100%。
14、4.4、本文档来自技高网
...
【技术保护点】
1.一种系统化提升交通流数据质量方法,其特征在于,本方法发的具体步骤如下:
2.根据权利要求1所述的一种系统化提升交通流数据质量方法,其特征在于,所述步骤四中,阈值检验的方法如下:
3.根据权利要求2所述的一种系统化提升交通流数据质量方法,其特征在于,所述平原地区的国道、省道、县道车头间距阈值均设置为2000m,山区及山岭地区的国道、省道、县道的国道、省道、县道车头间距阈值均设置为25000m。
4.根据权利要求2所述的一种系统化提升交通流数据质量方法,其特征在于,所述流量阈值检验过程中,fc取值范围为1.3~1.5;速度阈值检验过程中,fv取值范围为1.3~1.5。
5.根据权利要求1所述的一种系统化提升交通流数据质量方法,其特征在于,所述步骤六中,缺失率和异常率的计算方法如下:
6.根据权利要求1所述的一种系统化提升交通流数据质量方法,其特征在于,所述步骤六中,平均日交通流量变化率计算时,针对不同评价周期,平均日交通流量变化率可采用不同的周期进行计算,提出了以年、月、日为评价周期的计算方法:
7.根据权利要求1所述的一种系统化提升交通流数据质量方法,其特征在于,所述步骤七中,基于空间相关性的修复方法和基于时间相关性的修复方法如下:
...
【技术特征摘要】
1.一种系统化提升交通流数据质量方法,其特征在于,本方法发的具体步骤如下:
2.根据权利要求1所述的一种系统化提升交通流数据质量方法,其特征在于,所述步骤四中,阈值检验的方法如下:
3.根据权利要求2所述的一种系统化提升交通流数据质量方法,其特征在于,所述平原地区的国道、省道、县道车头间距阈值均设置为2000m,山区及山岭地区的国道、省道、县道的国道、省道、县道车头间距阈值均设置为25000m。
4.根据权利要求2所述的一种系统化提升交通流数据质量方法,其特征在于,所述流量阈值检验过程中,fc取值范围为1.3~1.5;速...
【专利技术属性】
技术研发人员:何巍楠,郑晓彬,周瑜芳,王聘玺,韩媛,陈佳琪,李逸伦,任文睿,张硕晨,尚妍,
申请(专利权)人:北京交通发展研究院,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。