基于车载电子标签数据质量控制的交通异常区段识别方法技术

技术编号:21343383 阅读:25 留言:0更新日期:2019-06-13 22:25
本发明专利技术公开了一种基于车载电子标签数据质量控制的交通异常区段识别方法,包括基于错误数据、冗余数据的初步数据检测和质量控制、基于交通流演变规律的数据质量控制、基于有效数据集的高速公路交通异常区段识别。首先对原始车载电子标签数据中的四类错误数据进行识别剔除,获取初步筛选数据集。其次对初步筛选数据中的两类冗余数据进行剔除以获取正确数据集。然后对正确数据集中的流量异常数据进行修复以获取有效数据集。最后借助有效数据集中的车牌号、流量、过车时间等属性,进行高速公路交通异常区段识别及收费系统优化设计,避免了噪声数据的干扰,确保了方案的合理性。

Traffic Abnormal Section Recognition Method Based on Vehicle Electronic Label Data Quality Control

The invention discloses a method for identifying traffic abnormal sections based on quality control of vehicle electronic label data, including preliminary data detection and quality control based on error data, redundant data, data quality control based on traffic flow evolution law, and identification of highway traffic abnormal sections based on effective data sets. Firstly, four types of error data in the original vehicle tag data are identified and eliminated to obtain the preliminary screening data set. Secondly, two kinds of redundant data in the preliminary screening data are eliminated to obtain the correct data set. Then the traffic anomaly data in the correct data set is repaired to obtain the valid data set. Finally, with the help of the properties of license plate number, traffic flow and passing time in the effective data set, the identification of abnormal sections of expressway traffic and the optimization design of toll collection system are carried out, which avoids the interference of noise data and ensures the rationality of the scheme.

【技术实现步骤摘要】
基于车载电子标签数据质量控制的交通异常区段识别方法
本专利技术属于智能交通领域,涉及一种基于车载电子标签数据质量控制的交通异常区段识别方法。
技术介绍
随着城市的不断发展,机动车数量逐年攀升,对有限的城市空间造成了巨大的交通压力,国内外各大城市均不同程度地面临着交通运行效率低下、交通事故频发等交通问题,而解决交通问题需以高质量的动态交通数据作为支撑。而车载电子标签技术作为一种无线通信技术,作为当前进行动态交通数据采集的重要途径,在获取交通数据方面具有造价低、识别快的特征,车载电子标签技术通过无线电讯号识别特定车辆并读写相关数据,无需识别系统与目标间建立机械或者光学接触即可实现车辆的自动辨识与追踪,可便捷地获取大量的交通数据。但受异常交通状况、不良天气及仪器故障等诸多因素影响,车载电子标签技术进行数据采集时易出现标签写入信息错误、传输通讯过程故障及数据重复采集等现象,导致采集的数据存在错误、冗余和异常,需借助异常数据识别修复提高数据质量。目前,数据的质量控制方法主要有三类:1)基于阈值判别法的错误数据识别;2)基于移动平均及历史数据的缺损数据识别;3)基于数据平滑及回归分析的异常数据识别。虽然前人就异常数据进行了充足的研究,但研究多集中于异常数据的识别,较少涉及数据的修复,在实际操作中进行数据修复仅是借助重复扫描以确认是否为元数据错误,对非元数据错误采用重复读取的方法进行修正,对错误数据仅进行简单的剔除。此外,数据的识别及修复具有严格的适用性,不同数据类型的识别修复方法也千差万别,目前在车载电子标签数据的质量控制方法上仍缺乏一套完整的、能够直接指导数据使用者实际工作的数据质量控制体系。国内也未对大量电子标签数据所隐含的交通规律进行深入研究,发掘数据背后所产生的效益,致使诸多城市对交通异常状态难以被有效识别,制定的交通管控方案缺乏全面的数据支撑。
技术实现思路
本专利技术提供了一种避免传统交通数据清洗带来的残缺与不合理,确保车载电子标签数据质量的基于车载电子标签数据质量控制的交通异常区段识别方法,为制定科学合理的交通管控措施提供了正确、全面的数据支撑。本专利技术的基于车载电子标签数据质量控制的交通异常区段识别方法,包括以下步骤:1)识别首位汉字异常数据、字符异常数据、汉字数量异常数据及后五位位数不足数据四类错误数据,对原始车载电子标签数据中的错误数据进行剔除,获取初步筛选数据集;2)识别重复数据、相似数据两类冗余数据,对初步筛选数据集中的冗余数据进行剔除,获取正确数据集;3)在正确数据集基础上,将固定时间汇集度下的流量转换为单位小时的标准流量,获取基站标准流量数据集;4)在标准流量数据集基础上,根据图基平滑法识别异常流量数据,并依据多元线性回归对异常流量数据进行修复;5)依据有效数据集中的过车时间、车牌号、流量数据,进行高速公路交通异常区段识别。进一步的,本专利技术方法中,所述步骤1)中的原始电子标签数据是指车辆驶过电子标签基站时,后台数据管理系统以固定的时间汇集度记录的过车数据,每条数据包括过车时间、车牌号、流量、车道编号。进一步的,本专利技术方法中,所述步骤1)中错误数据检测方法如下:1.1)对于原始车载电子标签数据中的某条车辆数据,判断其车牌号字符长度是否等于8,若不等于8,则进入1.2),否则进入1.3);1.2)判断字符长度是否大于8,若大于8则标记为“汉字数量异常数据”,进入1.5),若小于8则标记为“后五位位数不足数据”,进入1.5);1.3)判断车牌首汉字是否异常,若首汉字异常则将其标记为“首汉字异常数据”,进入1.5),否则进入1.4);1.4)判断车牌中是否包括特殊字符,若有则标记为“字符异常数据”,进入1.5),否则标记为“正确数据”,进入1.5);1.5)判断是否遍历所有原始电子标签数据,若未遍历则返回步骤1.1)对下一条数据进行判别,否则输出剔除“首汉字异常数据、字符异常数据、汉字数量异常数据、后五位位数不足数据”后的数据,并作为初步筛选数据集。进一步的,本专利技术方法中,所述步骤2)中冗余数据检测方法如下:2.1)将初步筛选数据集所包括的N个不同车牌号标记为P1,P2…PN,并将相同车牌号的过车数据按时间序列排序,具体为:对车牌号Pk包含的个过车时间,按时间排列为过车时间序列k为整数,取值范围[1,N];2.2)筛选出所有车牌号及过车时间均相同的数据,留下其中一条数据并将剩余的数据标记为“重复数据”,在初步筛选数据集中将所有“重复数据”剔除;2.3)对同一车牌号的过车时间序列进行差分,具体为:对车牌号Pk的车时间序列依据做差分,其中,为车牌号为Pk的车辆第j+1个过车时间与第j个过车时间的差分值,对于时间差分值小于阈值的数据,留下其中一条数据并将剩余的数据标记为“相似数据”,在初步筛选数据集中将所有“相似数据”剔除;2.4)判断是否遍历所有初步筛选数据集,若未遍历则返回步骤2.1)对下个车牌号的过车数据进行判别,否则输出剔除所有“重复数据、相似数据”后的数据,作为正确数据集。进一步的,本专利技术方法中,所述步骤3)中按照以下方式获取基站标准流量数据集:在正确数据集中,以T为时间汇集度,统计第t个时段经基站m、车道n的车辆数qmn(t),每个时段长度均为T,将称为第t个时段经基站i、车道j的标准流量,T0为单位标准时间,取1小时。进一步的,本专利技术方法中,所述步骤4)中按照如下流程识别流量异常数据:4.1)在标准流量数据中,取时段相邻的四组流量值分别为Qmn(t-2),Qmn(t-1),Qmn(t),Qmn(t+1),取中位数构造一次平滑序列其中t为时段编号、m为基站编号、n为车道编号;4.2)取的中位数作构造二次平滑序列4.3)令构造三次平滑序列4.4)计算与Qij(t)的均方根误差M表示标准流量数据集的数据量;4.5)对平滑序列借助RMSEij值进行修正,获取第t个时段,经基站i、车道j的最大、最小流量估计阈值分别为:4.6)若则认为第t个时段,经基站i、车道j的流量数据异常,需要修正,否则认为流量数据正常,无需修正。进一步的,本专利技术方法中,所述步骤4)中根据下式对异常流量数据进行修正:其中,m表示流量异常数据出现的时段;Cij(t)表示基站i、车道j在时段m的流量异常数据修正后的值;表示历史上r天,基站i、车道j在时段m的正常流量数据;a0为常数项;a1,a2,...,aM为回归系数;e为随机误差。原始车载电子标签数据一般包括过车时间、车牌号、流量、车道编号等多项属性,本专利技术以这些属性信息为基础对车载电子标签数据进行质量控制。一方面,从错误数据检测和冗余数据检测两个方面进行数据质量的初步控制。第一步,依据车牌号建立错误数据检测方法,对原始车载电子标签数据中的四类错误数据进行识别及剔除,获取初步筛选数据集;第二步,借助相同车牌的过车时间差分建立冗余数据检测方法,再对初步筛选数据集中存在的两类冗余数据进行识别及剔除,获取正确数据集。进一步地,数据初步质量控制的第一步是依据车牌号来建立错误数据的检测方法,通过该检测方法定义四类错误数据,进而对原始车载电子标签数据中的错误数据进行剔除以获取初步筛选数据集,错误数据检测方法构建步骤如下:Step1对于原始车载电子标签数据中的某条车辆数据,判断其车牌号字符本文档来自技高网
...

【技术保护点】
1.一种基于车载电子标签数据质量控制的交通异常区段识别方法,其特征在于,该方法包括以下步骤:1)识别首位汉字异常数据、字符异常数据、汉字数量异常数据及后五位位数不足数据四类错误数据,对原始车载电子标签数据中的错误数据进行剔除,获取初步筛选数据集;2)识别重复数据、相似数据两类冗余数据,对初步筛选数据集中的冗余数据进行剔除,获取正确数据集;3)在正确数据集基础上,将固定时间汇集度下的流量转换为单位小时的标准流量,获取基站标准流量数据集;4)在标准流量数据集基础上,根据图基平滑法识别异常流量数据,并依据多元线性回归对异常流量数据进行修复;5)依据有效数据集中的过车时间、车牌号、流量数据,进行高速公路交通异常区段识别。

【技术特征摘要】
2018.12.03 CN 20181146796031.一种基于车载电子标签数据质量控制的交通异常区段识别方法,其特征在于,该方法包括以下步骤:1)识别首位汉字异常数据、字符异常数据、汉字数量异常数据及后五位位数不足数据四类错误数据,对原始车载电子标签数据中的错误数据进行剔除,获取初步筛选数据集;2)识别重复数据、相似数据两类冗余数据,对初步筛选数据集中的冗余数据进行剔除,获取正确数据集;3)在正确数据集基础上,将固定时间汇集度下的流量转换为单位小时的标准流量,获取基站标准流量数据集;4)在标准流量数据集基础上,根据图基平滑法识别异常流量数据,并依据多元线性回归对异常流量数据进行修复;5)依据有效数据集中的过车时间、车牌号、流量数据,进行高速公路交通异常区段识别。2.根据权利要求1所述的一种基于车载电子标签数据质量控制的交通异常区段识别方法,其特征在于,所述步骤1)中的原始电子标签数据是指车辆驶过电子标签基站时,后台数据管理系统以固定的时间汇集度记录的过车数据,每条数据包括过车时间、车牌号、流量、车道编号。3.根据权利要求1所述的一种基于车载电子标签数据质量控制的交通异常区段识别方法,其特征在于,所述步骤1)中错误数据检测方法如下:1.1)对于原始车载电子标签数据中的某条车辆数据,判断其车牌号字符长度是否等于8,若不等于8,则进入1.2),否则进入1.3);1.2)判断字符长度是否大于8,若大于8则标记为“汉字数量异常数据”,进入1.5),若小于8则标记为“后五位位数不足数据”,进入1.5);1.3)判断车牌首汉字是否异常,若首汉字异常则将其标记为“首汉字异常数据”,进入1.5),否则进入1.4);1.4)判断车牌中是否包括特殊字符,若有则标记为“字符异常数据”,进入1.5),否则标记为“正确数据”,进入1.5);1.5)判断是否遍历所有原始电子标签数据,若未遍历则返回步骤1.1)对下一条数据进行判别,否则输出剔除“首汉字异常数据、字符异常数据、汉字数量异常数据、后五位位数不足数据”后的数据,并作为初步筛选数据集。4.根据权利要求1、2或3所述的一种基于车载电子标签数据质量控制的交通异常区段识别方法,其特征在于,所述步骤2)中冗余数据检测方法如下:2.1)将初步筛选数据集所包括的N个不同车牌号标记为P1,P2…PN,并将相同车牌号的过车数据按时间序列排...

【专利技术属性】
技术研发人员:李立志陈学钢张力
申请(专利权)人:江苏瑞福智能科技有限公司
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1