【技术实现步骤摘要】
一种长序列条件下的车辆异常时空数据检测方法及系统
[0001]本专利技术属于机器学习下的轨迹信息挖掘领域,具体而言涉及一种车辆异常时空数据挖掘模型训练方法。
技术介绍
[0002]随着传感器网络技术、通信技术和定位技术的发展与日臻成熟,各类定位设备与手机等移动智能终端的广泛应用,使移动对象(人、车辆、轮船、动物等)的位置相关信息得以大规模采集.该类位置数据包含了地理坐标、速度、方向以及时间戳等信息,并以时变进化的形式持续增加且快速更新,被称为轨迹大数据.鉴于轨迹大数据可以准确地记录相当长一段时间之内移动对象的活动情况,可以客观地反映出移动对象个体(或群体)的活动规律,继而引发了数据科学、社会学及地理学等众多领域的学者的普遍关注.相关的研究工作有助于人们更好地理解对象动态演化的移动行为,预测其未来的移动趋势,并为支持基于位置的社交网络、智慧交通管理、城市规划、军事侦察等应用领域提供有效服务。
[0003]目前我国的交通状况以北京,重庆,贵阳为主的三个城市拥堵情况较为突出,其中,重庆以通勤高峰拥堵指数2.260、通勤高峰 ...
【技术保护点】
【技术特征摘要】 【专利技术属性】
1.一种长序列条件下的车辆异常时空数据检测方法,其特征在于,包括以下步骤:采集车辆的时空数据为原始数据,以车辆时空数据作为分类标签,记录数据,并对车辆时空数据进行包括做重复值、缺失值、噪声值处理以及类型变换在内的数据预处理;其中噪声值处理是使用去噪自动编码算法对噪声数据进行清洗;对轨迹数据特征进行特征缩放;将特征缩放后的轨迹数据划分三等份,取其中一份输入GRU(门控循环单元)模型,并输出经变异后的变异轨迹数据;将变异轨迹数据、真实轨迹数据及预测轨迹数据输入Xgboost算法,训练出异常轨迹判别模型;调节参数,进行模型测试;评估新样本,完成异常时空数据检测。2.根据权利要求1所述的长序列条件下的车辆异常时空数据检测方法,其特征在于,所述车辆的时空数据包括:经度,纬度,速度,加速度,平均速度,时间戳在内的数据。3.根据权利要求1所述的长序列条件下的车辆异常时空数据检测方法,其特征在于,所述重复值处理、缺失值处理具体包括:在原始数据集中,存在缺失值和异常值,对于缺失值采用样本填充法或属性删除法,如果某一属性的缺失值比例不大,选择对有缺失值的样本进行填充,数值型数据采用均值填充,分类型数据采用众数填充;而如果某一属性的缺失值比例较大,选择删除该属性对应的所有数值;对于异常值的处理采用样本删除法,异常值根据3σ原则进行识别,进而删除存在异常值的样本。4.根据权利要求1所述的长序列条件下的车辆异常时空数据检测方法,其特征在于,所述使用去噪自动编码算法对噪声数据进行清洗,具体包括:无效属性处理、时间信息错误处理、信息量过少的轨迹路段处理,去噪自动编码算法提取关键特征;无效属性处理包括:由于不同的GPS设备产出自不同的设备厂商,且接口,适用范围各不相同,因此在对于部分的轨迹点数据记录中存在部分属性字段完全为0的情况,如:我们获取的车辆轨迹点数据中右转向灯、左转向灯和脚刹等参数值均为零。产生这种现象的原因是GPS设备上获取这些参数的连接线未与车辆连接。对于这类数据,我们将属于字段信息采集不完整(如属性值全为0),对研究分析的内容没有信息贡献的项予以剔除;时间信息错误处理:因正常行驶时运输车辆轨迹点数据的采集时间间隔大致相等,从初始时刻开始,依次计算轨迹点数据的相邻时刻差Δt=ti+1
‑
ti,若存在Δt≤0,则ti与ti+1为错误疑似点;再计算Δt=ti+2
‑
ti+1,若Δt也小于等于0,判定错误时间信息点是ti+1;若Δt大于0,则判定错误时间信息点是ti,予以剔除;清洗信息量过少的轨迹路段,清洗方法包括:分段、检查和舍弃,连续驾驶机动车超过4小时应停车休息,停车休息时间不少于20分钟。我们对数据集中大量的车辆数据进行观察,发现在一次运输活动结束后(即一条轨迹采集完成后),距离下一次GPS记录至少间隔两小时。因此可以设定一定的时间间隔阈值对GPS采集数据点进行轨迹分段;分段后,对每条轨迹点数据进行检查。判断轨迹点信息记录数量是否过少,将轨迹点数量少于某一特定阈值的轨迹认为是需要舍弃的轨迹;去噪自动编码算法提取关键特征,时序数据常常表现为高维度的特点,过多的冗余属性不仅徒增训练负担,还会对模型的预测效果带来负面影响。通过使用时序数据降维的方法对训练数据进行预处理,可以大幅减少冗余维度的数据,从而提高训练速度和预测性能,
去噪自动编码器DAE具有更好从原始数据中提取出关键特征的能力。5.根据权利要求1所述的长序列条件下的车辆异常时空数据检测方法,其特征在于,所述对轨迹数据特征进行特征缩放,具体包括:使用的特征标度是最小
‑
最大归一化即重标度,公式如式所示;最小
‑
最大归一化使所有值都在0和1之间。与标准化相比,最小
‑
最大归一化可以减少奇异值的影响。6.根据权利要求1所述的长序列条件下的车辆异常时空数据检测方法,其特征在于,所述通过GRU产生变异轨迹数据,包括以下子步骤:在数据集中选择三分之一的轨迹数据输入到GRU中,详细步骤如下:首先将轨迹点(T1,T2,
…
技术研发人员:常光辉,胡智鹏,陈阔,葛永新,李坤红,
申请(专利权)人:重庆邮电大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。