一种基于马尔科夫模型的数据异常诊断方法技术

技术编号:21549886 阅读:35 留言:0更新日期:2019-07-06 22:39
本发明专利技术公开了一种基于马尔科夫模型的数据异常诊断方法,包括以下步骤:获取交叉口的车辆信息,定时计算数据延迟指标,并根据数据延迟指标判断是否出现数据延迟,若出现数据延迟则对所述车辆信息进行标记并结束本次数据异常诊断;否则定时计算数据缺失指标,根据数据缺失指标判断是否出现数据缺失,若出现数据缺失则对所述车辆信息进行标记并结束本次数据异常诊断;否则定时计算异常偏离指标,根据异常偏离指标判断是否出现异常偏离,若出现异常偏离则对所述车辆信息进行标记并结束本次数据异常诊断;否则直接结束本次数据异常诊断。本发明专利技术的数据异常诊断方法能够进行数据的实时异常监测,且监测的准确性高。

A Data Anomaly Diagnosis Method Based on Markov Model

【技术实现步骤摘要】
一种基于马尔科夫模型的数据异常诊断方法
本专利技术属于交通数据挖掘
,具体涉及一种基于马尔科夫模型的数据异常诊断方法。
技术介绍
随着交通检测设备的部署和普及,尤其是电子警察设备的应用,为城市交通管理积累海量的数据资源。同时,基于及时准确的电警数据,对于研究交通控制、车辆诱导、公交规划等技术起到至关重要的作用。但在实际道路交通环境中,电子警察检测的数据由于检测器故障、线路通信故障或者异常交通事件,导致其中部分数据属于异常数据。这些异常数据主要包括:1)数据延迟,这类主要由于线路通信故障导致数据的上传不及时;2)数据缺失,主要由于检测器临时故障或联网中断导致的;3)异常偏离,指临时的交通事件或设备问题导致的流量过大或过小。现有的数据异常检测大体可分为交通流理论分析、历史统计方法、趋势挖掘方法等。交通流理论分析是指设置某些交通流参数临界值,对超出临界值的交通流参数进行筛选的方法。历史统计方法可从历史数据中计算流量变化的区间,分析检测值发生异常的阈值范围。趋势挖掘方法利用机器学习的相关算法,计算流量的未来变化趋势以及发生概率特性,识别流量检测值的异常变化。其中交通流理论和历史统计两种方法不能动态地跟踪交通流量的变化趋势情况,无法准确地估计流量的合理区间:交通流理论方法受限于人工对交通流影响因素的手动调参精度,历史统计法则依赖于历史数据的全面和完整。如申请号为201510077183.1的专利文献公开了一种交通异常路段概率识别方法,采用历史统计方法计算各微波点车速、流量的均值和标准差,进而计算车速异常指数和流量异常指数,输出前K个最异常的路段预警。该方法给定的标准差范围涵盖了所有异常值,并不能结合实际的流量变化给出准确的波动区间。又如,申请号为201810585465.6的专利文献中公开了一种微波交通数据采集设备的异常值检测方法,采用对标准化的多维有效数据进行聚类,确定哪些类别的数据为异常数据。该方法采用固定的聚类类别并不能实时研判流量周期性的合理波动区间。
技术实现思路
本专利技术的目的在于提供一种基于马尔科夫模型的数据异常诊断方法,该方法基于趋势挖掘方法并结合交通自身的规律,提供一种分别对三类数据异常进行识别和实时监测的技术,提高数据异常监测的准确性和可靠性。为实现上述目的,本专利技术所采取的技术方案为:一种基于马尔科夫模型的数据异常诊断方法,所述的基于马尔科夫模型的数据异常诊断方法,包括以下步骤:S1、获取交叉口的车辆信息,所述车辆信息包括过车时间、车牌号码和行驶车道;S2、根据所获取的车辆信息,定时计算数据延迟指标,并根据数据延迟指标判断是否出现数据延迟,若出现数据延迟则对所述车辆信息进行标记并结束本次数据异常诊断;否则定时计算数据缺失指标并进入下一步;S3、根据数据缺失指标判断是否出现数据缺失,若出现数据缺失则对所述车辆信息进行标记并结束本次数据异常诊断;否则定时计算异常偏离指标并进入下一步,所述异常偏离指标的计算包括利用马尔科夫模型进行流量的概率分布预测,以及利用EM算法拟合概率分布得到对应的均值和标准差;S4、根据异常偏离指标判断是否出现异常偏离,若出现异常偏离则对所述车辆信息进行标记并结束本次数据异常诊断;否则直接结束本次数据异常诊断,所述异常偏离的判断包括以均值作为流量的预测值,标准差作为流量的合理分布阈值,判断数据是否出现异常偏离。作为优选,所述定时计算数据延迟指标,并根据数据延迟指标判断是否出现数据延迟,包括:设所述过车时间为t0,所述车辆信息上传至数据库的时间为t1,则数据延迟指标的计算方法包括:计算车辆信息上传至数据库的时间与过车时间的间隔t1-t0;预设允许的延迟时间阈值为α,若(t1-t0)≥α,则当前的车辆信息存在数据延迟;否则当前的车辆信息不存在数据延迟。作为优选,所述定时计算数据缺失指标,根据数据缺失指标判断是否出现数据缺失,包括:在日间时段,若[T0,T1]时间段内指定车道的流量q(t)=0,则数据缺失指标的计算方法包括统计该车道在T1时间前一小时内的总流量Q(t);若总流量Q(t)=0,则这一小时内的车辆信息存在数据缺失,其中T0和T1的时间间隔为ΔT;在夜间时段,若[T0′,T1′]时间段内指定车道的流量q(t)′=0,则数据缺失指标的计算方法包括统计该车道在T1′时间前三小时内的总流量Q(t)′;若总流量Q(t)′=0,则这三小时内的车辆信息存在数据缺失,其中T0′和T1′的时间间隔为ΔT。作为优选,所述利用马尔科夫模型进行流量的概率分布预测,包括:设车道流量的真实值为车道流量的预测值为前一相邻时间区间内车道流量的真实值为进口道平均车道流量的预测值为前一天当前时刻的进口道平均车道流量为且作为马尔科夫模型的观测序列,且作为马尔科夫模型的状态序列;根据一阶马尔科夫模型,得到车道流量的预测值的概率密度函数为:其中,X为车道流量预测值的分布集合;根据的概率密度函数得到的概率分布表。作为优选,所述根据的概率密度函数得到的概率分布表,包括:根据所述车辆信息,统计进口道平均车道流量状态转移矩阵车道流量状态转移矩阵和车道流量分配比例状态矩阵其中γn表示车道流量分配比例;获取结合的概率密度函数,按照进口道平均车道流量状态转移矩阵生成进口道平均车道流量的预测值将获得的进口道平均车道流量的预测值乘以车道流量分配比例γn,得到车道流量的预测值若前一相邻时间区间内车道流量的真实值qreal(t-1)与设定时间内车道流量的集合Qreal满足qreal(t-1)∈Qreal的关系时,则按照车道流量状态转移矩阵计算车道流量的联合概率分布,作为先验概率分布;若观测序列中存在的有效样本量大于等于3个,则根据全概率公式更新所述联合概率分布中各流量对应的概率值,得到后验概率分布,从而获得的概率分布表。作为优选,所述利用EM算法拟合概率分布得到对应的均值和标准差,包括:设时间间隔ΔT采集的车道流量的真实值为qlane,基于K阶混合高斯模型,计算流量的总样本量N=(max(qlane)-min(qlane))*K,其中max(qlane)为采集的车道流量的真实值的最大值,min(qlane)为采集的车道流量的真实值的最小值,K为混合高斯模型的总阶数;从所述的概率分布表中获取各流量对应的概率值p(qlane),并根据公式计算得到各流量对应的样本量并获得总样本量为N的车道流量值序列{q1,q2,…,qi,…,qN-1,qN},并整合样本量和车道流量值序列得到车道流量的概率分布函数P(qlane);假设P(qlane)服从K阶混合高斯模型,且样本间相互独立,则可得到其中K为混合高斯模型的总阶数,k表示第k阶高斯模型,αk为权重,且αk≥0,N(q;qk,σk)为高斯分布密度函数,qk、σk为分布参数,q为服从高斯分布密度函数N(qk,σk)的分布变量;采用EM算法迭代计算qk、αk和σk的值,并得到均值和标准差。作为优选,所述采用EM算法迭代计算qk、αk和σk的值,并得到均值和标准差,包括:E步:依据当前模型参数,计算样本数据qj属于每个分模型k的概率γjk,计算式为:M步:计算新一轮迭代的模型参数,计算式为:重复E步和M步的计算,直至qk、αk和σk的迭代差值小于阈值或者迭代次数小于阈值时,停止迭代,得到q本文档来自技高网
...

【技术保护点】
1.一种基于马尔科夫模型的数据异常诊断方法,其特征在于,所述的基于马尔科夫模型的数据异常诊断方法,包括以下步骤:S1、获取交叉口的车辆信息,所述车辆信息包括过车时间、车牌号码和行驶车道;S2、根据所获取的车辆信息,定时计算数据延迟指标,并根据数据延迟指标判断是否出现数据延迟,若出现数据延迟则对所述车辆信息进行标记并结束本次数据异常诊断;否则定时计算数据缺失指标并进入下一步;S3、根据数据缺失指标判断是否出现数据缺失,若出现数据缺失则对所述车辆信息进行标记并结束本次数据异常诊断;否则定时计算异常偏离指标并进入下一步,所述异常偏离指标的计算包括利用马尔科夫模型进行流量的概率分布预测,以及利用EM算法拟合概率分布得到对应的均值和标准差;S4、根据异常偏离指标判断是否出现异常偏离,若出现异常偏离则对所述车辆信息进行标记并结束本次数据异常诊断;否则直接结束本次数据异常诊断,所述异常偏离的判断包括以均值作为流量的预测值,标准差作为流量的合理分布阈值,判断数据是否出现异常偏离。

【技术特征摘要】
1.一种基于马尔科夫模型的数据异常诊断方法,其特征在于,所述的基于马尔科夫模型的数据异常诊断方法,包括以下步骤:S1、获取交叉口的车辆信息,所述车辆信息包括过车时间、车牌号码和行驶车道;S2、根据所获取的车辆信息,定时计算数据延迟指标,并根据数据延迟指标判断是否出现数据延迟,若出现数据延迟则对所述车辆信息进行标记并结束本次数据异常诊断;否则定时计算数据缺失指标并进入下一步;S3、根据数据缺失指标判断是否出现数据缺失,若出现数据缺失则对所述车辆信息进行标记并结束本次数据异常诊断;否则定时计算异常偏离指标并进入下一步,所述异常偏离指标的计算包括利用马尔科夫模型进行流量的概率分布预测,以及利用EM算法拟合概率分布得到对应的均值和标准差;S4、根据异常偏离指标判断是否出现异常偏离,若出现异常偏离则对所述车辆信息进行标记并结束本次数据异常诊断;否则直接结束本次数据异常诊断,所述异常偏离的判断包括以均值作为流量的预测值,标准差作为流量的合理分布阈值,判断数据是否出现异常偏离。2.如权利要求1所述的基于马尔科夫模型的数据异常诊断方法,其特征在于,所述定时计算数据延迟指标,并根据数据延迟指标判断是否出现数据延迟,包括:设所述过车时间为t0,所述车辆信息上传至数据库的时间为t1,则数据延迟指标的计算方法包括:计算车辆信息上传至数据库的时间与过车时间的间隔t1-t0;预设允许的延迟时间阈值为α,若(t1-t0)≥α,则当前的车辆信息存在数据延迟;否则当前的车辆信息不存在数据延迟。3.如权利要求1所述的基于马尔科夫模型的数据异常诊断方法,其特征在于,所述定时计算数据缺失指标,根据数据缺失指标判断是否出现数据缺失,包括:在日间时段,若[T0,T1]时间段内指定车道的流量q(t)=0,则数据缺失指标的计算方法包括统计该车道在T1时间前一小时内的总流量Q(t);若总流量Q(t)=0,则这一小时内的车辆信息存在数据缺失,其中T0和T1的时间间隔为ΔT;在夜间时段,若[T0′,T1′]时间段内指定车道的流量q(t)′=0,则数据缺失指标的计算方法包括统计该车道在T1′时间前三小时内的总流量Q(t)′;若总流量Q(t)′=0,则这三小时内的车辆信息存在数据缺失,其中T0′和T1′的时间间隔为ΔT。4.如权利要求1所述的基于马尔科夫模型的数据异常诊断方法,其特征在于,所述利用马尔科夫模型进行流量的概率分布预测,包括:设车道流量的真实值为车道流量的预测值为前一相邻时间区间内车道流量的真实值为进口道平均车道流量的预测值为前一天当前时刻的进口道平均车道流量为且作为马尔科夫模型的观测序列,且作为马尔科夫模型的状态序列;根据一阶马尔科夫模型,得到车道流量的预测值的概率密度函数为:其中,X为车道流量预测值的分布集合;根据的概率密度函数得到的概率分布表。5.如权利要求4所述的基于马尔科夫模型的数据异常诊断方法,其特征在于,所述根据的概率密度函数得到的概率分布表,包括:根据所述车辆信...

【专利技术属性】
技术研发人员:刘彦斌朱海峰韦学武温熙华龚方徽刘畅
申请(专利权)人:中电海康集团有限公司
类型:发明
国别省市:浙江,33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1