一种基于小波分析和半监督学习的车联网油耗数据质量评估方法技术

技术编号:16216996 阅读:71 留言:0更新日期:2017-09-15 23:15
本发明专利技术公开了一种基于小波分析和半监督学习的车联网油耗数据质量评估方法,包括以下步骤:步骤一:对数据进行预处理;步骤二:小波分析;步骤三:随机选取样本,由人工经验初步标注类别标签;步骤四:基于支持向量机的多分类器学习;步骤五:加入无标签的数据样本XUL,利用局部搜索策略进行半监督学习,更新分类器。本发明专利技术利用了小波分解的信号特点来构建油耗数据的属性特征,具有针对性且能有效地提高分类准确性和结论的可靠性。本发明专利技术多层小波分解得到的近似成分可以作为对数据有效的压缩过滤,细节成分能用于异常状况分析,为数据质量的类别划分提供可信的依据。

A method for evaluating fuel consumption data of vehicle networking based on wavelet analysis and semi supervised learning

The invention discloses a network fuel consumption data quality assessment based on wavelet analysis and semi supervised learning based on the car, comprises the following steps: data preprocessing; wavelet analysis; two steps: step three: randomly selected samples by artificial experience preliminary annotation category labels; step four: Support Vector Classifier Machine Based Learning; step five: XUL added unlabeled data samples, semi supervised learning using local search strategy to update the classifier. The invention utilizes the signal characteristics of the wavelet decomposition to construct the attribute characteristics of fuel consumption data, and has the pertinence, and can effectively improve the classification accuracy and the reliability of the conclusion. The approximate component obtained by the multi-layer wavelet decomposition can be used as an effective compression filter for the data, and the detail component can be used for the analysis of abnormal conditions, providing a reliable basis for the classification of data quality.

【技术实现步骤摘要】
一种基于小波分析和半监督学习的车联网油耗数据质量评估方法
本专利技术方法涉及车联网数据采集和数据质量控制领域,尤其涉及一种用于车联网背景下车辆油耗数据质量评估的方法。
技术介绍
随着车联网技术的发展和数据挖掘技术的愈发成熟,车联网的海量数据已经在商业,路网的设计规划等领域体现出巨大的潜在价值。这些海量数据的传输和存储方案、知识挖掘,数据质量的控制都是亟待研究和解决的问题。由于油位传感器和现有的车联网数据终端的局限性,相对于误差较为稳定、精准的GPS定位数据、车辆速度等数据,车辆的油位数据包含着大量噪声和各种异常变化如加油漏油、传感器故障、网络传输问题等等。因此,对这些油耗数据进行有效准确的分类亦即数据质量评估,对相关业界的车辆状态监测、行车数据统计分析、车辆运营管理等等都具有重要意义。现有的针对油耗数据的质量控制方法中,一种是根据历史经验人工地给油位的变化量等参数设定阈值,超出阈值的则视为噪声数据。这种方法简单粗暴,只能粗略地过滤一些噪声信息,但难以适用于传感器和网络设备的故障所导致的数据异常,难以更细化、准确地评估数据质量状态。另一种方法是利用决策树、贝叶斯网络等分类方法对数据进行分类,但是所利用的决策属性仍然限于油位变化值、方差均值等统计参数,分类的准确性有限。并且,由于这些分类算法属于机器学习中的有监督学习,需要大量的带标签训练样本,因此只能利用已有的经过人工分类的数据样本进行训练,在准确性、快速性和数据标签获取成本上都存在不足。综上,针对车联网背景下的油耗数据质量问题,需要一种准确高效,能适应多种数据异常问题,并且计算和存储的负荷较低的数据质量评估方法。
技术实现思路
本专利技术的目的是为了解决上述问题,提出一种基于小波分析和半监督学习的车联网油耗数据质量评估方法,利用小波分析方法得到针对油耗数据的相关属性特征,再利用半监督学习的方法进行分类,得到油耗数据的类别标签,以实现高效、准确且轻量级的数据质量评估方法。本专利技术方法所提出基于小波分析和半监督学习的油耗数据质量评估方法,包括以下步骤:步骤一:对数据进行预处理。车联网背景下所获得的信息通常至少包括GPS坐标、速度、油位、时间等数据,定义:i个油位数据的时间序列为A(a1,a2,...,ai),对应的时间为ti,油位变化值序列Q={qi|qi=ai+1-ai},同样有速度S(s1,s2,...,si);计算速度值的可信度ε、油位变化Q的均值油耗离散系数cq(标准差/均值),油耗速度相关系数Rq,s等统计参量,其中由经纬度计算得到行程区间速度Str,用于计算速度值的可信度ε,该可信度用于SVM分类模型中的权重计算:其中:ε为无量纲的系数,si,stri分别为第i个采样点的速度和行程区间速度。步骤二:小波分析。将油位数据序列A进行k阶DWT计算(DiscreteWaveletTransform,离散小波变换),得到k阶近似成分Ak和k个不同尺度下的细节成分D1,D2,...,Dk。在合适的分解尺度下,Ak作为压缩去噪之后的数据序列,近似于原本的序列趋势,Dk包含不同频率上的波动和异常信息。阶数k和小波基的类型(haar,db,db2等等)需根据数据的采样频率、噪声类型来确定。之后对分解出的各层信号计算均值、方差、模最大值等统计参量作为特征属性。步骤三:随机选取一定数量的样本由人工经验初步标注类别标签(Label)。这其中:出于细化分类的需求和实际分类方法的考虑,将数据质量的类别标签定义为L={1,2,3,4},即分为4类:类别L1:质量好,准确且噪声较小;类别L2:质量较好,有部分噪声值和异常序列但可以修正过滤;类别L3:质量较差,有较多噪声和异常序列,难以用数值方法修正;类别L4:质量很差,数据缺失或者硬件故障导致的大量噪声和异常,没有修复和统计价值。步骤四:基于支持向量机的多分类器学习。基于支持向量机分类算法(SupportVectorMachine,SVM),构建二叉树SVM模型进行多分类任务。将步骤一、二中计算得到的统计参量作为特征属性;以带类别标签L={1,2,3,4}的l个数据样本作为训练样本XL={X1,X2,...,Xl}进行初始的SVM分类器训练。设单个训练样本包含i维特征属性,类别属性为y,y∈{L|L={1,2,3,4}},即X=(x1,x2,...,xi,y),wi为第i个特征的权重,权重其中β为调整系数,由各个属性的重要程度决定,σ(xi)为属性xi整体分布的方差。其中与速度相关的属性需考虑速度的可信性,在部分实施例中取步骤五:加入无标签的数据样本XUL,利用局部搜索策略进行半监督学习,更新分类器。所得的支持向量机即可对输入的数据样本进行有效的分类数据评估,且随着新样本的增加可以继续更新参数。本专利技术的优点在于:(1)利用了小波分解的信号特点来构建油耗数据的属性特征,具有针对性且能有效地提高分类准确性和结论的可靠性;(2)多层小波分解得到的近似成分可以作为对数据有效的压缩过滤,细节成分能用于异常状况分析,为数据质量的类别划分提供可信的依据;(3)使用的分类算法基于支持向量机,使用的特征属性都是统计参量,有效降低了特征维数和运算量,符合车联网下大数据量和移动运算的需求;(4)考虑速度数据的可信度和相关属性的重要度,在二叉树支持向量机的基础上加入了适用于实施例的权值,能有效地提高分类的准确性和合理性。附图说明图1是本专利技术一个实施例的数据质量评估方法的流程图。图2是本专利技术一个实施例中数据特征属性和异常情况的示意图。图3是本专利技术一个实施例中小波变换的数据示例图。具体实施方式下面将结合附图和实施例对本专利技术作进一步的详细说明。附图1,2,3描述本专利技术方法的车联网油耗数据质量评估方法,其中图1是本实施例的流程图。由于车联网背景下所获得的信息通常至少包括GPS坐标、速度、油位、时间等数据,本专利技术方法中定义:i个油位数据的时间序列为A(a1,a2,...,ai),对应的时间为ti,油位变化值序列Q={qi|qi=ai+1-ai},同样有速度si,油位变化均值油耗离散系数cq,油耗速度相关系数Rq,s等统计参量。本实施例中设定数据的上传间隔(采样频率)为30s一次。单个样本序列长度在5000以上,所观察对象的时间长度至少是一辆车几次加油周期。结合附图2,出于细化分类的需求和实际分类方法的考虑,将数据质量的类别标签定义为L={1,2,3,4},即分为4类:类别L1:质量好,准确且噪声较小;类别L2:质量较好,有部分噪声值和异常序列但可以修正过滤;类别L3:质量较差,有较多噪声和异常序列,难以用数值方法修正;类别L4:质量很差,数据缺失或者硬件故障导致的大量噪声和异常,没有修复和统计价值。步骤S01:对数据进行预处理。包括计算速度值的可信度、油位变化均值、油耗离散系数、油耗-速度相关系数等相关统计参数,这其中:由经纬度可计算得到行程区间速度Str,用于计算速度值的可信度,该值用于后面的SVM分类模型中的权重计算:步骤S02:小波分析。结合附图3所示,将油位序列A进行k阶DWT计算(DiscreteWaveletTransform,离散小波变换),得到k阶近似成分Ak和k个不同尺度下的细节成分D1,D2,...,Dk:A=Ak+D1+D2+...+本文档来自技高网
...
一种基于小波分析和半监督学习的车联网油耗数据质量评估方法

【技术保护点】
一种基于小波分析和半监督学习的车联网油耗数据质量评估方法,包括以下步骤:步骤一:对数据进行预处理;车联网背景下所获得的信息通常至少包括GPS坐标、速度、油位、时间等数据,定义:i个油位数据的时间序列为A(a1,a2,...,ai),对应的时间为ti,油位变化值序列Q={qi|qi=ai+1‑ai},同样有速度S(s1,s2,...,si);计算速度值的可信度ε、油位变化Q的均值

【技术特征摘要】
1.一种基于小波分析和半监督学习的车联网油耗数据质量评估方法,包括以下步骤:步骤一:对数据进行预处理;车联网背景下所获得的信息通常至少包括GPS坐标、速度、油位、时间等数据,定义:i个油位数据的时间序列为A(a1,a2,...,ai),对应的时间为ti,油位变化值序列Q={qi|qi=ai+1-ai},同样有速度S(s1,s2,...,si);计算速度值的可信度ε、油位变化Q的均值油耗离散系数cq(标准差/均值),油耗速度相关系数Rq,s等统计参量,其中由经纬度计算得到行程区间速度Str,用于计算速度值的可信度ε,该可信度用于SVM分类模型中的权重计算:其中:ε为无量纲的系数,si,stri分别为第i个采样点的速度和行程区间速度;步骤二:小波分析;将油位数据序列A进行k阶离散小波变换,得到k阶近似成分Ak和k个不同尺度下的细节成分D1,D2,...,Dk;阶数k和小波基的类型根据数据的采样频率、噪声类型确定,之后对分解...

【专利技术属性】
技术研发人员:田大新朱宇凯王云鹏李玉洲刘超郑坤贤周建山康璐刘文豪
申请(专利权)人:北京航空航天大学
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1