The invention discloses a network fuel consumption data quality assessment based on wavelet analysis and semi supervised learning based on the car, comprises the following steps: data preprocessing; wavelet analysis; two steps: step three: randomly selected samples by artificial experience preliminary annotation category labels; step four: Support Vector Classifier Machine Based Learning; step five: XUL added unlabeled data samples, semi supervised learning using local search strategy to update the classifier. The invention utilizes the signal characteristics of the wavelet decomposition to construct the attribute characteristics of fuel consumption data, and has the pertinence, and can effectively improve the classification accuracy and the reliability of the conclusion. The approximate component obtained by the multi-layer wavelet decomposition can be used as an effective compression filter for the data, and the detail component can be used for the analysis of abnormal conditions, providing a reliable basis for the classification of data quality.
【技术实现步骤摘要】
一种基于小波分析和半监督学习的车联网油耗数据质量评估方法
本专利技术方法涉及车联网数据采集和数据质量控制领域,尤其涉及一种用于车联网背景下车辆油耗数据质量评估的方法。
技术介绍
随着车联网技术的发展和数据挖掘技术的愈发成熟,车联网的海量数据已经在商业,路网的设计规划等领域体现出巨大的潜在价值。这些海量数据的传输和存储方案、知识挖掘,数据质量的控制都是亟待研究和解决的问题。由于油位传感器和现有的车联网数据终端的局限性,相对于误差较为稳定、精准的GPS定位数据、车辆速度等数据,车辆的油位数据包含着大量噪声和各种异常变化如加油漏油、传感器故障、网络传输问题等等。因此,对这些油耗数据进行有效准确的分类亦即数据质量评估,对相关业界的车辆状态监测、行车数据统计分析、车辆运营管理等等都具有重要意义。现有的针对油耗数据的质量控制方法中,一种是根据历史经验人工地给油位的变化量等参数设定阈值,超出阈值的则视为噪声数据。这种方法简单粗暴,只能粗略地过滤一些噪声信息,但难以适用于传感器和网络设备的故障所导致的数据异常,难以更细化、准确地评估数据质量状态。另一种方法是利用决策树、贝叶斯网络等分类方法对数据进行分类,但是所利用的决策属性仍然限于油位变化值、方差均值等统计参数,分类的准确性有限。并且,由于这些分类算法属于机器学习中的有监督学习,需要大量的带标签训练样本,因此只能利用已有的经过人工分类的数据样本进行训练,在准确性、快速性和数据标签获取成本上都存在不足。综上,针对车联网背景下的油耗数据质量问题,需要一种准确高效,能适应多种数据异常问题,并且计算和存储的负荷较低的数据质量评估 ...
【技术保护点】
一种基于小波分析和半监督学习的车联网油耗数据质量评估方法,包括以下步骤:步骤一:对数据进行预处理;车联网背景下所获得的信息通常至少包括GPS坐标、速度、油位、时间等数据,定义:i个油位数据的时间序列为A(a1,a2,...,ai),对应的时间为ti,油位变化值序列Q={qi|qi=ai+1‑ai},同样有速度S(s1,s2,...,si);计算速度值的可信度ε、油位变化Q的均值
【技术特征摘要】
1.一种基于小波分析和半监督学习的车联网油耗数据质量评估方法,包括以下步骤:步骤一:对数据进行预处理;车联网背景下所获得的信息通常至少包括GPS坐标、速度、油位、时间等数据,定义:i个油位数据的时间序列为A(a1,a2,...,ai),对应的时间为ti,油位变化值序列Q={qi|qi=ai+1-ai},同样有速度S(s1,s2,...,si);计算速度值的可信度ε、油位变化Q的均值油耗离散系数cq(标准差/均值),油耗速度相关系数Rq,s等统计参量,其中由经纬度计算得到行程区间速度Str,用于计算速度值的可信度ε,该可信度用于SVM分类模型中的权重计算:其中:ε为无量纲的系数,si,stri分别为第i个采样点的速度和行程区间速度;步骤二:小波分析;将油位数据序列A进行k阶离散小波变换,得到k阶近似成分Ak和k个不同尺度下的细节成分D1,D2,...,Dk;阶数k和小波基的类型根据数据的采样频率、噪声类型确定,之后对分解...
【专利技术属性】
技术研发人员:田大新,朱宇凯,王云鹏,李玉洲,刘超,郑坤贤,周建山,康璐,刘文豪,
申请(专利权)人:北京航空航天大学,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。