当前位置: 首页 > 专利查询>吉林大学专利>正文

一种车联网行驶大数据异常标记方法及电子设备技术

技术编号:36384136 阅读:7 留言:0更新日期:2023-01-18 09:46
本发明专利技术涉及一种车联网行驶大数据异常标记方法及电子设备,根据车辆动力学关系构造动态偏差特征指标,计算数据集的动态力观测偏差特征指标及动态速度观测偏差特征指标,根据计算结果构造二维特征状态训练数据集,利用孤立森林算法对异常数据进行标记。所述异常标记方法从车辆动力学角度构建指标对多维车辆行驶数据集进行降维处理,解决了传统车辆行驶数据降维处理无法反映车辆动力学模型本质特征、非线性依赖关系数据检测效果受限等问题,可为海量高维车联网行驶数据清洗提供更高效、准确的异常数据检测效果,大大降低其计算成本及时间成本。成本。成本。

【技术实现步骤摘要】
一种车联网行驶大数据异常标记方法及电子设备


[0001]本专利技术属于车联网行驶大数据清洗领域,具体涉及一种车联网行驶大数据异常标记方法及电子设备。

技术介绍

[0002]车联网终端由无线发送模块、数据采集器、传感器组成,车辆实时运行情况包括驾驶员的操作行为、动力系统工作参数数据等:由云计算处理平台处理车辆信息,对数据进行数据分析平台负责对数据报表进行处理分析,供后台管理人员查看。
[0003]车联网终端数据涵盖了大规模复杂的数据。数据采集到应用过程中因为传感器异常、传输设备异常、外部环境干扰等原因,会导致数据出现跳变、零点漂移、超值等数值不合理问题。值得注意的是,这些“脏数据”并不具备实际意义,同时也会影响后续数据的质量和分析结果。因此,需要清除车联网海量行驶数据中的异常值、保存有价值的数据。
[0004]传统的车联网行驶数据异常检测方法多依赖于经验规则的总结,即对常见异常数据类型预先进行判断及归纳,并分类制定相应的清洗规则,如对特定字段数据GPS车速设定单一量阈值进行超值“脏数据”判断、对时间错误数据进行异常清洗、对零点漂移数据进行清洗等。然而真实情况复杂多变,异常数据类型的经验判断规则仅对特定情况下极少量的数据通道异常数据才有效,判断条件局限且单一,存在设备数据信息利用率低、异常数据检测结果片面等问题,无法满足海量、高维行驶数据的异常检测工作。
[0005]近年来,随着机器学习算法的研究愈加深入,也有学者将机器学习引入到车联网行驶大数据清洗中,主要包括基于线性模型的异常值检测方法、基于邻近度的异常值检测方法和基于集成方法的异常值检验方法等,其特征提取及特征选择过于依赖现有模型及算法,并没有从车辆动力学特征本身去探究数据及数据特征的意义,存在非线性依赖关系数据检测效果受限、海量数据样本计算效率低、无法体现车辆行驶特征等问题。

技术实现思路

[0006]本专利技术的目的是提供一种车联网行驶大数据异常标记方法,其基于动力学特征指标状态及孤立森林算法实现,解决了传统车辆行驶数据降维处理无法反映车辆动力学特征、非线性依赖关系数据检测效果受限等问题,可为海量高维车联网行驶数据清洗提供更高效、准确的异常数据检测效果。
[0007]本专利技术的目的通过如下技术方案实现:
[0008]一种车联网行驶大数据异常标记方法,包括如下步骤:
[0009]步骤一、获取某车型车联网行驶数据,并对其进行预处理得到车联网行驶样本数据集;
[0010]步骤二、构造动力学特征指标,包括动态力观测偏差特征指标以及动态速度观测偏差特征指标;
[0011]所述的动态力观测偏差特征指标ΔF,计算公式如下:
[0012]ΔF=F
t

F
f

F
w

F
i

F
j
ꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(4)
[0013]其中,F
t
为驱动力,F
f
为滚动阻力;F
w
为空气阻力;F
i
为坡道阻力;F
j
为加速阻力;
[0014]所述的动力学特征指标中的动态速度观测偏差特征指标Δv,计算公式如下:
[0015][0016]其中,v
a
为汽车理论行驶速度,r为车轮半径,n为发动机转速,i
g
为变速器传动比;i0为主减速器传动比;
[0017]步骤三、构建二维特征状态训练数据集,所述的二维特征状态训练数据集如下:
[0018]D={ΔF,Δv}
n
×2ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(9)
[0019]其中,D为构造的二维特征状态训练数据集,n为数据集样本点数;特征维数为2;
[0020]步骤四、利用孤立森林算法实现异常标记;
[0021]输入构建的二维特征状态训练数据集并进行缺失值处理;
[0022]再根据式(10)计算数据集平均异常分数;
[0023][0024]式中,E(h(x))表示数据x在整个孤立森林路径长度均值,c(n)表示用n条数据构建的二叉树的平均路径长度,ε为算法偏移量为

0.5。
[0025]再根据平均异常分数结果选取合适的异常分数阈值。
[0026]作为本专利技术更优的技术方案,步骤一所述的车联网行驶数据包括某车型运行状态信息、地图的输出参数和原始数据信息等特征属性。
[0027]作为本专利技术更优的技术方案,步骤一所述的车联网行驶数据预处理包括时间不连续条件下的加速度求解和变速器传动比数据匹配。
[0028]作为本专利技术更优的技术方案,所述的时间不连续条件下的行驶加速度求解具体步骤如下:
[0029]根据式(2)计算前后数据点时间戳差值,并判断前后数据点时间戳差值是否满足时间连续条件;
[0030]Δt=t
i+1

t
i
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(2)
[0031]式(2)中,Δt为前后数据点时间戳差值,t
i+1
为第i+1个数据点的时间戳,t
i
为第i个数据点的时间戳;
[0032]然后对符合时间连续条件的前后数据点进行合并,采用式(3)构造子样本速度数据集;
[0033]v
sub
=[v
i
,v
i+1
]ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(3)
[0034]式(3)中,v
sub
为构造的子样本速度数据集,v
i+1
为第i+1个数据点的速度,v
i
为第i个数据点的速度;
[0035]再对计算得到时间连续条件下的子样本速度数据集求解导数得到时间连续条件下第i点及第i+1点的行驶加速度;
[0036]最后迭代递归此过程,得到样本数据集行驶加速度。
[0037]作为本专利技术更优的技术方案,所述的变速器传动比数据匹配为利用传动系模型拟合某车型发动机外特性曲线计算全局转速对应的各档车速范围,匹配获得可选档位集合;
同时根据车速与发动机转矩最大时对应动力性期望车速偏差最小的原则,从可选档位集合中选择动力性最佳档位,获得对应的变速器传动比数据。
[0038]作为本专利技术更优的技术方案,所述的数据x在整个孤立森林路径长度h(x)通过公式进行标准化;其中,H(k)=In(k)+ξ,ξ为欧拉常数;x为待训练的数据样本,n表示单棵孤立决策树的训练样本的样本数。
[0039]本专利技术还有一个目的是提供一种电子设备,所述的电子设备包括显示器;处理器,所述的处理器用于对车联网行驶数据进行预处理得到车联网行驶样本数据集;构造动态力观测偏差特征指标以及动态速度观测偏差特征指标;构建二维特征状态训练数据集;利用孤立森林算法实现异常标本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种车联网行驶大数据异常标记方法,其特征在于,包括如下步骤:步骤一、获取某车型车联网行驶数据,并对其进行预处理得到车联网行驶样本数据集;步骤二、构造动力学特征指标,包括动态力观测偏差特征指标以及动态速度观测偏差特征指标;所述的动态力观测偏差特征指标ΔF,计算公式如下:ΔF=F
t

F
f

F
w

F
i

F
j
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(4)其中,F
t
为驱动力,F
f
为滚动阻力;F
w
为空气阻力;F
i
为坡道阻力;F
j
为加速阻力;所述的动力学特征指标中的动态速度观测偏差特征指标Δv,计算公式如下:其中,v
a
为汽车理论行驶速度,r为车轮半径,n为发动机转速,i
g
为变速器传动比;i0为主减速器传动比;步骤三、构建二维特征状态训练数据集,所述的二维特征状态训练数据集如下:D={ΔF,Δv}
n
×2ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(9)其中,D为构造的二维特征状态训练数据集,n为数据集样本点数;特征维数为2;步骤四、利用孤立森林算法实现异常标记;输入构建的二维特征状态训练数据集并进行缺失值处理;再根据式(10)计算数据集平均异常分数;式中,E(h(x))表示数据x在整个孤立森林路径长度均值,c(n)表示用n条数据构建的二叉树的平均路径长度,ε为算法偏移量为

0.5。再根据平均异常分数结果选取合适的异常分数阈值。2.如权利要求1所述的一种车联网行驶大数据异常标记方法,其特征在于,步骤一所述的车联网行驶数据包括某车型运行状态信息、地图的输出参数和原始数据信息等特征属性。3.如权利要求1所述的一种车联网行驶大数据异常标记方法,其特征在于,步骤一所述的车联网行驶数据预处理包括时间不连续条件下的加速度求解和变速器传动比数据匹配。4.如权利要求...

【专利技术属性】
技术研发人员:施树明夏孟璇林楠岳柄剑贾素华刘小姣陈柏安
申请(专利权)人:吉林大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1