当前位置: 首页 > 专利查询>长安大学专利>正文

一种路面异常数据检测方法、装置、设备及可读存储介质制造方法及图纸

技术编号:34461975 阅读:27 留言:0更新日期:2022-08-06 17:26
本发明专利技术公开了一种路面异常数据检测方法、装置、设备及可读存储介质,包括:获取多维路面数据,基于多维路面数据建立训练样本数据集A1和测试样本数据集A2;根据训练样本数据集A1对Isolation Forest孤立森林模型进行训练,得到训练完成的Isolation Forest孤立森林模型;根据训练完成的Isolation Forest孤立森林模型,评估测试样本数据集A2,得到测试样本异常分数;基于K

【技术实现步骤摘要】
一种路面异常数据检测方法、装置、设备及可读存储介质


[0001]本专利技术涉及道路监测
,尤其涉及一种路面异常数据检测方法、装置、设备及可读存储介质。

技术介绍

[0002]近年来我国公路总里程持续增加,道路管理已从原来的“以建为主”转变为现在的“建养并重”模式,同时随着现代化检测手段在道路行业中的广泛应用,公路管理部门储存了海量的路面监测数据。而通过监测车采集获取的原始数据中部分数据因自身的不完整、不正确性会导致后期路面性能数据分析的精度降低,因此对性能数据进行异常检测以获得高质量的路面性能数据对进行路面性能评价、预测以及养护决策有着重要的意义。
[0003]为了提高路面数据的质量,道路工程师们开始对获取的路面数据进行异常检测。常见的数据异常检测方法包括基于统计的方法、基于距离的方法、基于聚类的方法等。以上方法具有简单直观,便于理解等优势因此在初期得到广泛应用,但对检测数据维度较高或数据数量较多的情况下,以上方法因其较高的时间复杂度会使得遍历检测数据耗时长。
[0004]针对以上问题,2008年周志华等人(Liu,Fei Tony,Kai Ming Ting,and Zhi

Hua Zhou."Isolation forest."Data Mining,2008.ICDM'08.Eighth IEEE International)提出Isolation Forest异常检测算法Conference on.IEEE,2008.该算法具有线性的时间复杂度,能够有效的处理海量数据,但其算法数据集中的阈值需要用户根据自身需求界定,而传统的高斯分布方法对于路面数据的适用性较差。因此,保证iForest算法异常检测准确性所需要解决的关键问题是确定适用于路面性能数据的异常界定阈值。

技术实现思路

[0005]针对现有技术中存在的问题,本专利技术提供了一种路面异常数据检测方法、装置、设备及可读存储介质,通过K

means聚类方法改进iForest算法,适用于路面性能数据异常检测,同时能够有效处理海量数据。
[0006]为了解决上述技术问题,本专利技术通过以下技术方案予以实现:
[0007]一种路面异常数据检测方法,包括:
[0008]步骤1、获取多维路面数据,基于所述多维路面数据建立训练样本数据集A1和测试样本数据集A2;
[0009]步骤2、根据所述训练样本数据集A1对Isolation Forest孤立森林模型进行训练,得到训练完成的Isolation Forest孤立森林模型;
[0010]步骤3、根据所述训练完成的Isolation Forest孤立森林模型,评估所述测试样本数据集A2,得到测试样本异常分数;
[0011]步骤4、基于K

means算法获取路面样本数据异常分数阈值,将所述测试样本异常分数与所述路面样本数据异常分数阈值进行比较,若所述测试样本异常分数大于所述路面样本数据异常分数阈值,则判定路面数据异常,否则,判定路面数据正常。
[0012]进一步地,步骤1中,所述获取多维路面数据,基于所述多维路面数据建立训练样本数据集A1和测试样本数据集A2,具体包括:
[0013]步骤1a、将路面按照预设长度划分为若干路段单元,若干路段单元作为路面样本集,定义为第i个路段单元样本的第n个属性所对应的路面性能数据,其中,D
i
={X1,X2,X3,

,X
n
}表示i个路段单元样本及其包含的所有属性,其中,X是由X1,X2,X3,

,X
n
对应的属性构成的路段单元样本属性集合,A={D1,D2,D3,

,D
m
}表示n维路面性能数据内m个路段单元样本所构成的路段单元样本数据集;
[0014]步骤1b、在m个路段单元样本数据中任意选择其中r个路段单元样本数据构成所述训练样本数据集A1,利用其余m

r个路段单元样本数据构成所述测试样本数据集A2。
[0015]进一步地,步骤2中,所述根据所述训练样本数据集A1对Isolation Forest孤立森林模型进行训练,得到训练完成的Isolation Forest孤立森林模型,具体包括:
[0016]步骤2a、定义iTree={T1,T2,

,T
t
|1≤t≤100},其中T
t
代表第t棵iTree,每棵iTree是独立的二叉树结构,从A1中进行t次随机抽取,每次选取个训练样本构建iTree的样本集合其中,代表选取的第i个训练样本,代表选取的第i个训练样本,
[0017]步骤2b、从路段单元样本属性集合X中随机选择一个路段单元样本属性作为iTree的分割属性,从随机选取的路段单元样本属性所对应的属性值中选取介于最大值与最小值之间任意值p作为初始分隔值,从所选取的个训练样本逐一选取属性值与p进行比较,若则将对应的训练样本放入iTree根节点下的左子树集合,若则将对应的训练样本放入iTree根节点下的右子树集合,将选取的个训练样本与初始分隔值p比较完成后,输出iTree根节点下的左右子树样本集合;
[0018]步骤2c、从iTree根节点下的左右子树样本集合内的样本集合内分别随机选择一个属性作为根节点下的左右子树分割属性,以左子树集合内的样本为例,从左子树集合中随机选取的路段单元样本属性所对应的属性值中选取介于最大值与最小值之间任意值p
l1
作为分割值,左子树集合内的路段单元样本根据属性值与左子树集合内选择的分割值进行比较,若则将对应的路段单元样本放入iTree左子树节点下的左子树集合,若则将路段单元样本节点放入iTree左子树节点下的左子树集合,同理,右子树集合内的所有路段单元样本与右子树集合中选取的分割值进行比较,最终输出次左右子树样本集合;
[0019]将输出的次左右子树样本集合按照步骤2c进行递归迭代,不断生成新的子节点,直至所构造的iTree满足以下任一要求即停止迭代:
[0020]1)二叉树达到限定的路径高度
[0021]2)子树中有唯一的样本属性值;
[0022]根据步骤2a

2c重复构造iTree,最终得到由T棵iTree组成的样本数据训练完成的Isolation Forest孤立森林模型。
[0023]进一步地,步骤3中,所述根据所述训练完成的Isolation Forest孤立森林模型,评估所述测试样本数据集A2,得到测试样本异常分数,具体包括:
[0024]步骤3a、基于所述测试样本数据集A2中的样本数据,令测试样本数据集A2中的所有样本遍历Isolation Forest孤立森林模型中的全部iTree,计算样本遍历iTree产生的路径长度,以样本D
i
为例,计算样本D
i
遍历每一颗iTr本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种路面异常数据检测方法,其特征在于,包括:步骤1、获取多维路面数据,基于所述多维路面数据建立训练样本数据集A1和测试样本数据集A2;步骤2、根据所述训练样本数据集A1对Isolation Forest孤立森林模型进行训练,得到训练完成的Isolation Forest孤立森林模型;步骤3、根据所述训练完成的Isolation Forest孤立森林模型,评估所述测试样本数据集A2,得到测试样本异常分数;步骤4、基于K

means算法获取路面样本数据异常分数阈值,将所述测试样本异常分数与所述路面样本数据异常分数阈值进行比较,若所述测试样本异常分数大于所述路面样本数据异常分数阈值,则判定路面数据异常,否则,判定路面数据正常。2.根据权利要求1所述的一种路面异常数据检测方法,其特征在于,步骤1中,所述获取多维路面数据,基于所述多维路面数据建立训练样本数据集A1和测试样本数据集A2,具体包括:步骤1a、将路面按照预设长度划分为若干路段单元,若干路段单元作为路面样本集,定义为第i个路段单元样本的第n个属性所对应的路面性能数据,其中,D
i
={X1,X2,X3,

,X
n
}表示i个路段单元样本及其包含的所有属性,其中,X是由X1,X2,X3,

,X
n
对应的属性构成的路段单元样本属性集合,A={D1,D2,D3,

,D
m
}表示n维路面性能数据内m个路段单元样本所构成的路段单元样本数据集;步骤1b、在m个路段单元样本数据中任意选择其中r个路段单元样本数据构成所述训练样本数据集A1,利用其余m

r个路段单元样本数据构成所述测试样本数据集A2。3.根据权利要求2所述的一种路面异常数据检测方法,其特征在于,步骤2中,所述根据所述训练样本数据集A1对Isolation Forest孤立森林模型进行训练,得到训练完成的Isolation Forest孤立森林模型,具体包括:步骤2a、定义iTree={T1,T2,

,T
t
|1≤t≤100},其中T
t
代表第t棵iTree,每棵iTree是独立的二叉树结构,从A1中进行t次随机抽取,每次选取个训练样本构建iTree的样本集合其中,代表选取的第i个训练样本,代表选取的第i个训练样本,步骤2b、从路段单元样本属性集合X中随机选择一个路段单元样本属性作为iTree的分割属性,从随机选取的路段单元样本属性所对应的属性值中选取介于最大值与最小值之间任意值p作为初始分隔值,从所选取的个训练样本逐一选取属性值与p进行比较,若则将对应的训练样本放入iTree根节点下的左子树集合,若则将对应的训练样本放入iTree根节点下的右子树集合,将选取的个训练样本与初始分隔值p比较完成后,输出iTree根节点下的左右子树样本集合;步骤2c、从iTree根节点下的左右子树样本集合内的样本集合内分别随机选择一个属性作为根节点下的左右子树分割属性,以左子树集合内的样本为例,从左子树集合中随机选取的路段单元样本属性所对应的属性值中选取介于最大值与最小值之间任意值p
l1
作为分割值,左子树集合内的路段单元样本根据属性值与左子树集合内选择的分割值进行
比较,若则将对应的路段单元样本放入iTree左子树节点下的左子树集合,若则将路段单元样本节点放入iTree左子树节点下的左子树集合,同理,右子树集合内的所有路段单元样本与右子树集合中选取的分割值进行比较,最终输出次左右子树样本集合;将输出的次左右子树样本集合按照步骤2c进行递归迭代,不断生成新的子节点,直至所构造的iTree满足以下任一要求即停止迭代:1)二叉树达到限定的路径高度2)子树中有唯一的样本属性值;根据步骤2a

2c重复构造iTree,最终得到由T棵iTree组成的样本数据训练完成的Isolation Forest孤立森林模型。4.根据权利要求3所述的一种路面异常数据检测方法,其特征在于,步骤3中,所述根据所述训练完成的Isolation Forest孤立森林模型,评估所述测试样本数据集A2,得到测试样本异常分数,具体包括:步骤3a、基于所述测试样本数据集A2中的样本数据,令测试样本数据集A2中的所有样本遍历Isolation Forest孤立森林模型中的全部iTree,计算样本遍历iTree产生的路径长度,以样本D
i
为例,计算样本D
i
遍历每一颗iTree的路径长度h
t
(D
i
)方法如下:h
t
(D
i
)=s
t
+c(z)H(z

1)=ln(z

1)+ξ公式中,s
t
为样本D
i
遍历第t棵iTree所经历的路径长度;z表示iTree的训练样本中同样落在D
i...

【专利技术属性】
技术研发人员:蒋玮刘瑶涵吴旺杰邢成炜单金焕袁东东肖晶晶张双娇刘聪聪侯玉凯
申请(专利权)人:长安大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1