离群值检测设备、离群值检测方法和车辆故障诊断系统技术方案

技术编号:9521514 阅读:149 留言:0更新日期:2014-01-01 19:01
本发明专利技术提供了一种离群值检测设备等,该离群值检测设备等辅助或执行在实用时间内的离群值的检测,而不对非线性数据集执行参数调整操作。离群值检测设备(1)针对每一个维度转换数据集中包括的多个数据的每一个,并且基于比特序列来建立用于数据集的观察区域。然后,离群值检测设备(1)从在数据集中包括的多个数据逐个地确定一个目标数据,并且基于当从观察区域去除与目标数据对应的区域时与该目标数据相邻的数据的数据密度来计算该目标数据的偏离度。

【技术实现步骤摘要】
【国外来华专利技术】【专利摘要】本专利技术提供了一种离群值检测设备等,该离群值检测设备等辅助或执行在实用时间内的离群值的检测,而不对非线性数据集执行参数调整操作。离群值检测设备(1)针对每一个维度转换数据集中包括的多个数据的每一个,并且基于比特序列来建立用于数据集的观察区域。然后,离群值检测设备(1)从在数据集中包括的多个数据逐个地确定一个目标数据,并且基于当从观察区域去除与目标数据对应的区域时与该目标数据相邻的数据的数据密度来计算该目标数据的偏离度。【专利说明】离群值检测设备、离群值检测方法和车辆故障诊断系统
本专利技术涉及离群值检测设备等,该离群值检测设备等辅助或执行从包括多个数据的数据集中检测离群值,该多个数据的每一个具有一个或多个维度。
技术介绍
离群值检测问题被认为是用于从给定的数据集中找出作为离群值的属于低数据密度区域的数据。用于解决离群值检测问题的技术的应用示例例如包括:用于去除在数据集中包含的噪声数据的处理(用于数据筛选的预处理);用于从信用交易的数据集中检测进行异常交易的客户的处理;用于从在生产线中的产品的数据集中检测缺陷的处理等。作为用于解决离群值检测问题的技术,例如,已知马哈拉诺比斯距离、单类支持向量机(以下缩写为“0C-SVM”)和局部离群因子(以下,缩写为“L0F”)。NPLl描述了马哈拉诺比斯距离。在NPLl中,计算整个给定的数据集的质心(平均值)和协方差矩阵,使用协方差矩阵来计算从每一个数据到归一化的质心的距离,并且,将具有大距离的数据看作离群值。在马哈拉诺比斯距离中,假定数据集符合多变量正态分布。在不能使用多变量正态分布来描述数据集的情况下,即,在数据集是非线性的情况下,不能检测适当的离群值。NPL2描述了 0C-SVM。在NPL2中,通过非线性映射将接收的数据集映射到高阶特征空间F内,并且从其中每一个将映射的数据组与原点分离的超平面中选择相对于原点最远的超平面。在采用OC-SVM来解决离群值检测问题的情况下,以下述方式来确定超平面:允许特定百分比的数据被分组在原点附近,而不是在超平面附近,并且,将被分组在原点附近的数据看作离群值。在OC-SVM中,通过求解可以容易找到其解的凸优化问题,可以获得超平面。而且,因为OC-SVM采用非线性映射,所以OC-SVM适合于非线性数据集。NPL3描述了 L0F。在NPL3中,从数据x至与数据x相邻的k个数据的距离的平均值被计算为k-最近距离。因此,通过将数据X的k-最近距离除以k个相邻数据的k-最近距离而获得的值被计算为数据X的L0F。从如上所述的处理清楚,随着在数据X的k-最近距离和k个相邻数据的k-最近距离的平均值之间的差(S卩,通过从数据X的k-最近距离减去k个相邻数据的k-最近距离的平均值而获得的值)增大时,LOF呈现更大的值。因此,具有大的LOF的数据被看作离群值。LOF也适用于非线性数据集。然而,上述的现有技术的三个示例具有下述的问题。如上所述,马哈拉诺比斯距离具有问题:在非线性数据集的情况下,不能检测适当的离群值。OC-SVM具有未解决的问题:难以选择适当的非线性映射。这导致问题:需要参数调整操作,其中,人通过反复试验来确定用于确定非线性映射的参数。而且,在OC-SVM中,在要处理大量数据的情况下,需要长时间来解优化问题。设数据的数量是N,则在OC-SVM中的计算量的数量级是O (N3),除非不进行调整。LOF具有未解决的问题:难以选择适当的k。这也导致问题:需要参数调整操作,就像在OC-SVM中那样。而且,LOF需要较高的计算负载。设数据的数量是N,则在LOF中的计算量的数量级是O (N2),除非不进行调整。引用列表非专利文献NPLl:Mahalanobis, P.C., On the Generalized Distance in Statistics (关于统计中的广义距离),Proceedings of the National Institute of Science (美国国家科学院院刊),49-55,1936NPL2:Scholkopf, B.等,Estimating the Support of a High-DimensionalDistribution(估计高维分布的支持),Neural Computation(神经计算),7,1443-1471, 2001NPL3:Breunig,M.Μ.等,L0F:1dentifying Density-Based Local OutliersCLOF:基于识别密度的局部离群值),SIGMOD Conference (SIGMOD会议),93-104,2000
技术实现思路
技术问题已经鉴于上述问题而设计了本专利技术,并且本专利技术的目的是提供一种离群值检测设备等,该离群值检测设备等辅助或执行在实用时间内的离群值的检测,而不对非线性数据集执行参数调整操作。对于问题的解决方案为了实现上述目的,根据本专利技术的第一方面,提供了一种离群值检测设备,该离群值检测设备辅助或执行从包括多个数据的数据集中检测离群值,所述多个数据的每一个具有一个或多个维度,所述离群值检测设备包括控制器,所述控制器针对一个或多个维度的每一个将在所述数据集中包括的所述多个数据的每一个转换为比特序列、基于所述比特序列来建立用于所述数据集的观察区域、从在所述数据集中包括的所述多个数据逐个地确定一个目标数据,并且基于当从所述观察区域去除与所述一个目标数据对应的区域时,与所述一个目标数据相邻的数据的数据密度,来计算所述一个目标数据的偏离度。根据本专利技术的第一方面,可以在实用时间内执行离群值的检测的辅助或执行,而不对非线性数据集执行参数调整操作。优选的是,在本专利技术的第一方面中的所述控制器将所述观察区域建立为二分决策图、将通过从每一个节点的局部密度减去等同于单个数据的密度而获得的值定义为去除了单个数据的局部密度,并且基于所述去除了单个数据的局部密度来计算所述一个目标数据的偏离度。因此,在本专利技术的第一方面中的计算量的数量级至少由O(NXD)表示,并且相对于OC-SVM或LOF具有优势,其中,N表示数据的数量,并且D表示节点的数量。优选的是,在本专利技术的第一方面中的所述控制器通过以从最高有效位至最低有效位的顺序针对数值属性的维度对比特序列组进行排序来分级地建立二分决策图、在所述二分决策图中搜索用于表示所述一个目标数据的路径,并且基于等级被改变的节点的去除了单个数据的局部密度来计算所述一个目标数据的偏离度。因此,即使在未预先提供关于数据集的特性的信息的情况下,也可以计算适当的偏离度。例如,在本专利技术的第一方面中的所述控制器将等级被改变的节点的去除了单个数据的局部密度中的一些或全部的最大值、中值或平均值定义为所述一个目标数据的偏离度。例如,在本专利技术的第一方面中的所述控制器通过将所述偏离度与阈值作比较来检测尚群值。根据本专利技术的第二方面,提供了一种离群值检测方法,所述离群值检测方法用于辅助或执行从包括多个数据的数据集中检测离群值,所述多个数据中的每一个具有一个或多个维度,所述方法包括:针对所述一个或多个维度中的每一个将在所述数据集中包括的所述多个数据的每一个转换为比特序列;基于所述比特序列来建立用于所述数据集的观察区域、从在所述数据集中包括的所本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】...

【专利技术属性】
技术研发人员:沓名拓郎佐藤守一
申请(专利权)人:株式会社丰田中央研究所
类型:
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1