当前位置: 首页 > 专利查询>燕山大学专利>正文

一种基于自然近邻类的机械监测标签数据质量保障方法技术

技术编号:33242912 阅读:39 留言:0更新日期:2022-04-27 17:47
本发明专利技术涉及大数据处理与机械故障诊断技术领域,尤其是一种基于自然近邻类的机械监测标签数据质量保障方法,基于非参数算法构造的自然近邻图,建立标签数据不同样本之间的关系,通过这种关系,搜索不同的类;计算类局部离群因子来评估不同类的异常程度,将CLOF大于预定阈值的类检测为低质量数据,对清洗后的标签数据进行自然近邻图重构,基于该自然近邻图,检测错误标记的数据,并识别未标记数据的标签,还可用于查找带有新类型的标签数据;本发明专利技术能够有效地检测不同标签数据中的低质量数据,使标签数据可以基于自然近邻自动识别和标记,进一步提高了标签数据的质量,有助于智能故障诊断建模和机械监测数据质量的提高。故障诊断建模和机械监测数据质量的提高。故障诊断建模和机械监测数据质量的提高。

【技术实现步骤摘要】
一种基于自然近邻类的机械监测标签数据质量保障方法


[0001]本专利技术涉及大数据处理与机械故障诊断
,尤其是一种基于自然近邻类的机械监测标签数据质量保障方法。

技术介绍

[0002]机械状态监测已经进入大数据时代,同时也带来了巨大的机遇和挑战。现有技术利用大数据进行处理和挖掘,以准确识别机械状态或诊断故障。然而,大数据所具有的特殊属性,使得处理这些大数据进行故障诊断成为一个挑战。许多传统的故障诊断方法都是基于信号处理技术构建的,通常基于专家经验执行,因此不适合处理监测大数据。为了解决这一问题,基于深度学习方法的智能故障诊断技术越来越受到研究者的重视,以期更快速、更高效地处理海量数据。尽管这些智能故障诊断方法为处理高容量、高速度和低值密度的监测数据提供了一种有效的方法,但这些方法仍然存在许多关键和开放性问题,包括处理多种类和低质量的数据。由于环境干扰和数据采集设备故障,通常会产生质量较差的数据,因此这些数据与机械健康状况无关。基于这些低质量的数据进行训练,由基于机器学习的方法的“垃圾进,垃圾出”的特殊性质,可能得到不可靠的智能故障诊断模型。通过对低质量数据对机器学习性能的影响进行的大量研究,均发现分类精度随着训练数据质量的降低而降低。因此,基于这些不可靠的模型会得到错误的诊断结果。
[0003]为了解决这个问题,应该使用一些数据清理方法来检测和删除低质量的数据,以保证监测数据的质量。现有的低质量数据检测方法不能用于标签数据的质量保证,原因如下,首先,不同标签的数据之间存在差异,一个标签的数据可能被错误地从包含另一个标签的数据中检测为低质量数据。此外,当存在许多具有相似特征的低质量数据时,这些方法无法通过检测低质量数据进行故障识别。另外,在实际工程中,常见的标签未知的数据不能直接用于智能故障诊断建模,降低了数据质量。针对现有的低质量数据检测方法的缺点,并且在手动标记这些数据上花费了大量精力,本专利技术提出一种自动标记数据的方法。

技术实现思路

[0004]本专利技术目的解决现有技术缺陷,采用自然近邻自动识别和标记技术,提高大数据自动检测数据质量和标签数据质量,进一步提高智能故障诊断建模和机械监测数据质量。
[0005]为解决上述技术问题,本专利技术所采用的技术方案是:
[0006]一种基于自然近邻类的机械监测标签数据质量保障方法,包括步骤如下:
[0007]S1:提取机械各标签数据的时域特征、频域统计特征,构建具有特征属性的数据对象集:
[0008]P{p1,p2,

p
N
};
[0009]S2:基于自然近邻思想,对于构建的数据对象集,通过搜索自然近邻信息构建互访问路径,形成近邻图,具体包括以下子步骤:
[0010]S21:设置初始化参数,使数据对象集内任意对象p
i
对应的自然邻居状态NB(p
i
)为
0;任意对象p
i
的k邻居集N
k
(p
i
)为空集;任意对象p
i
的互k近邻集MN
k
(p
i
)为空集;
[0011]S22:搜索k=1时,p
i
的k近邻并存入N
k
(p
i
),再搜索N
k
(p
i
)中对象p
i
的k近邻,若p
i
属于集合N
k
(p
i
),说明二者互为近邻,此时p
i
的自然邻居状态NB(p
i
)=1;
[0012]S23:将S22步骤的搜索过程看作一次迭代,将迭代停止条件设定为迭代前后两次拥有互近邻数增加值是否小于k,如小于k则停止迭代;如不小于k,则令k自增1后再次带入S22步骤进行迭代;
[0013]S24:当搜索停止时,数据对象集达到自然稳定状态,得到的k值即为自然特征值R,基于自然近邻关系构建出自然近邻图;
[0014]S3:根据步骤S2构建起的自然近邻图,通过自然近邻关系查询自然近邻类,确定同类对象,具体包括以下子步骤:
[0015]S31:通过查询V中顶点的自然近邻数,从大到小排序,查找出近邻数最多的顶点并将其记作为v;
[0016]S32:基于类的定义对步骤S31中指定的顶点进行查询,将v与v的自然近邻点NR(v)归为第一类,即c1,此时c1内除了v的点都与v存在边直接相连;
[0017]S33:自然近邻图的形成还包括间接连接的可达路径,所以进一步迭代查询c1内点的自然近邻点即NR(c1),直至迭代第m次与m

1次的c1元素个数之差为0为止,表示与v共自然近邻图域的顶点均已被搜索到;
[0018]S34:将c1元素从顶点集合V中全部去除,重复S31,S32,S33的查询过程,直至V变为空集为止;
[0019]S35:将构建的类集按照类数目由大到小重新排序,可获得新的数据类集:
[0020]C={c1,c2,

,c
n
}且|c1|≥|c2|≥

|c
n
|;
[0021]S4:为了描述不同类的质量高低,基于自然近邻类,在传统局部异常因子方法的基础上构建一种新的类局部异常因子算法,构建流程如下:
[0022]S41:对于数据类集C={c1,c2,

,c
n
}且|c1|≥|c2|≥

|c
n
|,从中选出高质量类,记为C
h
={c1,c2,

,c
l
},其他类称为可疑类,记为C
sus
={c
l+1
,c
l+2


,c
n
};
[0023]S42:计算高质量类内各个对象的局部异常因子值CLOF;
[0024]S43:通过计算类间距离评估可疑类与高质量类相似程度;
[0025]S44:借助可疑类与高质量类相似程度及已获得的高质量点异常程度,计算可疑类局部异常因子值CLOF

(c
l+Q
),以此评估可疑类内点的异常程度;
[0026]S45:引入角度异常检测,进一步修正可疑类局部异常因子,防止部分正常数据误检测为异常,算得对象p
w
的角度离群系数ABOF(p
w
),p
w
∈D,求得修正后c
l+Q
的类局部异常因子CLOF(c
l+Q
);
[0027]S5:对低质量数据检测和未知标签进行识别,具体包括以下步骤:
[0028]S51:低质量数据的检测;由步骤S4获得的类局部异常因子包括高质量类和可疑类的CLOF,低质量本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于自然近邻类的机械监测标签数据质量保障方法,其特征在于,包括步骤如下:S1:提取机械各标签数据的时域特征、频域统计特征,构建具有特征属性的数据对象集:P{p1,p2,
···
p
N
};S2:基于自然近邻思想,对于构建的数据对象集,通过搜索自然近邻信息构建互访问路径,形成近邻图,具体包括以下子步骤:S21:设置初始化参数,使数据对象集内任意对象p
i
对应的自然邻居状态NB(p
i
)为0;任意对象p
i
的k邻居集N
k
(p
i
)为空集;任意对象p
i
的互k近邻集MN
k
(p
i
)为空集;S22:搜索k=1时,p
i
的k近邻并存入N
k
(p
i
),再搜索N
k
(p
i
)中对象p
i
的k近邻,若p
i
属于集合N
k
(p
i
),说明二者互为近邻,此时p
i
的自然邻居状态NB(p
i
)=1;S23:将S22步骤的搜索过程看作一次迭代,将迭代停止条件设定为迭代前后两次拥有互近邻数增加值是否小于k,如小于k则停止迭代;如不小于k,则令k自增1后再次带入S22步骤进行迭代;S24:当搜索停止时,数据对象集达到自然稳定状态,得到的k值即为自然特征值R,基于自然近邻关系构建出自然近邻图;S3:根据步骤S2构建起的自然近邻图,通过自然近邻关系查询自然近邻类,确定同类对象,具体包括以下子步骤:S31:通过查询V中顶点的自然近邻数,从大到小排序,查找出近邻数最多的顶点并将其记作为v;S32:基于类的定义对步骤S31中指定的顶点进行查询,将v与v的自然近邻点NR(v)归为第一类,即c1,此时c1内除了v的点都与v存在边直接相连;S33:自然近邻图的形成还包括间接连接的可达路径,所以进一步迭代查询c1内点的自然近邻点即NR(c1),直至迭代第m次与m

1次的c1元素个数之差为0为止,表示与v共自然近邻图域的顶点均已被搜索到;S34:将c1元素从顶点集合V中全部去除,重复S31,S32,S33的查询过程,直至V变为空集为止;S35:将构建的类集按照类数目由大到小重新排序,可获得新的数据类集:C={c1,c2,
···
,c
n
}且|c1|≥|c2|≥
···
|c
n
|;S4:为了描述不同类的质量高低,基于自然近邻类,在传统局部异常因子方法的基础上构建一种新的类局部异常因子算法,构建流程如下:S41:对于数据类集C={c1,c2,
···
,c
n
}且|c1|≥|c2|≥
···
|c
n
|,从中选出高质量类,记为C
h
={c1,c2,
···
,c
l
},其他类称为可疑类,记为C
sus
={c
l+1
,c
l+2
,
···
,c
n
};S42:计算高质量类内各个对象的局部异常因子值CLOF;S43:通过计算类间距离评估可疑类与高质量类相似程度;S44:借助可疑类与高质量类相似程度及已获得的高质量点异常程度,计算可疑类局部异常因子值CLOF

(c
l+q
),以此评估可疑类内点的异常程度;S45:引入角度异常检测,进一步修正可疑类局部异常因子,防止部分正常数据误检测为异常,算得对象p
w
的角度离群系数ABOF(p
w
),p
w
∈D,求得修正后c
l+q
的类局部异常因子
CLOF(x
l+q
);S5:对低质量数据检测和未知标签进行识别,具体包括以下步骤:S51:低质量数据的检测;由步骤S4获得的类局部异常因子包括高质量类和可疑类的CLOF,低质量数据的确定通过设定阈值λ进一步判断,若可疑类CLOF超过λ,则判定该类数据质量较低,否则说明该类数据属于高质量数据,从而将检测出的低质量数据剔除,提高标签数据准确性;S52:由步骤S51针对低质量剔除后的标签数据,再次重构自然近邻图,该环节自然近邻搜索停止条件设定为前后两次互近邻对象不再增加为止;S53:根据所形成的的自然近邻图,获得各高质量类,并判断监测数据的具体标签种类,有以下三种结果:(1)若p
i
数据对象代表的故障标签为而p
i
∈c
j
,则类c
j
内所有数据对象的故障标签为(2)若类c
j
内不存在已知标签数据对象,且类c
j
属于可疑类,则类c
j
与离其最近的高质量类故障标签类别相同;(3)若以上两种结果都不发生,则判定类c
j
内所有数据对象的故障标签为新故障类别。2.根据权利要求1所述一种基于自然近邻类的机械监测标签数据质量保障方法,其特征在于:步骤S2中,自然近邻思想包括以下六个定义:(1)自然稳定状态:搜索数据对象集中的k近邻,其中k依次取k=1,2,3,
···
,n直到所有对象都存在一个互近邻时,认为搜索达到自然稳定状态,即:且i≠j使得p
i
∈N
k
(p
j
)∧p
j
∈N
k
(p
i
);(2)自然特征值:搜索达到自然稳定状态时的k值便为自然特征值R,该值表示为:(3)自然邻居:搜索达到自然稳定状态时,互为近邻也称为自然...

【专利技术属性】
技术研发人员:许学方李博张宇时培明
申请(专利权)人:燕山大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1