基于导数求和的数据清洗方法(DSSCAN)技术

技术编号：17939804 阅读：84 留言：0更新日期：2018-05-15 20:11

本发明专利技术是一种基于导数求和的数据清洗方法(DSSCAN)，目的是将数据中故障或停机时的数据清洗掉。其特征在于包括下列步骤：(1)将数据中所有相邻数据相减，此步骤可以看作对数据进行求导，得到导数矩阵。(2)将导数矩阵每x个组成一组，将一组中的所有导数求和。(3)将导数之和远大于0的组记为上拐点，远小于0的组记为下拐点。(4)若两个相邻组同为上拐点或下拐点，则两个上拐点只保留后一个，两个下拐点只保留前一个。(5)若该组数据一开始或最后是故障或停机点，则将第一个数记为下拐点或最后一个数记为上拐点。(6)将相同序号的下拐点和上拐点之间的数据清除。

Data cleaning method based on derivative summation (DSSCAN)

The invention is a data cleaning method (DSSCAN) based on derivative summation, which aims to wash out data during failure or downtime. It is characterized by the following steps: (1) subtracting all the adjacent data from the data, which can be regarded as derivation of the data and derivation of the derivative matrix. (2) the derivative matrix is composed of a group of X, and all derivatives of a group are summed up. (3) the group whose derivatives are greater than 0 is regarded as the upper inflection point, and the group below 0 is the lower inflection point. (4) if the two adjacent groups are the same upper inflection point or lower inflection point, the two upper inflection points only retain the latter one, while the two lower inflection points only retain the first one. (5) if the data at the beginning or last is a fault or stop point, the first number is taken as the next inflection point or the last number as the upper inflection point. (6) clearing the data between the lower inflection point and the upper inflection point of the same serial number.

全部详细技术资料下载

【技术实现步骤摘要】
基于导数求和的数据清洗方法(DSSCAN)
本专利技术——基于导数求和的数据清洗方法(DSSCAN)，是针对复杂工业过程中清洗状态监测数据中部分机器停机数据的一种方法。
技术介绍
随着人工智能的发展，大数据技术在复杂工业过程中已经得到了广泛的应用。大数据建模时，对于工业数据的实时监测是很重要的，而在实际生产中，经常因为故障或检修使机器停机，从而导致各项参数数据会大幅下降，但是这时的数据在建模预测中往往是不需要的，甚至会对预测建模精度产生影响，因此，在数据处理时，我们需要将这一部分的数据清除。在处理这种数据时，倘若采用异常值检测的方法来处理，因为这部分数据大幅下降之后数值就会维持在下降之后的情况，直到机器重新启动各项参数的数值才会重新回升，那么这一段数据可能不会被当作异常点。针对此情况，可以设定机器正常运转参数变化范围，将不在此范围内的数据当作停机数据清除，但是此方法的范围难以划定，且有可能有部分停机数据无法去除。此外，停机时刻和重启时刻的确定也是一个难点，停机时刻虽然是数据下降的时刻，但在一段下降数据中很难确定哪一点是开始停机点。针对该问题，本文提出一种基于导数求和的数据清洗方法(DSSCAN)。该方法通过对待测数据求导(即让相邻的两个点相减)，再将求得的导数分组并将同组的导数累加，将累加得数与0相差远的点作为拐点，将两个相邻拐点之间的数定为停机数据。此方法可以有效确定停机时刻和重启时刻，并可以将所有停机数据去除。
技术实现思路
本文提出了一种基于导数求和的数据清洗方法(DSSCAN)，包含有以下步骤：1.将数据中所有相邻数据一一相减，即对数据进行求导，并得到...

【技术保护点】
一种基于导数求和的数据清洗方法(DSSCAN)，其特征在于：对数据进行求导得到导数矩阵D。将数据中所有相邻数据一一相减，即对数据进行求导，并得到导数矩阵D。

【技术特征摘要】
1.一种基于导数求和的数据清洗方法(DSSCAN)，其特征在于：对数据进行求导得到导数矩阵D。将数据中所有相邻数据一一相减，即对数据进行求导，并得到导数矩阵D。2.权利要求1所述的一种基于导数求和的数据清洗方法(DSSCAN)，其特征还在于：对导数矩阵D分组再将同一组的导数累加。将D中每x个数据合为一组数据(x可任意取值，根据清洗效果选取，一般取20～30为宜)，对x个导数累加求和，得到导数求和矩阵DS。若数据原本有N个数据，则导数求和矩阵有N/x个数据。3.权利要求1所述的一种基于导数求和的数据清洗方法(DSSCAN)，其特征还在于：将DS中远大于0和远小于0的数记为拐点。比较导数求和矩阵的数值，若导数求和矩阵的数值接近于0，则为正常运行数据，设定一个阈值L(L＞＞0)：(1)若DS(i)＞L，则将i记入上拐点矩阵G上。(i＝1，2，…，N/x)(2)若DS(i)＜-L，则将i记入下拐点矩阵G下。(i＝1，2，…，N/x)。4.权利要求1所述的一种基于导数求和的数据清洗方法(DSSCAN)，其特征还在于：有连续多个数据符合拐点要求时只取其中一个。若多个相邻组的导数之和均大于L或小于-L，则证明这个上升过程或下降过程的长度超过x，因此：(...

【专利技术属性】
技术研发人员：田慧欣，欧阳北平，
申请(专利权)人：天津工业大学，
类型：发明
国别省市：天津,12

全部详细技术资料下载我是这个专利的主人