基于导数求和的数据清洗方法(DSSCAN)技术

技术编号:17939804 阅读:84 留言:0更新日期:2018-05-15 20:11
本发明专利技术是一种基于导数求和的数据清洗方法(DSSCAN),目的是将数据中故障或停机时的数据清洗掉。其特征在于包括下列步骤:(1)将数据中所有相邻数据相减,此步骤可以看作对数据进行求导,得到导数矩阵。(2)将导数矩阵每x个组成一组,将一组中的所有导数求和。(3)将导数之和远大于0的组记为上拐点,远小于0的组记为下拐点。(4)若两个相邻组同为上拐点或下拐点,则两个上拐点只保留后一个,两个下拐点只保留前一个。(5)若该组数据一开始或最后是故障或停机点,则将第一个数记为下拐点或最后一个数记为上拐点。(6)将相同序号的下拐点和上拐点之间的数据清除。

Data cleaning method based on derivative summation (DSSCAN)

The invention is a data cleaning method (DSSCAN) based on derivative summation, which aims to wash out data during failure or downtime. It is characterized by the following steps: (1) subtracting all the adjacent data from the data, which can be regarded as derivation of the data and derivation of the derivative matrix. (2) the derivative matrix is composed of a group of X, and all derivatives of a group are summed up. (3) the group whose derivatives are greater than 0 is regarded as the upper inflection point, and the group below 0 is the lower inflection point. (4) if the two adjacent groups are the same upper inflection point or lower inflection point, the two upper inflection points only retain the latter one, while the two lower inflection points only retain the first one. (5) if the data at the beginning or last is a fault or stop point, the first number is taken as the next inflection point or the last number as the upper inflection point. (6) clearing the data between the lower inflection point and the upper inflection point of the same serial number.

【技术实现步骤摘要】
基于导数求和的数据清洗方法(DSSCAN)
本专利技术——基于导数求和的数据清洗方法(DSSCAN),是针对复杂工业过程中清洗状态监测数据中部分机器停机数据的一种方法。
技术介绍
随着人工智能的发展,大数据技术在复杂工业过程中已经得到了广泛的应用。大数据建模时,对于工业数据的实时监测是很重要的,而在实际生产中,经常因为故障或检修使机器停机,从而导致各项参数数据会大幅下降,但是这时的数据在建模预测中往往是不需要的,甚至会对预测建模精度产生影响,因此,在数据处理时,我们需要将这一部分的数据清除。在处理这种数据时,倘若采用异常值检测的方法来处理,因为这部分数据大幅下降之后数值就会维持在下降之后的情况,直到机器重新启动各项参数的数值才会重新回升,那么这一段数据可能不会被当作异常点。针对此情况,可以设定机器正常运转参数变化范围,将不在此范围内的数据当作停机数据清除,但是此方法的范围难以划定,且有可能有部分停机数据无法去除。此外,停机时刻和重启时刻的确定也是一个难点,停机时刻虽然是数据下降的时刻,但在一段下降数据中很难确定哪一点是开始停机点。针对该问题,本文提出一种基于导数求和的数据清洗方法(DSSCAN)。该方法通过对待测数据求导(即让相邻的两个点相减),再将求得的导数分组并将同组的导数累加,将累加得数与0相差远的点作为拐点,将两个相邻拐点之间的数定为停机数据。此方法可以有效确定停机时刻和重启时刻,并可以将所有停机数据去除。
技术实现思路
本文提出了一种基于导数求和的数据清洗方法(DSSCAN),包含有以下步骤:1.将数据中所有相邻数据一一相减,即对数据进行求导,并得到导数矩阵D。2.对导数矩阵D分组再将同一组的导数累加。将D中每x个数据合为一组数据(x可任意取值,根据清洗效果选取,一般取20~30为宜),对x个导数累加求和,得到导数求和矩阵DS。若数据原本有N个数据,则导数求和矩阵有N/x个数据。3.将DS中远大于0和远小于0的数记为拐点。比较导数求和矩阵的数值,若导数求和矩阵的数值接近于0,则为正常运行数据,设定一个阈值L(L>>0):(1)若DS(i)>L,则将i记入上拐点矩阵G上。(i=1,2,…,N/x)(2)若DS(i)<-L,则将i记入下拐点矩阵G下。(i=1,2,…,N/x)4.若多个相邻组的导数之和均大于L或小于-L,则证明这个上升过程或下降过程的长度超过x,因此:(1)若DS(i-1)>L&DS(i)>L,则只将i记入上拐点矩阵G上(j)。(i=2,3,…,N/x;设数据中有m个下拐点,即j=1,2,…,m)(2)若DS(i-1)<-L&DS(i)<-L,则只将i-1记入下拐点矩阵G下(k)。(i=2,3,…,N/x;设数据中有p个下拐点,即k=1,2,…,p)5.(1)如果数据一开始就是停机数据,则会导致上拐点比下拐点多,即m>p,因此当第一个上拐点在第一个下拐点之前出现,即G上(1)<G下(1),则将第1组记入下拐点矩阵g下第一个数。(2)如果数据最后是停机数据,则会导致下拐点比上拐点多一个,即m<p,因此当最后一个上拐点在最后一个下拐点之前出现,即G上(m)<G下(p),则将第N/x组记入上拐点矩阵G上最后一个数。完成以上步骤之后m=p。6.将数据中xG下(l)-x+1到xG上(l)(l=1,2,…,m)之间的数据清除即可得到去除停机点后的数据。附图说明图1DSSCAN算法流程图图2使用DSSCAN处理前的数据图3使用DSSCAN处理后的数据应用实例取中压压缩机2015.10至2016.10一年数据对各项参数进行数据清洗,采用的DSSCAN将x设为30,将阈值L设定为100。清洗前的一级洗涤器入口压力数据如图2所示,清洗后的一级洗涤器入口数据如图3所示。可以看到清洗前的数据有一半左右都是停机数据,停机之后数据会大幅下降,清洗完之后的数据均在正常值范围波动。由图2和图3的对比可以有效DSSCAN的有效性。本文档来自技高网...
基于导数求和的数据清洗方法(DSSCAN)

【技术保护点】
一种基于导数求和的数据清洗方法(DSSCAN),其特征在于:对数据进行求导得到导数矩阵D。将数据中所有相邻数据一一相减,即对数据进行求导,并得到导数矩阵D。

【技术特征摘要】
1.一种基于导数求和的数据清洗方法(DSSCAN),其特征在于:对数据进行求导得到导数矩阵D。将数据中所有相邻数据一一相减,即对数据进行求导,并得到导数矩阵D。2.权利要求1所述的一种基于导数求和的数据清洗方法(DSSCAN),其特征还在于:对导数矩阵D分组再将同一组的导数累加。将D中每x个数据合为一组数据(x可任意取值,根据清洗效果选取,一般取20~30为宜),对x个导数累加求和,得到导数求和矩阵DS。若数据原本有N个数据,则导数求和矩阵有N/x个数据。3.权利要求1所述的一种基于导数求和的数据清洗方法(DSSCAN),其特征还在于:将DS中远大于0和远小于0的数记为拐点。比较导数求和矩阵的数值,若导数求和矩阵的数值接近于0,则为正常运行数据,设定一个阈值L(L>>0):(1)若DS(i)>L,则将i记入上拐点矩阵G上。(i=1,2,…,N/x)(2)若DS(i)<-L,则将i记入下拐点矩阵G下。(i=1,2,…,N/x)。4.权利要求1所述的一种基于导数求和的数据清洗方法(DSSCAN),其特征还在于:有连续多个数据符合拐点要求时只取其中一个。若多个相邻组的导数之和均大于L或小于-L,则证明这个上升过程或下降过程的长度超过x,因此:(...

【专利技术属性】
技术研发人员:田慧欣欧阳北平
申请(专利权)人:天津工业大学
类型:发明
国别省市:天津,12

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1