一种基于相邻数据特征的数据缺失填充方法技术

技术编号：14233708 阅读：54 留言：0更新日期：2016-12-21 00:37

本发明专利技术的目的是为解决利用数据对设备进行故障诊断时出现数据缺失的问题，公开了一种基于相邻数据特征的数据缺失填充方法。其过程中，找到缺失值位置，利用系统在线监测数据不能骤然变化并具有一定周期性的特点，挖掘缺失值与其相邻数据、与相邻数据相等的数据之间的关系，进而对缺失值进行填充。

Data missing filling method based on adjacent data characteristic

The purpose of the invention is to solve the problem that the data is missing when the data is used for the fault diagnosis of the equipment, and a data deletion filling method based on the adjacent data characteristics is disclosed. In the process, to find the missing value position, making use of the characteristics of data on-line monitoring system cannot change suddenly and with certain period, exploring the relationship between the adjacent data, and adjacent data equal to the missing value data, and the missing values are filled.

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于设备状态诊断领域。
技术介绍
在线监测数据反映了设备运行状态，常被用来诊断设备故障情况，但由于监测设备在受到外界干扰或设备损坏时，会不可避免地出现数据缺失问题。数据缺失破坏了原数据的完整性和真实性，很多的统计工具直接将缺失数据缺省，这种处理方法虽然效率高，但当使用处理过的数据集进行数据挖掘时，将会使聚类模型产生倾斜，从而使挖掘结果产生偏差。目前比较好的缺失值处理方法是对不完整的数据记录进行填充。数据填充常见算法有KNN、贝叶斯网络、神经网络等。KNN算法计算量较大；贝叶斯网络需要的数据多，分析计算比较复杂，特别在解决复杂问题时，这个矛盾就更为突出；神经网络算法常常会出现局部最优的问题，而且无法用神经网络直观地解释推理过程和推理依据。
技术实现思路
本专利技术的目的是为解决利用数据对设备进行故障诊断时出现数据缺失的问题。为实现本专利技术目的而采用的技术方案是这样的，一种基于相邻数据特征的数据缺失填充方法，其特征在于:读取一段按照时间顺序排列的数据序列；所述数据序列中，存在n个数据，所述数据序列为data(x1)、data(x2)……data(xn)表示，x1、x2……xn为时间序列Q，n为自然数；所述数据序列中，缺失了编号为i的数据，即data(i)，i为等差数列Q中的一个值；填充编号为i的数据，包括以下步骤：1)读取与编号为i的数据相邻的数据data(i-1)；在所述数据序列中，从头开始寻找与data(i-1)之差的绝对值小于0.02的数据；如果没有找到这样的数据，则下一步直接进入步骤5)；如果找到这样的一个或多个数据，令其中一个数据的序列号为...
一种基于相邻数据特征的数据缺失填充方法

【技术保护点】
一种基于相邻数据特征的数据缺失填充方法，其特征在于:读取一段按照时间顺序排列的数据序列；所述数据序列中，存在n个数据，所述数据序列为data(x1)、data(x2)……data(xn)表示，x1、x2……xn为时间序列Q，n为自然数；所述数据序列中，缺失了编号为i的数据，即data(i)，i为等差数列Q中的一个值；填充编号为i的数据，包括以下步骤：1)读取与编号为i的数据相邻的数据data(i‑1)；在所述数据序列中，从头开始寻找与data(i‑1)之差的绝对值小于0.02的数据；如果没有找到这样的数据，则下一步直接进入步骤5)；如果找到这样的一个或多个数据，令其中一个数据的序列号为k‑1，即该数据记为data(k‑1)，并进入下一步，k为时间序列Q中的一个值；2)读取data(k)和data(i)左边的三个数据，将data(k‑3)、data(k‑2)和data(k‑1)进行一次拟合，data(i‑3)、data(i‑2)和data(i‑1)进行一次拟合；如果data(k‑3)、data(k‑2)和data(k‑1)的变化趋势与data(i‑3)、data(i‑2)和data(i‑...

【技术特征摘要】
1.一种基于相邻数据特征的数据缺失填充方法，其特征在于:读取一段按照时间顺序排列的数据序列；所述数据序列中，存在n个数据，所述数据序列为data(x1)、data(x2)……data(xn)表示，x1、x2……xn为时间序列Q，n为自然数；所述数据序列中，缺失了编号为i的数据，即data(i)，i为等差数列Q中的一个值；填充编号为i的数据，包括以下步骤：1)读取与编号为i的数据相邻的数据data(i-1)；在所述数据序列中，从头开始寻找与data(i-1)之差的绝对值小于0.02的数据；如果没有找到这样的数据，则下一步直接进入步骤5)；如果找到这样的一个或多个数据，令其中一个数据的序列号为k-1，即该数据记为data(k-1)，并进入下一步，k为时间序列Q中的一个值；2)读取data(k)和data(i)左边的三个数据，将data(k-3)、data(k-2)和data(k-1)进行一次拟合，data(i-3)、data(i-2)和data(i-1)进行一次拟合；如果data(k-3)、data(k-2)和data(k-1)的变化趋势与data(i-3)、data(i-2)和data(i-1)的变化趋势相同，则进入下一步；否则，回到步骤1)，重新选取data(k-1)，但无法通过步骤1)选取data(k-1)时，则进入步骤5)；3)读取data(k)和data(i)右边的三个数据，将data(k+3)、data(k+2)和...

【专利技术属性】
技术研发人员：王有元，陈伟根，杜林，李剑，周湶，刘玉，王飞鹏，周立玮，杜修明，杨祎，朱孟兆，
申请(专利权)人：重庆大学，国网山东省电力公司，
类型：发明
国别省市：重庆;50

全部详细技术资料下载我是这个专利的主人