一种数据清洗方法和系统技术方案

技术编号：19480302 阅读：48 留言：0更新日期：2018-11-17 10:33

本发明专利技术涉及一种数据清洗方法和系统，该数据清洗方法包括：对所述传感数据进行识别，得到噪声数据；计算当前噪声数据的预设时间段前的平均值；使用平均值取代噪声数据中的当前噪声值。本发明专利技术的数据清洗方法通过对所述传感数据进行识别，得到噪声数据；计算当前噪声数据的预设时间段前的平均值；使用平均值取代噪声数据中的当前噪声值，这样能够将传感数据中的由周围的环境变化或者人为原因等引起的噪声数据清理掉，使传感数据曲线变得平滑，方便后续传感数据的处理，而且该方法使用预设时间段前的平均值取代噪声数据中的当前噪声值，简单方便，准确度高。

全部详细技术资料下载

【技术实现步骤摘要】
一种数据清洗方法和系统
本专利技术涉及数据处理
，特别是涉及一种数据清洗方法和系统。
技术介绍
在环境质量监测系统中，传感数据是从传感器获取到的，而传感器又属于高灵敏器件，在运行过程中容易被周围的环境变化或者人为原因等导致传感器在某个瞬间的值突变（异常高或者异常低等)，这些突变的数据并不能反应监测点的真实情况，因此这类数据不能直接用于业务分析。在大数据挖掘领域称这类数据为噪声数据。因此,为了获得对比较准确的分析结果，行业内需要一种在分析前对噪声数据进行识别和清理的方法。
技术实现思路
针对现有技术存在的突变的数据并不能反应监测点的真实情况的问题，本专利技术提供一种数据清洗方法和系统。本申请的具体方案如下：一种数据清洗方法，包括：对所述传感数据进行识别，得到噪声数据；计算当前噪声数据的预设时间段前的平均值；使用平均值取代噪声数据中的当前噪声值。优选地，对所述传感数据进行识别，得到噪声数据包括：识别出所述传感数据在某个时刻的值突变，突变后的值为噪声数据；突变包括某一时刻的值相对于前一时刻和后一时刻的值异常的高或者某一时刻的值相对于前一时刻和后一时刻的值异常的低。优选地，识别出所述传感数据在某个时刻的值突变，突变后的值为噪声数据包括：基于密度的聚类算法DBSCAN，识别出所述传感数据在某个时刻的值突变，突变后的值为噪声数据。优选地，传感器数据包括：甲醛、VOC、二氧化碳、pm2.5、pm10、一氧化碳、臭氧、二氧化氮、二氧化硫中至少一种。优选地，所述预设时间段为1小时。一种数据清洗系统，包括：识别模块、平均值计算模块和取代模块；所述识别模块，用于对所述传感数据...

【技术保护点】
1.一种数据清洗方法，其特征在于，包括：对所述传感数据进行识别，得到噪声数据；计算当前噪声数据的预设时间段前的平均值；使用平均值取代噪声数据中的当前噪声值。

【技术特征摘要】
1.一种数据清洗方法，其特征在于，包括：对所述传感数据进行识别，得到噪声数据；计算当前噪声数据的预设时间段前的平均值；使用平均值取代噪声数据中的当前噪声值。2.根据权利要求1所述的数据清洗方法，其特征在于，对所述传感数据进行识别，得到噪声数据包括：识别出所述传感数据在某个时刻的值突变，突变后的值为噪声数据；突变包括某一时刻的值相对于前一时刻和后一时刻的值异常的高或者某一时刻的值相对于前一时刻和后一时刻的值异常的低。3.根据权利要求2所述的数据清洗方法，其特征在于，识别出所述传感数据在某个时刻的值突变，突变后的值为噪声数据包括：基于密度的聚类算法DBSCAN，识别出所述传感数据在某个时刻的值突变，突变后的值为噪声数据。4.根据权利要求1所述的数据清洗方法，其特征在于，传感器数据包括：甲醛、VOC、二氧化碳、pm2.5、pm10、一氧化碳、臭氧、二氧化氮、二氧化硫中至少一种。5.根据权利要求1所述的数据清洗方法，其特征在于，所述预设时间段为1小时。6.一种数据清...

【专利技术属性】
技术研发人员：韩站伟，杨智强，
申请(专利权)人：广州矽创信息科技有限公司，
类型：发明
国别省市：广东,44

全部详细技术资料下载我是这个专利的主人