一种数据清洗方法和系统技术方案

技术编号:19480302 阅读:48 留言:0更新日期:2018-11-17 10:33
本发明专利技术涉及一种数据清洗方法和系统,该数据清洗方法包括:对所述传感数据进行识别,得到噪声数据;计算当前噪声数据的预设时间段前的平均值;使用平均值取代噪声数据中的当前噪声值。本发明专利技术的数据清洗方法通过对所述传感数据进行识别,得到噪声数据;计算当前噪声数据的预设时间段前的平均值;使用平均值取代噪声数据中的当前噪声值,这样能够将传感数据中的由周围的环境变化或者人为原因等引起的噪声数据清理掉,使传感数据曲线变得平滑,方便后续传感数据的处理,而且该方法使用预设时间段前的平均值取代噪声数据中的当前噪声值,简单方便,准确度高。

【技术实现步骤摘要】
一种数据清洗方法和系统
本专利技术涉及数据处理
,特别是涉及一种数据清洗方法和系统。
技术介绍
在环境质量监测系统中,传感数据是从传感器获取到的,而传感器又属于高灵敏器件,在运行过程中容易被周围的环境变化或者人为原因等导致传感器在某个瞬间的值突变(异常高或者异常低等),这些突变的数据并不能反应监测点的真实情况,因此这类数据不能直接用于业务分析。在大数据挖掘领域称这类数据为噪声数据。因此,为了获得对比较准确的分析结果,行业内需要一种在分析前对噪声数据进行识别和清理的方法。
技术实现思路
针对现有技术存在的突变的数据并不能反应监测点的真实情况的问题,本专利技术提供一种数据清洗方法和系统。本申请的具体方案如下:一种数据清洗方法,包括:对所述传感数据进行识别,得到噪声数据;计算当前噪声数据的预设时间段前的平均值;使用平均值取代噪声数据中的当前噪声值。优选地,对所述传感数据进行识别,得到噪声数据包括:识别出所述传感数据在某个时刻的值突变,突变后的值为噪声数据;突变包括某一时刻的值相对于前一时刻和后一时刻的值异常的高或者某一时刻的值相对于前一时刻和后一时刻的值异常的低。优选地,识别出所述传感数据在某个时刻的值突变,突变后的值为噪声数据包括:基于密度的聚类算法DBSCAN,识别出所述传感数据在某个时刻的值突变,突变后的值为噪声数据。优选地,传感器数据包括:甲醛、VOC、二氧化碳、pm2.5、pm10、一氧化碳、臭氧、二氧化氮、二氧化硫中至少一种。优选地,所述预设时间段为1小时。一种数据清洗系统,包括:识别模块、平均值计算模块和取代模块;所述识别模块,用于对所述传感数据进行识别,得到噪声数据;所述平均值计算,用于计算当前噪声数据的预设时间段前的平均值;所述取代模块,用于使用平均值取代噪声数据中的当前噪声值。优选地,所述识别模块,还用于识别出所述传感数据在某个时刻的值突变,突变后的值为噪声数据;突变包括某一时刻的值相对于前一时刻和后一时刻的值异常的高或者某一时刻的值相对于前一时刻和后一时刻的值异常的低。优选地,所述识别模块,还用于基于密度的聚类算法DBSCAN,识别出所述传感数据在某个时刻的值突变,突变后的值为噪声数据。优选地,传感器数据包括:甲醛、VOC、二氧化碳、pm2.5、pm10、一氧化碳、臭氧、二氧化氮、二氧化硫中至少一种。优选地,所述预设时间段为1小时。与现有技术相比,本专利技术具有如下有益效果:本实施例的数据清洗方法通过对所述传感数据进行识别,得到噪声数据;计算当前噪声数据的预设时间段前的平均值;使用平均值取代噪声数据中的当前噪声值,这样能够将传感数据中的由周围的环境变化或者人为原因等引起的噪声数据清理掉,使传感数据曲线变得平滑,方便后续传感数据的处理,而且该方法使用预设时间段前的平均值取代噪声数据中的当前噪声值,简单方便,准确度高。附图说明图1为一实施例的数据清洗方法的示意性流程图;图2为一实施例的数据清洗系统的示意性结构图。具体实施方式为使本专利技术实施例的目的、技术方案和优点更加清楚,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。参见图1、一种数据清洗方法,包括:S11,对所述传感数据进行识别,得到噪声数据;步骤S11包括:识别出所述传感数据在某个时刻的值突变,突变后的值为噪声数据;突变包括某一时刻的值相对于前一时刻和后一时刻的值异常的高或者某一时刻的值相对于前一时刻和后一时刻的值异常的低。具体的,基于密度的聚类算法DBSCAN,识别出所述传感数据在某个时刻的值突变,突变后的值为噪声数据。其中,DBSCAN算法描述如下:输入:包含n个对象的数据库,半径e,最少数目MinPts;输出:所有生成的簇,达到密度要求。(1)Repeat(2)从数据库中抽出一个未处理的点;(3)IF抽出的点是核心点THEN找出所有从该点密度可达的对象,形成一个簇;(4)ELSE抽出的点是边缘点(非核心对象),跳出本次循环,寻找下一个点;(5)UNTIL所有的点都被处理。DBSCAN对用户定义的参数很敏感,细微的不同都可能导致差别很大的结果,而参数的选择无规律可循,只能靠经验确定。S12,计算当前噪声数据的预设时间段前的平均值;在本实施例,所述预设时间段为1小时。即计算当前噪声数据的前1小时的传感数据的平均值。S13,使用平均值取代噪声数据中的当前噪声值。比如大A班12:02时获得甲醛浓度是0.21,通过第一步判定为噪声数据后,用前一个小时的平均值:0.045替换。在本实施例,传感器数据包括:甲醛、VOC、二氧化碳、pm2.5、pm10、一氧化碳、臭氧、二氧化氮、二氧化硫中。需要说明的是,传感器数据是由对应的传感器采集环境参数得到。比如,甲醛传感器采集环境中的空气,得到甲醛数据。二氧化碳传感器采集环境中的二氧化碳,得到二氧化碳数据。本实施例的数据清洗方法通过对所述传感数据进行识别,得到噪声数据;计算当前噪声数据的预设时间段前的平均值;使用平均值取代噪声数据中的当前噪声值,这样能够将传感数据中的由周围的环境变化或者人为原因等引起的噪声数据清理掉,使传感数据曲线变得平滑,方便后续传感数据的处理,而且该方法使用预设时间段前的平均值取代噪声数据中的当前噪声值,简单方便,准确度高。参见图2、一种数据清洗系统,包括:识别模块1、平均值计算模块2和取代模块3;所述识别模块1,用于对所述传感数据进行识别,得到噪声数据;所述平均值计算,用于计算当前噪声数据的预设时间段前的平均值;所述取代模块3,用于使用平均值取代噪声数据中的当前噪声值。在本实施例,所述预设时间段为1小时。比如:比如大A班12:02时获得甲醛浓度是0.21,通过第一步判定为噪声数据后,用前一个小时的平均值:0.045替换。在本实施例,所述识别模块1,还用于识别出所述传感数据在某个时刻的值突变,突变后的值为噪声数据;突变包括某一时刻的值相对于前一时刻和后一时刻的值异常的高或者某一时刻的值相对于前一时刻和后一时刻的值异常的低。更进一步地,所述识别模块1,还用于基于密度的聚类算法DBSCAN,识别出所述传感数据在某个时刻的值突变,突变后的值为噪声数据。在本实施例,传感器数据包括:甲醛、VOC、二氧化碳、pm2.5、pm10、一氧化碳、臭氧、二氧化氮、二氧化硫中。需要说明的是,传感器数据是由对应的传感器采集环境参数得到。比如,甲醛传感器采集环境中的空气,得到甲醛数据。二氧化碳传感器采集环境中的二氧化碳,得到二氧化碳数据。上述数据清洗方法适用数据清洗系统,在此不在一一赘述。本实施例的数据清洗系统通过识别模块1对所述传感数据进行识别,得到噪声数据;平均值计算模块2计算当前噪声数据的预设时间段前的平均值;取代模块3使用平均值取代噪声数据中的当前噪声值,这样能够将传感数据中的由周围的环境变化或者人为原因等引起的噪声数据清理掉,使传感数据曲线变得平滑,方便后续传感数据的处理,而且该系统使用预设时间段前的平均值取代噪声数据中的当前噪声值,简单方便,准确度高。以上所述实施例仅表达了本专利技术的几种实本文档来自技高网...

【技术保护点】
1.一种数据清洗方法,其特征在于,包括:对所述传感数据进行识别,得到噪声数据;计算当前噪声数据的预设时间段前的平均值;使用平均值取代噪声数据中的当前噪声值。

【技术特征摘要】
1.一种数据清洗方法,其特征在于,包括:对所述传感数据进行识别,得到噪声数据;计算当前噪声数据的预设时间段前的平均值;使用平均值取代噪声数据中的当前噪声值。2.根据权利要求1所述的数据清洗方法,其特征在于,对所述传感数据进行识别,得到噪声数据包括:识别出所述传感数据在某个时刻的值突变,突变后的值为噪声数据;突变包括某一时刻的值相对于前一时刻和后一时刻的值异常的高或者某一时刻的值相对于前一时刻和后一时刻的值异常的低。3.根据权利要求2所述的数据清洗方法,其特征在于,识别出所述传感数据在某个时刻的值突变,突变后的值为噪声数据包括:基于密度的聚类算法DBSCAN,识别出所述传感数据在某个时刻的值突变,突变后的值为噪声数据。4.根据权利要求1所述的数据清洗方法,其特征在于,传感器数据包括:甲醛、VOC、二氧化碳、pm2.5、pm10、一氧化碳、臭氧、二氧化氮、二氧化硫中至少一种。5.根据权利要求1所述的数据清洗方法,其特征在于,所述预设时间段为1小时。6.一种数据清...

【专利技术属性】
技术研发人员:韩站伟杨智强
申请(专利权)人:广州矽创信息科技有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1