用于自动化环境监测设备的异常数据分析方法及系统技术方案

技术编号:35432021 阅读:22 留言:0更新日期:2022-11-03 11:37
本发明专利技术涉及数据处理技术领域,具体涉及用于自动化环境监测设备的异常数据分析方法及系统。方法包括:得到各环境数据在多维空间中的环境数据点;获取多维空间中的各环境数据点的时序邻近点集以及空间邻近点集;根据各环境数据点的时序邻近点集以及空间邻近点集,得到多维空间中的各环境数据点的点集排列相似性;根据各环境数据点的点集排列相似性,计算各环境数据点的时序邻近相似性;根据各环境数据点的点集排列相似性以及时序邻近相似性,得到环境异常数据以及传感器异常数据。本发明专利技术能够区分由环境异常引起的异常数据以及由传感器异常引起的异常数据,可以为后续对环境异常数据的分析提供更加精确有效的数据集。的分析提供更加精确有效的数据集。的分析提供更加精确有效的数据集。

【技术实现步骤摘要】
用于自动化环境监测设备的异常数据分析方法及系统


[0001]本专利技术涉及数据处理
,具体涉及用于自动化环境监测设备的异常数据分析方法及系统。

技术介绍

[0002]环境监测设备的应用范围极广,对环境数据准确监测是进行气象预测、生态保护等后续环节的重要步骤,而异常的环境监测数据会影响后续的气象分析效果以及环境保护决策的制定,因此,对于环境监测中获取的异常数据进行识别筛选是保证后续工作效果的基础,而随着科学技术的发展,自动化的环境监测设备越来越普及,自动化环境监测设备的应用提高了环境监测数据采集的效率以及数量,为后续对环境数据的分析提供了大量的数据,但随之而来的是自动化监测设备在采集环境数据后不能有效的筛选出异常的数据,与人工采集数据可以及时的通过人工进行异常数据的分析相比,自动化检测设备不能确保采集数据的有效性。因此,对于自动化环境监测设备来说,在采集环境数据后对异常数据的识别分析与筛选就尤为重要。
[0003]现有技术一般利用如LOF的异常检测算法来检测异常数据,但是在自动化环境监测设备获取的数据中,其中存在的异常数据的成因有两种,一种是由于环境的异常变化而产生的环境异常数据,一种是由于自动化环境监测设备的传感器发生故障而产生的传感器异常数据,这两种异常数据均会被采集到环境数据集中。而LOF异常数据检测算法是根据异常数据的局部密度来进行异常检测的,而上述两种原因产生的异常数据均为局部密度较小的数据,这就会导致LOF异常数据检测算法对上述两种原因产生的异常数据是一视同仁的,也即无法区分二者,而无法区分二者产生的后果会导致对后续异常环境数据的分析结果不准确(由于异常环境数据中混入了传感器异常数据),因此在检测出异常环境数据的同时能区分这些异常环境数据的成因具体是环境异常,还是传感器异常是需要解决的问题。

技术实现思路

[0004]为了解决上述问题,本专利技术提供用于自动化环境监测设备的异常数据分析方法及系统,所采用的技术方案具体如下:第一方面,本专利技术实施例提供了一种用于自动化环境监测设备的异常数据分析方法,包括以下步骤:获取自动化环境监测设备收集到的各环境数据,一个环境数据为一个多维向量;一个环境数据对应一个时间戳;将收集到的各环境数据对应到多维空间中,得到各环境数据在多维空间中的数据点,记为环境数据点;一个环境数据对应一个环境数据点;获取多维空间中的各环境数据点的时序邻近点集以及空间邻近点集;根据各环境数据点的时序邻近点集以及空间邻近点集,得到多维空间中的各环境数据点的点集排列相似性;根据各环境数据点的点集排列相似性,计算各环境数据点的时序邻近相似性;根据各环境数据点的点集排列相似性以及时序邻近相似性,得到环境异常数据以
及传感器异常数据。
[0005]第二方面,本专利技术提供了一种用于自动化环境监测设备的异常数据分析系统,包括存储器和处理器,所述处理器执行所述存储器存储的计算机程序,以实现上述用于自动化环境监测设备的异常数据分析方法。
[0006]优选的,所述多维向量中参数包括温度数据、湿度数据和风速数据。
[0007]优选的,获取多维空间中的各环境数据点的时序邻近点集以及空间邻近点集的方法,包括:对于多维空间中的任一环境数据点:将该环境数据点记为,该环境数据点的角标i该环境数据点对应的环境数据的采集时序序号;该环境数据点的时序邻近点集是由与该环境数据点在时序上最邻近的个环境数据点组成,将该环境数据点的时序邻近点集记为;所述时序邻近点集中的环境数据点的数量为K;该数据点的空间邻近点集是由与该数据点在多维空间内最邻近的个环境数据点组成,将该环境数据点的空间邻近点集记为;所述空间邻近点集中的环境数据点的数量为K。
[0008]优选的,得到多维空间中的各环境数据点的点集排列相似性的方法,包括:对于多维空间中的任一环境数据点:将该环境数据点记为,按照时序的顺序分别对该环境数据点的时序邻近点集中的各环境数据点以及该环境数据点的对应的空间邻近点集中的各环境数据点进行排序;将排序后的两个点集分别记为和;获得该环境数据点对应的排列相似性序列;获得该环境数据点对应的排列相似性序列的过程为:若与相同,则将排序相似性置1,若与不相同,则将排序相似性置0;所述为中的第个环境数据点,为中的第个环境数据点,为正整数;将该环境数据点对应的排列相似性序列记为,并以表示中第个位置的排列相似性的值;根据该环境数据点对应的排列相似性序列中的各排列相似性的值,得到该环境数据点的点集排列相似性,为正整数。
[0009]优选的,根据如下公式计算该环境数据点的点集排列相似性:
其中,为该环境数据点的点集排列相似性,为该环境数据点对应的排列相似性序列中的参数数量,为该环境数据点对应的排列相似性序列中的第k1个排列相似性的值,为该环境数据点对应的排列相似性序列中的排列相似性的值的序号。
[0010]优选的,计算各环境数据点的时序邻近相似性的方法,包括:获取该环境数据点的序号和该环境数据点对应的排序后的时序邻近点集中第k个环境数据点的序号;根据该环境数据点的序号和该环境数据点对应的排序后的时序邻近点集中第k个环境数据点的序号,得到该环境数据点的时序邻近相似性;根据如下公式计算该环境数据点的时序邻近相似性:其中,为该环境数据点的时序邻近相似性,为该环境数据点的序号与该环境数据点对应的排序后的时序邻近点集中第k个环境数据点的序号之间的欧式距离,为时序邻近点集和空间邻近点集中的环境数据点的数量,为以自然常数e为底的常数。
[0011]优选的,根据各环境数据点的点集排列相似性以及时序邻近相似性,得到环境异常数据以及传感器异常数据的方法,包括:对于环境数据点:对环境数据点对应的点集排列相似性以及时序邻近相似性进行归一化,得到归一化后的环境数据点对应的点集排列相似性以及时序邻近相似性;将获取的、对应到二维空间中,以表示环境数据点的类别特征,计算环境数据点对应的与点的欧式距离,环境数据点对应的与点的欧式距离,环境数据点对应的与点的欧式距离,类别角标H、Z、C分别表示环境异常数据、正常数据、传感器异常数据;以、、中最小的一个欧式距离对应的类别角标作为该环境数据点的异常类别。
[0012]有益效果:本专利技术首先获取自动化环境监测设备收集到的各环境数据,一个环境数据为一个多维向量;一个环境数据对应一个时间戳;将收集到的各环境数据对应到多维空间中,得到各环境数据在多维空间中的数据点,记为环境数据点;一个环境数据对应一个
环境数据点;然后获取多维空间中的各环境数据点的时序邻近点集以及空间邻近点集;根据各环境数据点的时序邻近点集以及空间邻近点集,得到多维空间中的各环境数据点的点集排列相似性;根据各环境数据点的点集排列相似性,计算各环境数据点的时序邻近相似性;最后根据各环境数据点的点集排列相似性以及时序邻近相似性,得到环境异常数据以及传感器异常数据。本专利技术能够区分由环境异常引起的异常数据以及由传感器异常引起的异常数据,可以为后续对环境异常数据的分析提供更加精确有效的数据集。
附图说明
[0013]为了更清楚本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种用于自动化环境监测设备的异常数据分析方法,其特征在于,该方法包括如下步骤:获取自动化环境监测设备收集到的各环境数据,一个环境数据为一个多维向量;一个环境数据对应一个时间戳;将收集到的各环境数据对应到多维空间中,得到各环境数据在多维空间中的数据点,记为环境数据点;一个环境数据对应一个环境数据点;获取多维空间中的各环境数据点的时序邻近点集以及空间邻近点集;根据各环境数据点的时序邻近点集以及空间邻近点集,得到多维空间中的各环境数据点的点集排列相似性;根据各环境数据点的点集排列相似性,计算各环境数据点的时序邻近相似性;根据各环境数据点的点集排列相似性以及时序邻近相似性,得到环境异常数据以及传感器异常数据;得到多维空间中的各环境数据点的点集排列相似性的方法,包括:对于多维空间中的任一环境数据点:将该环境数据点记为,按照时序的顺序分别对该环境数据点的时序邻近点集中的各环境数据点以及该环境数据点的对应的空间邻近点集中的各环境数据点进行排序;将排序后的两个点集分别记为和;获得该环境数据点对应的排列相似性序列;获得该环境数据点对应的排列相似性序列的过程为:若与相同,则将排序相似性置1,若与不相同,则将排序相似性置0;所述为中的第个环境数据点,为中的第个环境数据点,为正整数;将该环境数据点对应的排列相似性序列记为,并以表示中第个位置的排列相似性的值;根据该环境数据点对应的排列相似性序列中的各排列相似性的值,得到该环境数据点的点集排列相似性,为正整数;根据如下公式计算该环境数据点的点集排列相似性:其中,为该环境数据点的点集排列相似性,为该环境数据点对应的排列相似性序列中的参数数量,为该环境数据点对应的排列相似性序列中的第k1个排列相似性的值,为该环境数据点对应的排列相似性序列中的排列相似性的值的序号;计算各环境数据点的时序邻近相似性的方法,包括:获取该环境数据点的序号和该环境数据点对应的排序后的时序邻近点集中第k个环
境数据点的序号;根据该环境数据点的序号和该环境数据点对应的排序后的时序邻近点集中第k个环境数据点的序号,得到该环境数据点的时序邻近相似性;根据如下公式计算该环...

【专利技术属性】
技术研发人员:赵敏
申请(专利权)人:江苏云天新材料制造有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1