【技术实现步骤摘要】
一种基于XGBoost算法的PM
2.5
数据异常识别方法
[0001]本专利技术涉及空气质量监测
,尤其涉及一种基于XGBoost算法的PM
2.5
数据异常识别方法。
技术介绍
[0002]国家空气监测站主要负责监测全国各地的环境空气质量,目前共建有近2000个国控级别的空气质量监测站,监测6项常规污染物,分别为CO、 O3、SO2、NO2、PM
2.5
和PM
10
。每小时会产生1个小时监测数据,一天产生24 条小时数据。国控站由运维公司进行运维,空气质量监测数据先由运维公司的审核人员对数据进行审核,对仪器质检、故障、运行不稳定期间产生的数据做无效处理,并进行提交给环境监测总站对数据进行复核。目前国控空气站数据复核采用人工复核的方式,数据复核人员根据多站点单污染物、单站点多污染物的相关性、差异性变化趋势等对异常数据进行判断,结合数据趋势异常的时间点或时间段,如数据异常偏高或异常偏低的时间段,查看疑似异常时间段的监测仪器运行状态,将异常值反馈给运维人 ...
【技术保护点】
【技术特征摘要】
1.一种基于XGBoost算法的PM
2.5
数据异常识别方法,其特征在于,包括以下步骤:步骤1:采集国控站六项污染物的小时数据,形成原始数据;步骤2:数据预处理,对原始数据进行预处理,提高原始数据质量;步骤3:从原始数据中提取特征,对原始数据进行观察,构建四大类特征;步骤4:模型训练与测试,确定XGBoost算法作为训练模型并测试;步骤5:异常数据分析,对于模型识别后的异常数据,进一步进行分析,分析后的数据用于后续调整模型参数,改善模型性能;步骤6:运维事件标识并去除,数据分析时,将运维前、后的时间段对数据造成影响的,去除相应时段的监测数据;步骤7:气象监测要素整合,通过分析点位气象参数,结合数据情况综合判断数据有效性;步骤8:仪器设备参数异常判定,对其他原因导致的站点数据发生变化,进行数据分析时再次判定关键参数的异常情况。2.根据权利要求1所述的一种基于XGBoost算法的PM2.5数据异常识别方法,其特征在于,所述步骤2包括对数据预处理过程中产生的带标识数据定为异常值缺失数据并进行插补,使用关系系数矩阵确定缺失值取值排序,关系系数R计算公式为:其中,cov((X
i
,X
j
))=E((X
i
‑
E(X
i
))
·
(X
j
‑
E(X
j
)))。3.根据权利要求1所述的一种基于XGBoost算法的PM
2.5
数据异常识别方法,其特征在于,所述步骤3中所述四大类特征为基础特征、相关污染物特征、气象特征和历史数据特征。4.根据权利要求1所述的一种基于XGBoost算法的PM
2.5
数据异常识别方法,其特征在于,所述步骤4包括定义XGBoost算法的目标函数:其中,其中,其中,(x
i
,y
i
)为数据集样本,x
i
表示特征向量,y
i
表示样本标签,模型包含K棵树,f
K
(x)表示第K棵决策树。5.根据权利要求1所述的一种基于XGBoost算法的PM
2.5
数据异常识别方法,其特征在于,所述步骤5具体包括以下步骤:步骤5
‑
1:将城市进行聚类,目标城市与周边城市PM
2.5
数据逐月对比分析,通过相对偏差法和相邻月相对偏差变幅法研判该城市整体数据质量异常变化情况,其中,相对偏差法
的计算公式为:相对偏差(%)=(目标城市月均值
‑
除目标城市外其他城...
【专利技术属性】
技术研发人员:汪太明,侯玉婧,孟双双,王启蒙,尤洋,刘超,郭亚静,
申请(专利权)人:广东旭诚科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。