【技术实现步骤摘要】
一种基于机器学习的污染源类型自动识别方法
本专利技术涉及大气环境监测领域,尤指一种基于机器学习的污染源类型自动识别方法。
技术介绍
在大气环境监测领域,传统的监测采用标准空气站方法,由于成本高布点数量少,产生数据量小,难以准确反映精细化污染问题。而采用传感器方法的微型站则因为成本低可以实现大规模布点应用,从而获取监测区域高时空分辨率的监测数据,监测参数包含PM10、PM2.5、SO2、NO2、CO、O3、温度、湿度,空间分辨率高达1*1km,时间分辨率1h。海量的环境监测数据的获取,支撑了“污染源”和“空气质量”之间的对应关系的建立,通过人工分析研究,可以从数据特征发现存在的污染问题,并判断产生大气污染的源类型,包括扬尘源、移动源、燃煤源、餐饮油烟源、工业源等,为环境问题现场排查工作缩小排查范围、提高检查精准度,提高监管效率,节约人力。但目前的问题是,基于海量监测数据发现污染问题和源类型的过程需要大量的人力和时间,且对研究人员的技术水平和经验依赖性高,整体应用过程效率较低、时效性差且受限于技术人员水平,难以有效支撑环 ...
【技术保护点】
1.一种基于机器学习的污染源类型自动识别方法,其特征在于,包含:/n步骤一、基于环境监测数据,以及时间和地理信息,通过分析判断,识别污染问题的发生并判断污染源类型,建立典型污染案例库;/n步骤二、基于机器学习算法,以案例库的海量数据为样本提取数据特征,并开发污染源类型识别算法模型;/n步骤三、利用所述算法模型对实时监测数据中进行监控,发现异常数据则标记为污染事件,并进一步识别造成污染的源类型,实现污染源排放的在线识别并自动报警;/n步骤四、根据报警信息审核或现场核查模型识别结果,若确实存在则处理污染问题,并将事件补充列入典型案例库,以供算法模型持续优化;若识别结果不准确则解除污染事件标记。/n
【技术特征摘要】
1.一种基于机器学习的污染源类型自动识别方法,其特征在于,包含:
步骤一、基于环境监测数据,以及时间和地理信息,通过分析判断,识别污染问题的发生并判断污染源类型,建立典型污染案例库;
步骤二、基于机器学习算法,以案例库的海量数据为样本提取数据特征,并开发污染源类型识别算法模型;
步骤三、利用所述算法模型对实时监测数据中进行监控,发现异常数据则标记为污染事件,并进一步识别造成污染的源类型,实现污染源排放的在线识别并自动报警;
步骤四、根据报警信息审核或现场核查模型识别结果,若确实存在则处理污染问题,并将事件补充列入典型案例库,以供算法模型持续优化;若识别结果不准确则解除污染事件标记。
2.根据权利要求1所述的一种基于机器学习的污染源类型自动识别方法,其特征在于:
所述环境监测数据包含:PM10、PM2.5、SO2、NO2、CO、O3、温度、及湿度,以及时间和地理信息;
所述典型案例库是以所述环境监测数据为基础,经过审核的描述污染事件的案例的集合,每个案例包含的数据信息有:污染事件的开始时间、结束时间,受影响点位名称、坐标,受影响参数类型及当时当地的气象条件,和经专家判断后所属的污染源类型;
所述受影响参数是通过微型站获得监测区域高时空分辨率的参数,所述参数类型至少包含6项污染物:PM10、PM2.5、SO2、NO2、CO、O3,及VOC,气象条件包含风向、风速、温度和湿度,污染染源类型包含扬尘源、移动源、燃煤源、餐饮油烟源、及工业源。
3.根据权利要求1或2所述的一种基于机器学习的污染源类型自动识别方法,其特征在于,在步骤一中,是根据数据基本统计学,从时间序列污染数据中提取各种特征;再将一些地理信息、排放清单信息和专家判断所获取的信息转换成相应的特征变量。
4.根据权利要求3所述的一种基于机器学习的污染源类型自动识别方法,其特征在于,提取的所述特征及计算方法如下:
所述的6项污染物和AQI按照案例分组形成的:
diff1_acf10:前10个一次差分级数平方和;
diff1_acf1:一次差分级数;
x_acf1:第一个自相关系数;
x_pacf5:前五个部分自相关系数平方和;
diff2x_pacf5:前5个2次差分级数平方和;
std1st_der:一阶导数标准差;
6项污染物和AQI按照案例分组形成的平均值、和、最大值、四分位数、变异系数、平均数、标准差、中位数、方差、偏度、峰度、AQI最大时刻的小时值;六项污染物和AQI之间的相关系数;主要污染物;
站点周边污染源:根据站点周边污染源信息和排放清单信息,获得不同站点周边有多少不同类型的污染源并将其作为特征值;
站点周边路网密度:考虑到机动车排放对污染物数据造成的影响,根据站点周边路网情况,利用地理信息系统技术得到站点周边路网密度,并将其作为特征值;
时间序列距离特征:污染物之间的时间序列的相似性,采用动态时间规整(DTW)距离。
5.根据权利要求4所述的一种基于机器学习的污染源类型自动识别方法,其特征在于,将所有考虑的变量根据随机森林模型中变量的重要性筛选一定量的特征变量,最后选出以下38个基于污染数据和地理信息、排放清单信息和专家判断所获取的信息的数据特征,作为污染类型分类的依据,
特征1:co_stdlst_der;CO的一阶导数标准差;
特征2:pm10_diff1_acf10;PM10的前10个一次差分级数平方和;
特征3:pm2_5_diff1_acf10;PM2.5的前10个一次差分级数平方和;
特征4:co_diff1_acf10;CO的前10个一次差分级数平方和;
特征5:pollution;专家判断的污染案例的站点所处位置,例如主干道、敏感点、乡镇、建筑工地、环境背景点等;
特征6:no2_diff1_acf10;NO2的前10个一次差分级数平方和;
特征7:aqi_diff1_acf10;AQI的前10个一次差分级数平方和;
特征8:x_acf1_aqi;AQI的第一个自相关系数;
特征9:aqi_cv;AQI的变异系数;
特征10:hour.data;AQI最大时刻小时值;
特征11:distance_dtw;污染物之间的时间序列的相似性,采用dtw距离;
特征12:aqi_sum;AQI的和;
特征13:pm10_stdlst_der;PM10的一阶导数标准差;
特征14:pm2_5_stdlst_der;PM2.5的一阶导数标准差;
特征15:so2_stdlst_der;SO2的一阶导数标准差;
特征16:co_max;CO的最大值;
特征17:co_quantile;CO的四分位数;
特征18:so2_...
【专利技术属性】
技术研发人员:王春迎,詹宇,马景金,马红楠,张朝,王振强,张仕富,吴秦慧姿,
申请(专利权)人:河北先河环保科技股份有限公司,河北先进环保产业创新中心有限公司,
类型:发明
国别省市:河北;13
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。