The invention discloses a roadside air pollution prediction method based on imbalance correction semi-supervised learning. The invention comprises the following steps: (1) acquiring historical pollutant data of roadside air monitoring stations. (2) Preprocessing the historical pollutant data and dividing it into training set and testing set. (3) Unbalanced correction of labeled pollutant data in training set is carried out by using a few over-sampling techniques with the weight of most classes. (4) The semi-supervised learning machine model is trained by using the labeled pollutant data and the unlabeled pollutant data corrected by unbalance as input. (5) The prediction results can be obtained by inputting the test data into the air pollution prediction model at the roadside. Based on class imbalance data processing algorithm and semi-supervised learning technology, the invention considers the characteristics of imbalance and lack of labels of pollutant data, and improves the prediction accuracy of air pollution at roadside monitoring stations.
【技术实现步骤摘要】
基于不平衡修正半监督学习的道边空气污染预测方法
本专利技术涉及空气污染预测
,尤其是涉及一种基于不平衡修正半监督学习的道边空气污染预测方法。
技术介绍
随着中国工业化、城市化进程的不断加速,机动车保有量迅猛增长,移动污染源排放总量增加,逐渐成为城市空气污染的主要来源。机动车尾气的主要污染物包含CO、HC、NOx、PM,人体吸入这些有害气体,会增加患呼吸和心血管的疾病的风险,这些污染对人体健康有很大影响。因此,为了控制机动车排放、改善区域空气质量,需要了解移动污染源对道边的污染情况,预测监测站点周围的空气质量。目前,空气污染预测方法主要分为:(1)污染物扩散模式模拟计算方法这类方法通常基于经验假设,根据污染物扩散、迁移及转换规律,模拟出一个计算公式。需要对污染物的形成和来源有充分的理解,得到的模型复杂,计算量大。且不同的道路建立的预测模型都不一样,具有局限性。(2)基于机器学习的预测方法这类方法是由数据驱动的,不模拟排放和污染物之间的物理模型,主要依赖于传感器监测到的气象数据和污染物数据。常用的有人工神经网络、支持向量机、决策树等。虽然这类机器学习模型在空气污染预测上取得了不错的效果,但也存在如下问题:不同空气质量等级的数据存在非常大的不平衡性,例如,某个监测站点的空气质量等级为1级的样本有80个,2级的样本只有20个。即使所有样本都预测为空气质量1级,正确率依然可以达到80%,而对2级的预测准确率为0%。这样的预测模型是不符合实际的。传统的基于机器学习的污染预测方法假设有标记污染样本充足,未考虑到大比例的无标记污染样本。如何利用有标记样本和无标记样本 ...
【技术保护点】
1.基于不平衡修正半监督学习的道边空气污染预测方法,其特征在于步骤如下:S1:获取道边空气监测站点的历史污染物数据;S2:对历史污染物数据进行预处理,并且划分为训练集和测试集;S3:采用带多数类权重的少数类过采样技术对训练集中的有标记的污染物数据进行不平衡修正;S4:将经过不平衡修正的有标记污染物数据和无标记污染物数据作为输入,训练SSELM模型;S5:将测试集数据输入到道边空气污染预测模型中,即可得到预测结果。
【技术特征摘要】
1.基于不平衡修正半监督学习的道边空气污染预测方法,其特征在于步骤如下:S1:获取道边空气监测站点的历史污染物数据;S2:对历史污染物数据进行预处理,并且划分为训练集和测试集;S3:采用带多数类权重的少数类过采样技术对训练集中的有标记的污染物数据进行不平衡修正;S4:将经过不平衡修正的有标记污染物数据和无标记污染物数据作为输入,训练SSELM模型;S5:将测试集数据输入到道边空气污染预测模型中,即可得到预测结果。2.如权利要求1所述的基于不平衡修正的半监督道边空气污染预测方法,其特征在于,步骤S1中历史污染物包括二氧化氮、二氧化硫、一氧化碳和悬浮微粒。3.如权利要求1所述的基于不平衡修正的半监督道边空气污染预测方法,其特征在于,步骤S2中对历史污染物数据进行预处理包括缺失值处理和归一化处理。4.如权利要求1所述的基于不平衡修正的半监督道边空气污染预测方法,其特征在于,步骤S3中有标记样本是指提前分好污染等级的样本,无标记样本是指未提前分好污染等级的样本。5.如权利要求1所述的基于不平衡修正的半监督道边移动污染源污染预测方法,其特征在于,在步骤S3中,具体步骤包括:S31:有标记污染物样本Xl中按照样本数目的多少,分为少数类样本集和多数类样本集S32:计算少数类样本集中每个样本的k1最近邻集,其中属于少数类的记为Setmin;S33:去掉少数类样本集中的噪声样本并记为其中噪声样本是最近邻集中只有多数类没有少数类的样本;S34:在少数类样本集中,根据欧式距离计算每个样本的k2多数类最近邻,并记为Setmaj,表示决策边界的多数类样本集;S35:在样本集Setmaj中,根据欧式距离计算每个样本的k3少数类最近邻,并记为Setrep,表示少数类中的代表性样本...
【专利技术属性】
技术研发人员:佘青山,吴启凡,蒋鹏,席旭刚,林宏泽,
申请(专利权)人:杭州电子科技大学,
类型:发明
国别省市:浙江,33
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。