基于不平衡修正半监督学习的道边空气污染预测方法技术

技术编号:20918875 阅读:30 留言:0更新日期:2019-04-20 10:11
本发明专利技术公开了一种基于不平衡修正半监督学习的道边空气污染预测方法。本发明专利技术包括以下步骤:(1)获取道边空气监测站点的历史污染物数据。(2)对历史污染物数据进行预处理,并且划分为训练集和测试集。(3)采用带多数类权重的少数类过采样技术对训练集中的有标记污染物数据进行不平衡修正。(4)将经过不平衡修正的有标记污染物数据和无标记污染物数据作为输入,训练半监督超限学习机模型。(5)将测试集数据输入到道边空气污染预测模型中,即可得到预测结果。本发明专利技术基于类别不平衡数据处理算法和半监督学习技术,考虑了污染物数据的不平衡性、缺少标记这一特性,提高了道边监测站点空气污染预测精度。

Prediction method of roadside air pollution based on imbalance correction semi-supervised learning

The invention discloses a roadside air pollution prediction method based on imbalance correction semi-supervised learning. The invention comprises the following steps: (1) acquiring historical pollutant data of roadside air monitoring stations. (2) Preprocessing the historical pollutant data and dividing it into training set and testing set. (3) Unbalanced correction of labeled pollutant data in training set is carried out by using a few over-sampling techniques with the weight of most classes. (4) The semi-supervised learning machine model is trained by using the labeled pollutant data and the unlabeled pollutant data corrected by unbalance as input. (5) The prediction results can be obtained by inputting the test data into the air pollution prediction model at the roadside. Based on class imbalance data processing algorithm and semi-supervised learning technology, the invention considers the characteristics of imbalance and lack of labels of pollutant data, and improves the prediction accuracy of air pollution at roadside monitoring stations.

【技术实现步骤摘要】
基于不平衡修正半监督学习的道边空气污染预测方法
本专利技术涉及空气污染预测
,尤其是涉及一种基于不平衡修正半监督学习的道边空气污染预测方法。
技术介绍
随着中国工业化、城市化进程的不断加速,机动车保有量迅猛增长,移动污染源排放总量增加,逐渐成为城市空气污染的主要来源。机动车尾气的主要污染物包含CO、HC、NOx、PM,人体吸入这些有害气体,会增加患呼吸和心血管的疾病的风险,这些污染对人体健康有很大影响。因此,为了控制机动车排放、改善区域空气质量,需要了解移动污染源对道边的污染情况,预测监测站点周围的空气质量。目前,空气污染预测方法主要分为:(1)污染物扩散模式模拟计算方法这类方法通常基于经验假设,根据污染物扩散、迁移及转换规律,模拟出一个计算公式。需要对污染物的形成和来源有充分的理解,得到的模型复杂,计算量大。且不同的道路建立的预测模型都不一样,具有局限性。(2)基于机器学习的预测方法这类方法是由数据驱动的,不模拟排放和污染物之间的物理模型,主要依赖于传感器监测到的气象数据和污染物数据。常用的有人工神经网络、支持向量机、决策树等。虽然这类机器学习模型在空气污染预测上取得了不错的效果,但也存在如下问题:不同空气质量等级的数据存在非常大的不平衡性,例如,某个监测站点的空气质量等级为1级的样本有80个,2级的样本只有20个。即使所有样本都预测为空气质量1级,正确率依然可以达到80%,而对2级的预测准确率为0%。这样的预测模型是不符合实际的。传统的基于机器学习的污染预测方法假设有标记污染样本充足,未考虑到大比例的无标记污染样本。如何利用有标记样本和无标记样本,提高预测模型性能,引到了广泛的关注。
技术实现思路
本专利技术克服现有技术的不足,提供一种基于不平衡修正半监督学习的道边空气污染预测方法,在考虑到数据类别不平衡性的同时,结合半监督学习建立预测模型,提高了模型的实用性和预测性能。本专利技术技术解决方案:一种基于不平衡修正半监督学习的道边空气污染预测方法,该方法具体包括以下步骤:S1:获取道边空气监测站点的历史污染物数据X。进一步,在步骤S1中,包括:历史污染物数据X包括有标记污染物样本Xl和无标记污染物样本Xu。有标记污染物样本Xl为提前分好污染等级的样本,无标记污染物样本Xu为未提前分好污染等级的样本。S2:对历史污染物数据进行预处理,并且划分为训练集和测试集。进一步,在步骤S2中,对历史污染物数据的预处理包括缺失值处理和归一化处理。S3:采用带多数类权重的少数类过采样技术(MajorityWeightedMinorityOversamplingTechnique,MWMOTE)对训练集中的有标记污染物数据进行不平衡修正。进一步,在步骤S3中,包括:S31:有标记污染物样本Xl中按照样本数目的多少分为少数类样本集和多数类样本集S32:计算少数类样本集中每个样本的k1最近邻集,其中属于少数类的记为Setmin。S33:去掉少数类样本集中的噪声样本并记为其中噪声样本是最近邻集中只有多数类没有少数类的样本。S34:在少数类样本集中,根据欧式距离计算每个样本的k2多数类最近邻,并记为Setmaj,表示决策边界的多数类样本集。S35:在样本集Setmaj中,根据欧式距离计算每个样本的k3少数类最近邻,并记为Setrep,表示少数类中的“代表性样本”。S36:计算每一个属于Setrep的样本到决策边界数据集Setmaj的距离,根据距离大小分配权值,该权值决定了该样本被选到去合成新样本的概率。权值计算公式如下:其中num_min为Setrep样本集的数量,L(max)表示Setmaj中的样本,num_max表示整个样本集的数量。S37:利用Setrep中的样本,在样本之间利用线性插值法生成少数类样本,公式如下:s=x+α(y-x)其中s表示新生成的少数类样本,α是0和1之间的随机数,y是x的近邻样本。S38:将这些新生成的少数类样本与少数类样本集和多数类样本集合并成新的有标记污染样本集X′l。S4:将经过不平衡修正的有标记污染物数据和无标记污染物数据作为输入,训练半监督超限学习机(Semi-supervisedExtremeLearningMachine,SSELM)模型。进一步,在步骤S4中:S41:利用步骤S3更新过的有标记样本集和无标记样本集作为SSELM的输入,并计算图的拉普拉斯算子L。S42:根据随机的输入层权值ω和隐含层偏置b,初始化具有m个隐含层结点的ELM神经网络,设激活函数为g(x),计算隐含层输出矩阵H。H=g(ωx+b)S43:设置权衡参数C和λ。S44:根据SSELM算法的目标函数,求得输出层权值矩阵β。其中目标函数表示为:其中是为结构风险项,为经验风险项,Tr(·)表示矩阵的迹,F为实际输出矩阵,yi为对应样本xi的期望输出,ei对应样本xi的训练误差。S35:求解隐含层输出权值矩阵解。当输入样本集Xl'的个数l′+u大于隐含层节点个数m时,目标函数的解为β=(I+CHTH+λHTLH)-1CHTT;当输入样本集Xl'的个数l′+u小于隐含层节点个数m时,解为β=HT(I+CHTH+λHTLH)-1CT,返回f(x)=h(x)β。其中,I为单位矩阵,T为期望输出矩阵。S5:将测试集数据输入到道边空气污染预测模型中,即可得到预测结果。本专利技术与现有技术相比存在的优点在于:(1)考虑污染物类别不平衡的特性,针对传统SMOTE算法生成的少数类样本的信息量少,容易过拟合等问题,采用MWMOTE算法,提升了少数类预测性能。(2)采用半监督学习的框架,在有标记污染物样本数量有限情况下,利用无标记污染物数据,训练SS-ELM预测模型,节约了人工标记成本。附图说明图1为本专利技术方法流程图;图2为少数类样本生成示意图;图3为超限学习机网络结构图。具体实施方式为使本专利技术实现的技术创新点易于理解,下面结合附图,对本专利技术的实现方式进一步详细叙述。实施例:本实施例的流程如图1所示。S1:选取杭州市下沙监测站点2018年1月1日-2018年4月30日共2549条历史污染物数据。在本实施例中,历史污染物数据包括二氧化氮、二氧化硫、一氧化碳、悬浮微粒(PM2.5、PM10)。S2:对原始污染物数据进行预处理,并且划分为训练集和测试集。首先,对于存在缺失值的污染物数据,直接删除处理。然后,采用最大最小法将污染物数据转化为[0,1]之间,让不同的污染物数据处于同一数量级,变换函数如下;最后,数据集按照训练集60%,测试集40%划分。S3:采用MWMOTE对训练集中的有标记的污染物数据进行不平衡修正。进一步,在步骤S3中,包括:S31:有标记污染物样本Xl中按照样本数目的多少分为少数类样本集和多数类样本集S32:计算少数类样本集中每个样本的k1最近邻集,其中属于少数类的记为Setmin,其中k1取5。S33:去掉少数类样本集中的噪声样本并记为其中噪声样本是最近邻集中只有多数类没有少数类的样本。S34:在少数类样本集中,根据欧式距离计算每个样本的k2多数类最近邻,并记为Setmaj,表示决策边界的多数类样本集,其中k2取3。S35:在样本集Setmaj中,根据欧式距离计算每个样本的k3少数类最近邻,并记为Setrep,表示少数类中本文档来自技高网
...

【技术保护点】
1.基于不平衡修正半监督学习的道边空气污染预测方法,其特征在于步骤如下:S1:获取道边空气监测站点的历史污染物数据;S2:对历史污染物数据进行预处理,并且划分为训练集和测试集;S3:采用带多数类权重的少数类过采样技术对训练集中的有标记的污染物数据进行不平衡修正;S4:将经过不平衡修正的有标记污染物数据和无标记污染物数据作为输入,训练SSELM模型;S5:将测试集数据输入到道边空气污染预测模型中,即可得到预测结果。

【技术特征摘要】
1.基于不平衡修正半监督学习的道边空气污染预测方法,其特征在于步骤如下:S1:获取道边空气监测站点的历史污染物数据;S2:对历史污染物数据进行预处理,并且划分为训练集和测试集;S3:采用带多数类权重的少数类过采样技术对训练集中的有标记的污染物数据进行不平衡修正;S4:将经过不平衡修正的有标记污染物数据和无标记污染物数据作为输入,训练SSELM模型;S5:将测试集数据输入到道边空气污染预测模型中,即可得到预测结果。2.如权利要求1所述的基于不平衡修正的半监督道边空气污染预测方法,其特征在于,步骤S1中历史污染物包括二氧化氮、二氧化硫、一氧化碳和悬浮微粒。3.如权利要求1所述的基于不平衡修正的半监督道边空气污染预测方法,其特征在于,步骤S2中对历史污染物数据进行预处理包括缺失值处理和归一化处理。4.如权利要求1所述的基于不平衡修正的半监督道边空气污染预测方法,其特征在于,步骤S3中有标记样本是指提前分好污染等级的样本,无标记样本是指未提前分好污染等级的样本。5.如权利要求1所述的基于不平衡修正的半监督道边移动污染源污染预测方法,其特征在于,在步骤S3中,具体步骤包括:S31:有标记污染物样本Xl中按照样本数目的多少,分为少数类样本集和多数类样本集S32:计算少数类样本集中每个样本的k1最近邻集,其中属于少数类的记为Setmin;S33:去掉少数类样本集中的噪声样本并记为其中噪声样本是最近邻集中只有多数类没有少数类的样本;S34:在少数类样本集中,根据欧式距离计算每个样本的k2多数类最近邻,并记为Setmaj,表示决策边界的多数类样本集;S35:在样本集Setmaj中,根据欧式距离计算每个样本的k3少数类最近邻,并记为Setrep,表示少数类中的代表性样本...

【专利技术属性】
技术研发人员:佘青山吴启凡蒋鹏席旭刚林宏泽
申请(专利权)人:杭州电子科技大学
类型:发明
国别省市:浙江,33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1