本发明专利技术公开了一种基于高斯回归的空间细粒度污染推断方法,涉及大气污染模型技术领域,包括以下步骤:S1,定义给定监测区域内所有监测点位的数据,对所有未知点位的PM2.5的数值进行推断;S2,确定选用的高斯回归模型,使用该高斯回归模型进行数据训练;S3,选用训练数据和测试数据,并利用训练数据和测试数据获得待推断空间细粒度污染预测值。该方法与其他污染推测方法相比具有较高的准确性和稳定性,更加适合对细粒度PM2.5进行空间推断;精细的污染热图使得后续的精细污染管控及健康风险评估具有更大的可能性。
A spatial fine-grained pollution inference method based on Gaussian regression
【技术实现步骤摘要】
一种基于高斯回归的空间细粒度污染推断方法
本专利技术涉及环境监测领域,尤其涉及一种基于高斯回归的空间细粒度污染推断方法。
技术介绍
为了精细的研究PM2.5的产生、扩散规律,需要有更密集部署的监测系统,目前我国在各个主要的城市均部署了精准的国控站进行监测,但监测密度仍然非常稀疏,例如北京大约一万平方公里面积只有35个国控站点进行监测,这对于精准的空间推断,以及之后的精细管控、健康风险评估均构成了很大的挑战。相关研究表明,即使相距较近的两地,其PM2.5也可能存在较大的差距。为了对空间的污染监测数据进行推断,近年来提出了两类主要的方法。第一类为传统的扩散模型,如高斯煙羽模式,三维街谷模型和计算流体力学模型。这些模型通常综合了诸如气象信息,街道地理特征信息,交通信息等众多数据,并进行复杂的数据建模,但是这类模型通常需要对物理环境进行较为强烈的假设,同时又需要各种纬度精细的监测数据,而这些对于空气污染监测领域而言,获取相对较难。第二类模型基于空间推断,这类模型基于城市内已经监测得倒的稀疏国控站点的数据,并结合气象、地理位置,交通信息等数据,建立空间统计推断模型,从而对未知地点的污染数值进行推断。但是,对于未部署国控站点的区域并不能准确推断出该区域的数据,因此如何有效利用有限的数据对未部署地点进行50米精度的推测是目前亟待解决的问题。
技术实现思路
本专利技术的目的在于提供一种基于高斯回归的空间细粒度污染推断方法,从而解决现有技术中存在的前述问题。为了实现上述目的,本专利技术采用的技术方案如下:1.一种基于高斯回归的空间细粒度污染推断方法,包括以下步骤:S1,定义给定监测区域内所有监测点位的数据,对所有未知点位的PM2.5的数值进行推断;S2,确定选用的高斯回归模型,使用该高斯回归模型进行数据训练;S3,选用训练数据和测试数据,并利用训练数据和测试数据获得待推断空间细粒度污染预测值。优选地,步骤S1中定义给定的数据具体为:xi表示监测区域内第i个监测站的经纬度,使用yi表示该监测点位的PM2.5的数值;对所有未知点位的PM2.5的数值进行推断的公式为:其中∈i表示噪声。本方法的目标为对于给定的数据,学习得出正确的函数f,从而能对任意给定的x,预测其对应的y。高斯过程为一统计学分布,是一系列关于连续域(时间或空间)的随机变量的联合,而且针对每一个时间点或空间点上的随机变量都是服从高斯分布的。在高斯回归问题中,函数f分布服从高斯分布(正态分布),优选地,步骤S2中具体过程包括:S21,定义fi=f(xi);S22,当x满足下述条件:其中K是协方差矩阵,其中Kij=k(xi,xj),k(x1,x2)可以是任何满足半正定特征的核函数,其中K是协方差矩阵。优选地,所述核函数选用下述的平方指数协方差函数:其中l表示该函数水平变化的尺度。优选地,步骤S3具体包括:S31,使f=[f1,f2,...,fn],f*=[f*1,f*2,...,f*n]分别表示训练数据和测试数据;S32,使用贝叶斯理论,得到:S33,根据上式得到后验概率分布:S34,先验概率及似然函数都为独立分布且均服从高斯分布:其中δ2是噪声方差,I是单位矩阵;从而公式(5)中的积分可以得到完全解,其解同时也服从高斯分布μ*=K*,f(Kf,f+δ2I)-1y(7)Σ*=K*,*-K*,f(Kf,f+δ2I)-1Kf,*(8)μ*是预测均值,Σ*是其对应的预测方差,即预测值对应的置信度,在我们的使用场景中,我们使用μ*i作为我们对于yi的预测值。本专利技术的有益效果是:本专利技术公开了一种基于高斯回归的空间细粒度污染推断方法,该方法与其他污染推测方法相比具有较高的准确性和稳定性,更加适合对细粒度PM2.5进行空间推断;精细的污染热图使得后续的精细污染管控及健康风险评估具有更大的可能性。附图说明图1是北京市部署的PM2.5监测站点的数据部署图;图2是实施例2中两个点位数据差距分布图;图3是实施例2中水平尺度参数与空间推断绝对误差之间的关系;图4是实施例2中使用不同的三种方法做空间推断的绝对误差分布统计;图5是实施例2中8个监测站点的空间推断误差柱状图。具体实施方式为了使本专利技术的目的、技术方案及优点更加清楚明白,以下结合附图,对本专利技术进行进一步详细说明。应当理解,此处所描述的具体实施方式仅仅用以解释本专利技术,并不用于限定本专利技术。实施例1本实施例公开一种基于高斯回归的空间细粒度污染推断方法,包括以下步骤:S1,定义给定监测区域内所有监测点位的数据,对所有未知点位的PM2.5的数值进行推断;使用xi表示监测区域内第i个监测站的经纬度,使用yi表示该监测点位的PM2.5的数值。该问题可以定义为给定监测区域内所有监测点位的数据对所有未知点位的PM2.5的数值进行推断。这是一个典型的数值回归问题,可以进行如下的定义:其中∈i表示噪声。本方法的目标为对于给定的数据,学习得出正确的函数f,从而能对任意给定的x,预测其对应的y。步骤二、确定高斯回归模型(确定协方差函数)高斯过程为一统计学分布,是一系列关于连续域(时间或空间)的随机变量的联合,而且针对每一个时间点或空间点上的随机变量都是服从高斯分布的。在高斯回归问题中,函数f分布服从高斯分布(正态分布),当x满足下述条件:其中fi=f(xi)表示上述的函数f,其中K是协方差矩阵,其中Kij=k(xi,xj).k(x1,x2)可以是任何满足半正定特征的核函数。步骤三、利用训练数据和测试数据获得预测值在算法的推断过程中,使f=[f1,f2,...,fn],f*=[f*1,f*2,...,f*n]分别表示训练数据和测试数据。进而,使用贝叶斯理论,可以得到:通过上式,可以进一步得到后验概率分布:因为先验概率及似然函数都为独立分布且均服从高斯分布:其中δ2是噪声方差,I是单位矩阵。从而公式(4)中的积分可以得到完全解,其解同时也服从高斯分布μ*=K*,f(Kf,f+δ2I)-1y(6)Σ*=K*,*-K*,f(Kf,f+δ2I)-1Kf,*(7)其中μ*是预测均值,Σ*是其对应的预测方差,即预测值对应的置信度。在我们的使用场景中,我们使用μ*i作为我们对于yi的预测值。实施例2本实施例使用部署在北京市部署的PM2.5监测站点的数据,数据每小时更新一次,部署图如下图1所示,对高斯回归模型的推断性能进行分析。图2所示为两个点位数据差距分布图,从图2中可以看出,虽然两点位距离相差不远,但是其PM2.5数据依然可能存本文档来自技高网...
【技术保护点】
1.一种基于高斯回归的空间细粒度污染推断方法,其特征在于,包括以下步骤:/nS1,定义给定监测区域内所有监测点位的数据,对所有未知点位的PM2.5的数值进行推断;/nS2,确定选用的高斯回归模型,使用该高斯回归模型进行数据训练;/nS3,选用训练数据和测试数据,并利用训练数据和测试数据获得待推断空间细粒度污染预测值。/n
【技术特征摘要】
1.一种基于高斯回归的空间细粒度污染推断方法,其特征在于,包括以下步骤:
S1,定义给定监测区域内所有监测点位的数据,对所有未知点位的PM2.5的数值进行推断;
S2,确定选用的高斯回归模型,使用该高斯回归模型进行数据训练;
S3,选用训练数据和测试数据,并利用训练数据和测试数据获得待推断空间细粒度污染预测值。
2.根据权利要求1所述的基于高斯回归的空间细粒度污染推断方法,其特征在于,步骤S1中定义给定的数据具体为:
xi表示监测区域内第i个监测站的经纬度,使用yi表示该监测点位的PM2.5的数值;
对所有未知点位的PM2.5的数值进行推断的公式为:
其中∈i表示噪声。
3.根据权利要求1所述的基于高斯回归的空间细粒度污染推断方法,其特征在于,步骤S2中具体过程包括:
S21,定义fi=f(xi);
S22,当x满足下述条件:
其中K是协方差矩阵,其中Kij=k(xi,xj),k(x1,x2)可以是任何满足半正定特征的核函数,其中K是协方差矩阵。<...
【专利技术属性】
技术研发人员:李倩,刘锐,谢涛,席春秀,张丽伟,
申请(专利权)人:中科宇图科技股份有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。