当前位置: 首页 > 专利查询>浙江大学专利>正文

一种基于分布式在线主成分分析的空气质量异常检测方法技术

技术编号:18857802 阅读:109 留言:0更新日期:2018-09-05 12:46
本发明专利技术公开了一种基于分布式在线主成分分析的空气质量异常检测方法。获取城市的已知空气污染物浓度数据,设计分布式在线主成分分析模型,采用基于分布式在线主成分分析模型的空气质量异常检测方法对空气污染物浓度数据进行处理获得判断结果,从而对空气质量进行异常检测。本发明专利技术能便捷地预测某一范围内的整体空气质量,能够抑制异常训练数据带来的影响,起到去噪作用,处理速度更快,用时更短。

An air quality anomaly detection method based on distributed online principal component analysis

The invention discloses an air quality anomaly detection method based on distributed online principal component analysis. Obtain the known air pollutant concentration data of the city, design the distributed on-line principal component analysis model, adopt the method based on the distributed on-line principal component analysis model to process the air pollutant concentration data and obtain the judgment result, then carry on the abnormal detection to the air quality. The invention can conveniently predict the overall air quality in a certain range, restrain the influence of abnormal training data, play a role of noise removal, process faster and use shorter time.

【技术实现步骤摘要】
一种基于分布式在线主成分分析的空气质量异常检测方法
本专利技术属于分布式信号处理、机器学习以及异常检测领域,特别是涉及一种基于分布式在线主成分分析的空气质量异常检测方法。
技术介绍
主成分分析(PrincipalComponentAnalysis,简称PCA)是一种常用的无监督降维方法。通过PCA能够得到数据分布的主要方向。常规的PCA通过构造数据协方差矩阵并计算其特征向量来实现主成分分析过程。这些特征向量是原始数据空间中含信息量较多的方向,因此被视为主要成分或主要方向。对于常规的PCA而言,一般需要获得全部的原始数据,生成原始数据的协方差矩阵。显然主成分分析方法可以应用于异常检测领域,通过分析得到训练数据的主要成分,然后根据主要成分判断测试数据是否异常。在实际中,用于异常检测的数据可以通过无线传感器网络(wirelesssensornetworks,简称WSNs)来进行采集。例如,利用气体传感器组成的传感器网络测量空气中污染物的浓度。一般来说,衡量空气质量的主要指标是空气中主要污染物,即SO2、NO2、CO、PM10、PM2.5和O3的浓度。可以通过气体传感器分散地测量空气中各个污染物的浓度,然后通过合理的计算确定最终的空气质量。在这种情况下,数据是分散地被多个传感器节点采集的,因此常规PCA利用数据协方差矩阵求解主成分的方法显然是不太合适的。
技术实现思路
本专利技术的目的在于针对数据是分布式采集的这样一种实际情况,提出一种基于分布式在线主成分分析的空气质量异常检测方法,通过不需要数据协方差矩阵的分布式在线主成分分析方法进行空气质量数据的异常检测。如图1所示,本专利技术所采用的技术方案具体包括如下步骤:(1)获取城市的已知空气污染物浓度数据;(2)设计分布式在线主成分分析模型;(3)采用基于分布式在线主成分分析模型的空气质量异常检测方法对待测空气污染物浓度数据进行处理获得该城市的判断结果,从而对空气质量进行异常检测。所述步骤(1)的城市的已知空气污染物浓度数据是包括某一城市在某一时间段内的每日多地点空气污染物浓度数据。具体实施中,将得到的空气污染物浓度数据分成训练所用空气污染物浓度数据及测试所用空气污染物浓度数据。具体实施中可在环保部数据中心及相关的网站上获得空气污染物浓度数据,例如在青悦开放环境数据中心获得杭州市每日空气污染物浓度的历史数据。所述的空气污染物浓度数据是由传感器网络采集获得的,传感器网络是由分布于不同地点的传感器节点用无线/有线方式互相连接而组成,每两个传感器节点具有直接/间接通信连接关系,每个传感器节点采集获得各自监测范围的空气污染物浓度数据,每个传感器节点均能接收其他所有邻居传感器节点依据所采集到的空气污染物浓度数据计算出的每个时刻的特征矩阵信息。所述的步骤(2)具体建立以下公式表示的传感器节点的目标函数作为分布式在线主成分分析模型(doPCA模型):在本专利技术中,首先提出分布式在线主成分分析的目标函数,进而建立整个分布式在线主成分分析模型(doPCA)。根据实际问题,在空气污染物检测传感器网络中,每个传感器节点的数据是被时序地采集的,并且由于传感器节点在存储方面的限制,并不能存储所有的历史数据。在这种情况下,采集的数据时序地到达传感器节点并且被时序地处理。本专利技术通过在线学习模型很好地利用了这些数据,同时进一步将空气质量异常检测优化问题转化成最小二乘问题,这样就可以通过传统的最小二乘求解法来求解这个问题。本专利技术考虑到每个传感器节点的硬件存储的限制,为了克服只有在获得全部数据之后才能对问题进行求解的困难,本专利技术特别地用前一时刻得到的模型参数近似计算当前时刻传感器节点的特征矩阵即当前时刻的模型参数。本专利技术的分布式在线主成分分析模型中,不仅利用了当前采集的空气污染物浓度数据的信息,还充分继承了历史信息。也就是说,每个时刻,虽然只能获得一个空气污染物浓度数据,但依然利用了到此刻为止的所有数据信息。传感器节点的目标函数如下:在这里,Wj表示当前时刻传感器节点j的特征矩阵,是该目标函数的待求矩阵,具体是由传感器节点j的p个主成分组成,表示Wj为d行p列的矩阵,j表示传感器网络中的传感器节点的序数,p表示传感器节点j的主成分总数,d表示传感器节点j的一个主成分的维度;特征矩阵Wj中每一列表示一个d维特征向量作为主成分,任意两个特征向量之间相互正交。Wj=[wj1,…,wjp],wj1表示传感器节点j的第1个主成分,wjp表示传感器节点j的第p个主成分,实际来说每个主成分均是d维列向量;表示传感器节点j在k-1时刻的特征矩阵的转置,表示传感器节点j在k-1时刻的第1个主成分;xjk表示传感器节点j在k时刻的空气污染物浓度数据,k≤t,表示xjk是d维列向量;表示传感器节点j在t时刻的优化目标函数,表示传感器节点的集合,I是p行p列的单位矩阵。所述的步骤(3)具体是针对传感器节点采用以下方式计算获得:任意两个主成分之间应该是相互独立并且线性无关的。由此目标函数是一个非常典型的最小二乘问题。(3.1)先用已知空气污染物浓度数据处理获得各个传感器节点的最终特征矩阵:(3.1.1)针对每个传感器节点,利用拉格朗日乘子法并利用主成分单位正交的性质求解目标函数,获得每个时刻传感器节点获得的空气污染物浓度数据对应的主成分,先利用当前时刻的空气污染物浓度数据和前一时刻的模型参数计算第一主成分,再在前一个主成分的基础上计算下一个主成分,直到计算完传感器节点j在当前时刻的全部p个主成分;具体传感器节点j在t时刻的第m主成分计算为:式中,表示传感器节点j在t时刻的第l个主成分,l<m,l表示主成分的遍历序数;为了表示清晰并迭代计算,具体采用以下公式计算传感器节点j在t时刻的第m主成分:式中,和表示传感器节点j在t时刻的第m主成分计算过程中的第一、第二中间变量,xjt表示传感器节点j在t时刻所采集到的空气污染物浓度数据,表示传感器节点j在t时刻的第m主成分,||·||表示矩阵模的长度;用相同的方法并行地对当前时刻每一个传感器节点进行处理。一个时刻的一个传感器节点的空气污染物浓度数据对应获得p个主成分。本专利技术用前一个时刻计算时所获得的第二中间变量来用于对下一个时刻进行计算,使得迭代计算后所有传感器节点的特征矩阵趋于一致。(3.1.2)然后,通过传感器节点j与邻居传感器节点进行信息交换采用以下公式表示的扩散式融合方式计算获得传感器节点j在当前时刻的特征矩阵:式中,表示传感器节点j的所有邻居传感器节点的集合,i表示传感器节点j的邻居传感器节点与传感器节点j本身组成的集合的节点序数,ε表示所有边的集合,边表示传感器节点j与其一个邻居传感器节点之间的连接关系;aji表示传感器节点j接收邻居传感器节点i的信息加权系数,aji为一非负标量;至此,计算出了在该时刻传感器网络中所有传感器节点的经信息融合后的特征矩阵。一个时刻的一个传感器节点的空气污染物浓度数据对应获得一个的特征矩阵。(3.1.3)按时间顺序重复步骤(3.1.1)和(3.1.2)对每个时刻的各个传感器节点j进行处理,获得传感器网络中各个传感器节点计算的特征矩阵趋于一致稳定的结果,并将最后时刻记为L时刻,获得各个传感器节点在最后时刻L的特征矩阵及第二中间变量(3本文档来自技高网...

【技术保护点】
1.一种基于分布式在线主成分分析的空气质量异常检测方法,其特征在于包括以下几个步骤:(1)获取城市的已知空气污染物浓度数据;(2)设计分布式在线主成分分析模型;(3)采用基于分布式在线主成分分析模型的空气质量异常检测方法对空气污染物浓度数据进行处理获得判断结果,从而对空气质量进行异常检测。

【技术特征摘要】
1.一种基于分布式在线主成分分析的空气质量异常检测方法,其特征在于包括以下几个步骤:(1)获取城市的已知空气污染物浓度数据;(2)设计分布式在线主成分分析模型;(3)采用基于分布式在线主成分分析模型的空气质量异常检测方法对空气污染物浓度数据进行处理获得判断结果,从而对空气质量进行异常检测。2.根据权利要求1所述的一种基于分布式在线主成分分析的空气质量异常检测方法,其特征在于:所述步骤(1)的城市的已知空气污染物浓度数据是包括某一城市在某一时间段内的每日多地点空气污染物浓度数据。3.根据权利要求1所述的基于分布式在线主成分分析的空气质量异常检测方法,其特征在于:所述的空气污染物浓度数据是由传感器网络采集获得的,传感器网络是由分布于不同地点的传感器节点用无线/有线方式互相连接而组成,每两个传感器节点具有直接/间接通信连接关系,每个传感器节点采集获得各自监测范围的空气污染物浓度数据。4.根据权利要求1所述的基于分布式在线主成分分析的空气质量异常检测方法,其特征在于:所述的步骤(2)具体建立以下公式表示的传感器节点的目标函数作为分布式在线主成分分析模型:s.t.WjTWj=I在这里,Wj表示当前时刻传感器节点j的特征矩阵,具体是由传感器节点j的p个主成分组成,表示Wj为d行p列的矩阵,j表示传感器网络中的传感器节点的序数,p表示传感器节点j的主成分总数,d表示传感器节点j的一个主成分的维度;Wj=[wj1,…,wjp],wj1表示传感器节点j的第1个主成分,wjp表示传感器节点j的第p个主成分;(Wjk-1)T表示传感器节点j在k-1时刻的特征矩阵的转置,表示传感器节点j在k-1时刻的第1个主成分;xjk表示传感器节点j在k时刻的空气污染物浓度数据,k≤t,表示xjk是d维列向量;fjt表示传感器节点j在t时刻的优化目标函数,表示传感器节点的集合,I是p行p列的单位矩阵。5.根据权利要求1所述的基于分布式在线主成分分析的空气质量异常检测方法,其特征在于:所述的步骤(3)具体是针对传感器节点采用以下方式计算获得:(3.1)先用已知空气污染物浓度数据处理获得各个传感器节点的最终特征矩阵:(3.1.1)针对每个传感器节点,利用拉格朗日乘子法并利用主成分单位正交的性质求解目标函数,获得每个时刻传感器节点获得的空气污染物浓度数据对应的主成分;具体采用以下公式计算传感器节点j在t时刻的第m主成分:式中,和表示传感器节点j在t时刻的第m主成分计算过程中的第一、第二中间变量,xjt表示传感器节点j在t时刻所采集到的空气污...

【专利技术属性】
技术研发人员:李春光苗雪丹王涛
申请(专利权)人:浙江大学
类型:发明
国别省市:浙江,33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1