当前位置: 首页 > 专利查询>安徽大学专利>正文

基于DBN-OCSVM的空气质量数据异常检测模型制造技术

技术编号:39062100 阅读:16 留言:0更新日期:2023-10-12 19:54
本发明专利技术公开了基于DBN

【技术实现步骤摘要】
基于DBN

OCSVM的空气质量数据异常检测模型


[0001]本专利技术新型涉及空气检测
,具体为基于DBN

OCSVM的空气质量数据异常检测模型。

技术介绍

[0002]我国在全国各个地区搭建空气质量监测站,用来监控空气污染物(PM2.5、SO2、O3等)质量数据,完善了覆盖各个地区的大气污染监测网,并配套建立了空气污染监测系统。空气质量监测站的原理是利用多参数自动监测仪器对空气中的数据进行监测与采集,但是由于设备仪器发生停电等故障、监测地点的环境发生剧烈变化、相关工作人员没有按照正确的方式测量数据等原因采集到的数据时常会有的异常发生。长时间的不解决异常问题将会影响监测采集的数据质量,进而影响后续对相关数据的分析。因此需要对监测到的空气质量数据进行质控,能够让其快速的达到数据正常的要求质量。

技术实现思路

[0003]为了克服上述现有技术的不足,一种基于DBN

OCSVM的空气质量数据异常检测模型。
[0004]一种基于DBN

OCSVM的空气质量数据异常检测模型,包括数据处理阶段、数据异常检测阶段、模型分析阶段。
[0005]所述数据处理系阶段包括数据的预处理、特征分析以及回归模型分析数据并计算数据影响因子的相关性关系;
[0006]所述数据异常检测包括数据的整理分析、将提取的时空特征输入到DBN神经网络中,进行监督学习,作为分类器使用。为了尽可能检测出所有异常事件,利用训练后OCSVM对可疑的测试样本检测,从而最终判定测试样本是否为正常或异常样本;
[0007]所述模型分析阶段主要包括:首先进行了基于OCSVM高维异常检测,通过运用分类混淆矩阵(Confusion Matrix)来分析其结果。
[0008]本专利技术的进一步改进在于,本专利技术只考虑对PM2.5这一单一元素进行预测。由于一些不可控的因素例如网络信号丢失,采集器突然宕机等导致部分原始数据会出现缺失情况。所以在此次研究中采用了24小时均值法对缺失的原始数据进行填补,使空气质量的监测数据尽可能的保存相应的特征。对于每个数据集,分别将其中的70%用来训练,即作为训练集;将其余数据,即数据集的30%用作测试集。在训练集中混入5%的异常数据,测试集中混入20%的异常数据,异常数据的每一维由均匀分布随机生成。实验前将数据进行预处理,对于每一个维度的数据统一归一化至[0,1]。
[0009][0010]其中,x
i
是预测值,xref
i
是观测值,是事件的所有观察到的规范化值,i随机处理是基于统计和概率形成的建模理论,用于分析数据。在大多数情况下,随机进程按时间
编制索引。
[0011]本专利技术的进一步改进在于,采用无监督训练的自动编码器(Autoencoder,AE)和DBN提取特征,其特征在于:使用AE与深度信念网络本质上是一种概率生成模型,通过无监督的训练方法由底层至顶层逐层训练而成。训练DBN进行特征提取。通过多个RBM堆叠形成DBN网络,进行数据的特征提取。采样后得到的新数据逐层通过RBM,分别经一步对比散度RBM学习完成预训练,获得RBM网络预训练参数,再由输出层的分类器模型反向传播误差对模型参数进行微调,训练获取高维数据的较优低维表示。
[0012]本专利技术的进一步改进在于,采用OCSVM进行异常检测算法。OCSVM算法作为SVM算法的一种,将一些训练数据通过线性或非线性的核函数φ(
·
)映射到一个高维的特征空间,然后在高维的特征空间寻找一个超球面将这些特征向量分隔为正常事件和异常事件。
[0013]本专利技术的进一步改进在于:对于OCSVM中非线性问题的参数优化。对于复杂的高维样本空间,输入数据并不能直接通过一个简单的线性函数分隔,但是可以通过一个超球面对其进行分隔,通常将其称为非线性分隔问题。对于非线性问题的处理,本专利技术通过径向基核函数(radial basis function,RBF):将其转化为线性问题,进而对线性问题进行求解。在这个过程中为了确保超平面以最优的边界,本专利技术将样本进行归类,优化数据对偶问题。同时,本专利技术采用的方法为“交叉验证”(Cross

validation)法来确定给定训练集的最佳参数值。其具体的做法是,首先将训练数据随机均分成n等份(n

Fold),将其中的每一份分别作为测试集而其他的作为训练集;之后用“网格搜索法”确定每种情况下的最佳参数;最终n种情况下SVM表现出的最高分类精度所对应的一组参数值即作为该SVM的最佳参数。
[0014]本专利技术的进一步改进在于:在RBM的参数优化过程中,由于<v
i
h
j
>model项的值很难计算,因此采用对比散度(Contrastive Divergence,CD)算法来近似求得这一项的值。采用随机梯度下降算法(Stochastic Gradient Descent,SGD)来训练RBM,损失函数采用极小化NLL:
[0015][0016]其中F(v)为:
[0017][0018]损失函数的参数通过以下方法更新:
[0019][0020][0021][0022]其中,ρ为惯性系数(Momentum),M
b
是批量(Minibatch)大小,是
W
t
的梯度,的梯度,是a
t
的梯度,是b
t
的梯度。
[0023]在RBM中,求解对数似然度的梯度很难得到其精确值,对于任意一个模型,负对数似然度对其参数的导数的一般形式为:
[0024][0025]其中θ为某个模型参数,<x>data和<x>model分别是从数据和模型中估计的x的期望值。对于可见层—隐藏层神经元的权重,有
[0026][0027]其中,<v
i
,h
j
>data的值很容易获得,为可见层神经元v
i
和h
j
同时取1的频率,相反,<v
i
h
j
>model求解的值将花费大量时间。在隐藏层神经元的值没有确定时,<v
i
h
j
>model的求解复杂度极高,这使得RBM的训练时间很长。而本专利技术采用CD算法则可以通过近似估计<v
i
h
j
>model的值来代替原有项,从而大大提升了RBM的训练时间。
[0028]与现有技术相比,本专利技术的有益效果是:
[0029]1.本专利技术采用深度信念网络DBN,提取特征,进行非线性降维。其次,将提取的时空特征输入到DBN神经网本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于DBN

OCSVM的空气质量数据异常检测模型,其特征在于:包括数据处理阶段、数据异常检测阶段、模型分析阶段。所述数据处理系阶段包括数据的预处理、特征分析以及回归模型分析数据并计算数据影响因子的相关性关系;所述数据异常检测包括数据的整理分析、将提取的时空特征输入到DBN神经网络中,进行监督学习,作为分类器使用;所述模型分析阶段主要包括:首先进行了基于OCSVM高维异常检测,通过运用分类混淆矩阵(Confusion Matrix)来分析其结果。2.根据权利要求1所述的基于DBN

OCSVM的空气质量数据异常检测模型,其特征在于:只考虑对PM2.5这一单一元素进行预测。由于一些不可控的因素例如网络信号丢失,采集器突然宕机等导致部分原始数据会出现缺失情况。所以在此次研究中采用了24小时均值法对缺失的原始数据进行填补,使空气质量的监测数据尽可能的保存相应的特征。对于每个数据集,分别将其中的70%用来训练,即作为训练集;将其余数据,即数据集的30%用作测试集。在训练集中混入5%的异常数据,测试集中混入20%的异常数据,异常数据的每一维由均匀分布随机生成。实验前将数据进行预处理,对于每一个维度的数据统一归一化至[0,1]。其中,x
i
是预测值,xref
i
是观测值,xref
i*
是事件的所有观察到的规范化值,i随机处理是基于统计和概率形成的建模理论,用于分析数据。在大多数情况下,随机进程按时间编制索引。3.根据权利要求1所述的基于DBN

OCSVM的空气质量数据异常检测模型,其特征在于:采用无监督训练的自动编码器(Autoencoder,AE)和DBN提取特征,其特征在于:使用AE与深度信念网络本质上是一种概率生成模型,通过无监督的训练方法由底层至顶层逐层训练而成。训练DBN进行特征提取。通过多个RBM堆叠形成DBN网络,进行数据的特征提取。采样后得到的新数据逐层通过RBM,分别经一步对比散度RBM学习完成预训练,获得RBM网络预训练参数,再由输出层的分类器模型反向传播误差对模型参数进行微调,训练获取高维数据的较优低维表示。4.根据权利要求1所述的基于DBN

OCSVM的空气质量数据异常检测模型,其特征在于:采用OCSVM进行异常检测算法。OCSVM算法作为SVM算法的一种,将一些训练数据通过线性或非线性的核函数φ(
·
)映射到一个高维的特征空间,然后在高维的特征空间寻找一个超球面将这些特征向量分隔为正常事件和异常事件。5.根据权利要求1所述的基于DBN

OCSVM的空气质量数据异常检测模型,其特征在于:对于OCSVM中非线性问题的参数优化。对于复杂的高维样本空间,输入数据并不能直接通过一个简单的线性函数分隔,但是可以通过一个超球面对其进行分隔,通常将其称为非线性分隔问题。对于非线性问题的处理,本发明通过径向基核函数(radial basis function,RBF):将其转化为线性问题,进而对线性问题进行求解。在这个过
程中为了确保超平面以最优的边界,本发明将样本进行归类,优化数据对偶问题。同时,本发明采用的方法为“交叉验证”(Cross

validation)法来确定给定训练集的最佳参数值。其具体的做法是,首先将训练数据随机均分成n等份(n

Fold),将其中的每一份分别作为测试集而其他的作为训练集;之后用“网格搜索法”确定每种情况下的最佳参数;最终n种情况下SVM表现出的最高分类精度所对应的一组参数值即作为该SVM的最佳参数。6.根据权利要求1所述的基于DBN

OCSVM的空气质量数据异常检测模型,其特征在于:在RBM的参数优化过程中,由于<v
i
h
j
>model项的值很难计算,因此采用对比散度(Contrastive Divergence,CD)算法来近似求得这一项的值。采用随机梯度下降算法(Stochastic Gradient Descent,SGD)来训练RBM,损失函数采用极小化NLL:其中F(v)为:损失函数的参数通过以下方法更新:损失函数的参数通过以下方法更新:损失函数的参数通过以下方法更新:其中,ρ为惯性系数(Momentum),M
b
是批量(Minibatch)大小,是W
t
的梯度,是a
t
的梯度,是b
t
的梯度。在RBM中,求解对数似然度的梯度很难得到其精确值,对于任意一个模型,负对数似然度对其参数的导数的一般形式为:其中θ为某个模型参数,<x>data和<x>model分别是从数据和模型中估计的x的期望值。对于可见层—隐藏层神经元的权重,有其中,<v
i
,h
j
>data的值很容易获得,为可见层神经元v
i
和h
j
同时取1的频率,相反,<v
i
h
j
>model求解的值将花费大量时间。在隐藏层神经元的值没有确定时,<v
i
h
j
>model的求解复杂度极高,这使得RBM的训练时间很长。而本发明采用CD算法则可以通过近似估计<v
i
h
j
>model的值来代替原有项,从而大大提升了RBM的训练时间。7.根据权利要求1~6所述的基于DBN

OCSVRM的空气质量数据异常检测模型,流程如
下:A、对空气质量检测数据,PM2.5进行数据处理。对于每个数据集,分别将其中的70...

【专利技术属性】
技术研发人员:邹堉莹项衍杨建文刘岳阳丁琪芮符天睿路然王继云
申请(专利权)人:安徽大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1