基于单分类支持向量机模型发现环境监测异常数据的算法制造技术

技术编号:27976505 阅读:20 留言:0更新日期:2021-04-06 14:10
本发明专利技术公开了一种基于单分类支持向量机模型发现环境监测异常数据的算法,通过训练集样本完成一个单分类支持向量机模型的建立;并在根据模型确定的边界定义正常值和离群点对应的参数,完成模型边界划定;完成单分类支持向量机模型构建。当模型训练好后,将未知数据值作为测试集新加入到已有模型中;以输入数据点是否在边界内判断该数据点是否为离群异常点得到结论。该算法可通过已知环境监测数据构建特征空间的正常样本边界,并利用已有数据构建的模型对新加入数据点进行异常值探测和筛选,以达到对环境监测数据进行质量管理的目的。该算法可实现环境监测数据的动态建模,并通过模型确定训练数据中的离群点,发现环境监测数据中存在的异常数据。

【技术实现步骤摘要】
基于单分类支持向量机模型发现环境监测异常数据的算法
本专利技术涉及环境监测
,特别是一种基于单分类支持向量机模型发现环境监测异常数据的算法。
技术介绍
我国多样的环境条件和人文因素导致了各地环境数据的时间轴和空间轴向的多样性。近几年,随着相关环境政策的提出和我国环境问题的日益严峻,高质量的环境监测数据是进行环境研究的保障。由于存在仪器设备、数据传输和人工操作等多种不确定因素,导致海量的数据中存在少量的数据异常。然而由于环境监测网络数据获取的数据量大涉及指标广泛,环境监测数据量从原来的兆字节/天增大到太字节/天,这些数据异常很难通过人工筛选来发现和删除。这些异常点若不加审核就直接发布,将极大的影响数据质量,使得下游分析出现偏差。这些准确性不够的数据对后续的科学研究和政策制定将产生消极的影响。传统的方式是通过环境对监测设备日常维护和手工校准,以及人工平行样比对和数据人工审核等方法确保数据质量。这样的方法无法全面的考虑本地实际情况,并根据历史数据调整模型。进一步,当前可用的处理模型由于无法实时更新,其滞后性导致对异常数据判断不够灵敏,可本文档来自技高网...

【技术保护点】
1.基于单分类支持向量机模型发现环境监测异常数据的算法,其特征在于:包括以下步骤:/n步骤S1.初始化建模数据点:获取一定时间内每个时间点的当前站点的监测数据T

【技术特征摘要】
1.基于单分类支持向量机模型发现环境监测异常数据的算法,其特征在于:包括以下步骤:
步骤S1.初始化建模数据点:获取一定时间内每个时间点的当前站点的监测数据Ti及若干新的站点监测数据Rj,其中i,j为正整数;
步骤S2.设定参数:设定核函数k,异常点比例r和误差阈值tol参数;
步骤S3.模型训练:根据所设定参数规划出数据点Ti在特征空间中形成样本空间;将当前站点的监测数据Ti投入模型框架,迭代至模型与训练数据间误差小于设定误差阈值tol,确定模型相关参数;
在模型的训练过程中,训练目的是期望最后的模型对于输入样本而言,在异常点比例满足设定异常点比例r的同时,误差e小于等于设定误差阈值tol;
步骤S4.确定参数及对应样本空间:重复步骤S3,直到模型满足步骤S3中训练目的,确定对应的样本空间和边界;根据所确定参数规划出数据点Ti在特征空间中形成样本空间,以及该空间对应的范围数据;
步骤S5.模型运用:输入新的站点监测数据点Rj
步骤S6.判断离群点:判断新的站点监测数据Rj中超出模型边界点为异常值Rout,在模型边界中的点为正常值Rin;
步骤S7.动态调整:利用模型边界内的新加入正常值Rin和原有监测数据Ti,重复步骤S2至步骤S4,优化构建下一代模型。


2.如权利要求1所述的基于单分类支持向量机模型发现环境监测异常数据的算法,其特征在于:所述步骤S2,S3,S4的具体计算如下:
对于Ti个数据点中的每一个数据点t,单分类支持向量机模型训练的目的是将所有样本点与原点在特征空间中尽量分开,即最大化分类超平面到原点的距离;
令ψ(t)为将t映射后的特征向量,则样本点所创建空间可用一个参数为w和b的超平面表示:
f(t)=WT·ψ(t)+b
而每个数据点t到特征空间原点的距离可表示为



需要每个数据点t到原点的距离尽可能大,即:



支持向量机的目标就是要最大化这个几何间隔1/||w||;在数学上,最大化该间隔,可以视为最小化|...

【专利技术属性】
技术研发人员:杨婧付强柳媛姚雅伟米方卓吴晓凤柴文轩杨楠王光朱余罗财红
申请(专利权)人:中国环境监测总站
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1