【技术实现步骤摘要】
一种基于改进的格拉布斯检验法的异常值识别方法
[0001]本专利技术涉及数据处理
,具体涉及一种基于改进的格拉布斯检验法的异常值识别方法。
技术介绍
[0002]气体检测受环境中多种因素的影响,且多种因素相互影响,都会给检测结果产生影响。在设计出相应的补偿算法来弥补外界因素对检测结果产生的影响后,还需要采用更为高效的数据处理方法去解决在计算环境参数补偿值时产生的异常值。
[0003]补偿值中异常值得存在将会影响气体浓度的准确度和可信度。目前现有的异常数据处理方法有很大的限制,例如精度低、异常值占比不能过大等。当异常值占比较多的情况下,为了提高异常值的检测精度,直接应用格拉布斯准则能有效地处理数据中误差存在率小于10%。
[0004]当前对于异常值的识别方法主要有莱茵达准则、格拉布斯准则、罗马诺夫斯基准则等。莱茵达准则通过查表即可简单识别异常值,用起来方便,但当数据量小于或等于10个时,该准则就极为不准确。罗马诺夫斯基准则计算较为复杂,容易造成数据冗余。格拉布斯准则适合在数据量较少的情况下使用,同时在判断异常值的时候与数组的均值和方差皆无关联,容易控制和调整。但数学上已经证明,在一组测定值中只有存在少量异常值的情况下,格拉布斯准则是最好的解决办法。当一组测定值中存在较多异常值时,需要先删除离谱的异常值后再运用格拉布斯准则来识别剩下差别较小的异常值。
[0005]当数据样本中异常值个数占比小于10%时,识别情况非常稳定,但是当异常值占比超过15%时,格拉布斯方法将会直接失效。当异常值数量过多 ...
【技术保护点】
【技术特征摘要】
1.一种基于改进的格拉布斯检验法的异常值识别方法,用于气体浓度补偿值中异常值的检测和去除;其特征在于:所述的方法包括步骤:S1、建立数据模型;S2、建立格拉布斯检验标准模型;S3、改进算法模型,替换均值引入参考值;将均值替换成其他参考值实现异常值判别,其他参考值是将中位数、众数、最大值和最小值按不同权重组成参考值,代替均值实现异常值检验,计算式(3
‑
1)为式中,P1和P2表示为参考值,x
max
表示为选取补偿值样本中的最大值;x
min
表示为选取补偿值样本中的最小值;N表示为选取补偿值样本的中位数;M表示为选取补偿值样本的众数;abcd表示为各个参数的权值;将参考值P1和P2代替均值完成残余误差绝对值的计算,计算公式为(3
‑
2):上式中,|V
i
|表示为数据样本中的第i个数据的残余误差绝对值,x
i
表示为数据样本中的第i个数据,P1和P2表示为参考值;将均值μ替换成参考值完成标准差的计算,计算式为(3
‑
3):上式中,σ'表示为均值替换成参考值后计算的标准差,n表示为数据样本总量,x
k
表示为数据样本中的第k个数据样本。S4、重新计算统计值H
i
,判断异常值。2.根据权利要求1所述的一种基于改进的格拉布斯检验法的异常值识别方法,其特征在于:步骤S1所述的建立数据模型是对空气中的气体进行检测,采用传感器检测模块对空气中气体浓度、温度、湿度和风速的数值采集,然后处理器对传感器发送的数据根据补偿算法计算气体补偿后的真实浓度,最后采用补偿修正模块对补偿值进行数据处理,识别并去除异常数据。3.根据权利要求2所述的一种基于改进的格拉布斯检验法的异常值识别方法,其特征在于:所述的补偿修正模块对补偿值进行数据处理的具体操作方式为:设气体补偿值X为监测数据样本集,i=1,2
···
,n,建立以μ为观测对象的数据模型(1
‑
1)为X~n(μ,σ2)(1
‑
1);式中,X表示数据集;μ表示数据集的均值;σ2表示为数据集的方差;式(1
‑
1)补偿值数据样本符合正态分布,式(1
‑
1)的均值μ和方差σ2为式(1
‑
2)所示:
式中,x
i
表示为检测数据样本中的第i个数据;n表示为样本中数据的个数。...
【专利技术属性】
技术研发人员:柯永斌,姜程文,孙靖康,孙攀峰,谢田,蓝庆华,邹佳明,倪静,刘玉祥,李金胜,祝芷沁,
申请(专利权)人:淮阴工学院,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。