当前位置: 首页 > 专利查询>淮阴工学院专利>正文

一种基于改进的格拉布斯检验法的异常值识别方法技术

技术编号:38619711 阅读:11 留言:0更新日期:2023-08-31 18:24
一种基于改进的格拉布斯检验法的异常值识别方法,用于气体浓度补偿值中异常值的检测和去除,所述的方法包括步骤:S1、建立数据模型;S2、标准模型缺陷,替换均值;S3、改进算法模型,替换均值引入参考值;S4、重新计算统计值H

【技术实现步骤摘要】
一种基于改进的格拉布斯检验法的异常值识别方法


[0001]本专利技术涉及数据处理
,具体涉及一种基于改进的格拉布斯检验法的异常值识别方法。

技术介绍

[0002]气体检测受环境中多种因素的影响,且多种因素相互影响,都会给检测结果产生影响。在设计出相应的补偿算法来弥补外界因素对检测结果产生的影响后,还需要采用更为高效的数据处理方法去解决在计算环境参数补偿值时产生的异常值。
[0003]补偿值中异常值得存在将会影响气体浓度的准确度和可信度。目前现有的异常数据处理方法有很大的限制,例如精度低、异常值占比不能过大等。当异常值占比较多的情况下,为了提高异常值的检测精度,直接应用格拉布斯准则能有效地处理数据中误差存在率小于10%。
[0004]当前对于异常值的识别方法主要有莱茵达准则、格拉布斯准则、罗马诺夫斯基准则等。莱茵达准则通过查表即可简单识别异常值,用起来方便,但当数据量小于或等于10个时,该准则就极为不准确。罗马诺夫斯基准则计算较为复杂,容易造成数据冗余。格拉布斯准则适合在数据量较少的情况下使用,同时在判断异常值的时候与数组的均值和方差皆无关联,容易控制和调整。但数学上已经证明,在一组测定值中只有存在少量异常值的情况下,格拉布斯准则是最好的解决办法。当一组测定值中存在较多异常值时,需要先删除离谱的异常值后再运用格拉布斯准则来识别剩下差别较小的异常值。
[0005]当数据样本中异常值个数占比小于10%时,识别情况非常稳定,但是当异常值占比超过15%时,格拉布斯方法将会直接失效。当异常值数量过多时,造成标准差在存在异常值时偏差变大造成识别失效或漏掉的可能性,降低识别率;异常值过多的存在将可能产生较大的均值估计偏差,使统计值改变较大,从而造成异常值的识别失效或漏判。

技术实现思路

[0006]针对气体浓度补偿值在面对大量异常值时,传统的异常值识别方法可能会导致检测结果不准确的技术问题,本技术方案提供了一种基于改进的格拉布斯检验法的异常值识别方法,将对格拉布斯检验法进行改进,采用改进的格拉布斯准则识别并处理补偿值中的异常值,提升检测精度的同时解决异常值占比过大无法操作的情况;可以有效地消除因异常值占比过大而造成结果不准确的影响,以较高的精度去检测气体浓度补偿值中的异常值;能有效的解决上述问题。
[0007]本专利技术通过以下技术方案实现:
[0008]一种基于改进的格拉布斯检验法的异常值识别方法,用于气体浓度补偿值中异常值的检测和去除,所述的方法包括步骤:
[0009]S1、建立数据模型;
[0010]S2、建立格拉布斯检验标准模型;
[0011]S3、改进算法模型,替换均值引入参考值;
[0012]将均值替换成其他参考值实现异常值判别,其他参考值是将中位数、众数、最大值和最小值按不同权重组成参考值,代替均值实现异常值检验,计算式(3

1)为
[0013][0014]式中,P1和P2表示为参考值,x
max
表示为选取数据样本中的最大值;x
min
表示为选取数据样本中的最小值;N表示为选取数据样本的中位数;M表示为选取数据样本的众数;abcd表示为各个参数的权值;
[0015]将参考值P1和P2代替均值完成残余误差绝对值的计算,计算公式为(3

2):
[0016][0017]上式中,|V
i
|表示为数据样本中的第i个数据的残余误差绝对值,x
i
表示为数据样本中的第i个数据,P1和P2表示为参考值。
[0018]将均值μ替换成参考值完成标准差的计算,计算式为(3

3):
[0019][0020]上式中,σ'表示为均值替换成参考值后计算的标准差,n表示为数据样本总量,x
k
表示为数据样本中的第k个数据样本。
[0021]S4、重新计算统计值H
i
,判断异常值。
[0022]进一步的,步骤S1所述的建立数据模型是对空气中的气体进行检测,采用传感器检测模块对空气中气体浓度、温度、湿度和风速的数值采集,然后处理器对传感器发送的数据根据补偿算法计算气体补偿后的真实浓度,最后采用补偿修正模块对补偿值进行数据处理,识别并去除异常数据。
[0023]进一步的,所述的补偿修正模块对补偿值进行数据处理的具体操作方式为:
[0024]设气体补偿值X为监测数据样本集,i=1,2
···
,n,建立以μ为观测对象的数据模型(1

1)为
[0025]X~n(μ,σ2)(1

1);
[0026]式中,X表示数据集;μ表示数据集的均值;σ2表示为数据集的方差;式(1

1)补偿值数据样本符合正态分布,式(1

1)的均值μ和方差σ2为式(1

2)所示:
[0027][0028]式中,x
i
表示为检测数据样本中的第i个数据;n表示为样本中数据的个数。
[0029]进一步的,步骤S2所述建立标准模型的具体操作方式为:
[0030]根据式(1

2),建立标准的格拉布斯检验法,其计算式如(2

1)
[0031][0032]式中,H
i
表示为数据样本中的第i个数据的统计值,|V
i
|表示为数据样本中的第i个数据的残余误差绝对值。
[0033]进一步的,步骤S4所述的重新计算统计值H
i
,判断异常值,具体的方法为:
[0034]经过对补偿值的残余误差和标准差的改进,重新求得统计值H
i
,计算式为(4

1):
[0035][0036]重新定义统计值H'
i
,使其公式中完全消除均值偏差可能带来的干扰,两个参考值是最大值、最小值、中位数和众数按比例结合,中位数可以有效的代表一组数据样本集中最中间的数据,一定程度上综合了平均数的优点,具有代表性;而众数着眼于对数据出现频率的记录,与数据组中的部分数据有关,不受极端值的影响;最大值和最小值作为数据组中出现的两端极值,极有可能是异常值,但二者结合即可消除其影响;计算好统计值H'
i
后,进行识别工作,识别的计算式为(4

2):
[0037]H'
i
≤G
p
(n)(4

2);
[0038]上式中,G
p
(n)为临界值;临界值G
p
(n)的大小与置信概率p和数据量n有关,对于有些数据集的精度需要极为精准,必须将置信概率p定义较高;若数据样本中某个数据的统计值H'
i
大于临界值G
p
(n),则该数据存在较大的误差,将其删除后,再用下一本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于改进的格拉布斯检验法的异常值识别方法,用于气体浓度补偿值中异常值的检测和去除;其特征在于:所述的方法包括步骤:S1、建立数据模型;S2、建立格拉布斯检验标准模型;S3、改进算法模型,替换均值引入参考值;将均值替换成其他参考值实现异常值判别,其他参考值是将中位数、众数、最大值和最小值按不同权重组成参考值,代替均值实现异常值检验,计算式(3

1)为式中,P1和P2表示为参考值,x
max
表示为选取补偿值样本中的最大值;x
min
表示为选取补偿值样本中的最小值;N表示为选取补偿值样本的中位数;M表示为选取补偿值样本的众数;abcd表示为各个参数的权值;将参考值P1和P2代替均值完成残余误差绝对值的计算,计算公式为(3

2):上式中,|V
i
|表示为数据样本中的第i个数据的残余误差绝对值,x
i
表示为数据样本中的第i个数据,P1和P2表示为参考值;将均值μ替换成参考值完成标准差的计算,计算式为(3

3):上式中,σ'表示为均值替换成参考值后计算的标准差,n表示为数据样本总量,x
k
表示为数据样本中的第k个数据样本。S4、重新计算统计值H
i
,判断异常值。2.根据权利要求1所述的一种基于改进的格拉布斯检验法的异常值识别方法,其特征在于:步骤S1所述的建立数据模型是对空气中的气体进行检测,采用传感器检测模块对空气中气体浓度、温度、湿度和风速的数值采集,然后处理器对传感器发送的数据根据补偿算法计算气体补偿后的真实浓度,最后采用补偿修正模块对补偿值进行数据处理,识别并去除异常数据。3.根据权利要求2所述的一种基于改进的格拉布斯检验法的异常值识别方法,其特征在于:所述的补偿修正模块对补偿值进行数据处理的具体操作方式为:设气体补偿值X为监测数据样本集,i=1,2
···
,n,建立以μ为观测对象的数据模型(1

1)为X~n(μ,σ2)(1

1);式中,X表示数据集;μ表示数据集的均值;σ2表示为数据集的方差;式(1

1)补偿值数据样本符合正态分布,式(1

1)的均值μ和方差σ2为式(1

2)所示:
式中,x
i
表示为检测数据样本中的第i个数据;n表示为样本中数据的个数。...

【专利技术属性】
技术研发人员:柯永斌姜程文孙靖康孙攀峰谢田蓝庆华邹佳明倪静刘玉祥李金胜祝芷沁
申请(专利权)人:淮阴工学院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1