当前位置: 首页 > 专利查询>东南大学专利>正文

大动态范围大离散单区域多点精准确定异常值的方法技术

技术编号:24084359 阅读:52 留言:0更新日期:2020-05-09 05:29
本发明专利技术公开了大动态范围大离散单区域多点精准确定异常值的方法。采集大动态范围大离散单区域样本,提取单区域样本中各点的标准差和离散差,并对标准差和离散差进行阈值处理;通过标准差均值前向平移操作处理单区域样本中各点的标准差;计算单区域样本内所有点的置信率;将所有点置信率分别与置信率阈值比较,判断出样本中的异常点,实现大动态范围大离散单区域多点精准确定异常数值。本发明专利技术克服了数据量大和异常不明显的难题,能够快速精准地确定异常数值。

A method of accurate determination of outliers in large dynamic range and large discrete single area

【技术实现步骤摘要】
大动态范围大离散单区域多点精准确定异常值的方法
本专利技术属于计算机数据处理
,特别涉及了一种大动态范围大离散数据的异常值确定方法。
技术介绍
在计算机建模时,清理数据样本非常重要,可以确保观察结果充分代表问题。有时,数据集可能包含超出预期范围之外的极端值,这些值通常被称为异常值。通过理解甚至去除这些异常值,能够改进建模和模型技能。目前提出的确定数据异常值的方法包括基于距离的方法、基于偏差的方法和基于密度的方法等。这些方法虽然可以找出异常值,但是方法较为繁琐,需要大量的机器学习,尤其是当动态范围较大,异常数据不明显时,通过现有的方法很难查找出来。例如,在分布式光纤振动传感定位技术中,误报率是突出的问题,当系统发生误报时,系统测出的振动点与实际振动点相差几百米。尤其是当传输距离较远时,因为背向散射信号较弱,信号和背景噪声无法区分开来,造成振动定位的误报,因此亟需一种精准定位振动点的方法。
技术实现思路
为了解决上述
技术介绍
提出的技术问题,本专利技术提出了大动态范围大离散单区域多点精准确定异常值的方法,克服了数据量大和异常不明显的难题,能够快速精准地确定异常数值。为了实现上述技术目的,本专利技术的技术方案为:大动态范围大离散单区域多点精准确定异常值的方法,包括以下步骤:(1)采集大动态范围大离散单区域样本,提取单区域样本中各点的标准差和离散差,并对标准差和离散差进行阈值处理;(2)通过标准差均值前向平移操作处理单区域样本中各点的标准差;(3)计算单区域样本内所有点的置信率;(4)将所有点置信率分别与置信率阈值比较,判断出样本中的异常点,实现大动态范围大离散单区域多点精准确定异常数值。进一步地,在步骤(1)中,一次采集N个单区域样本,计算各点的平均值标准差σi和离散差dij:其中,xij表示第j个样本中第i个点值,i=1,2,…,M,M为采样点数目,j=1,2,…,N。进一步地,在步骤(1)中,对标准差和离散差进行阈值处理的方法如下:设定阈值t1和t2;当第i个采样点的标准差σi满足σi≤t1时,将σi设置为t1;当第j个样本的第i个采样点的离散差dij满足dij≤t2时,将dij设置为0。进一步地,步骤(2)的过程如下:设定T1和T2,将第i-T1~i-T2内所有采样点的标准差加权求平均值,并将其作为第i个采样点的标准差σi。进一步地,在步骤(3)中,按下式计算各点的置信率Dij:Dij=dij-g*σi其中,g为预设的倍数;若Dij>0,则令Dij=1,否则令Dij=0;将Dij存入数组D中,Dij即为数组D中第i行第j列的元素。进一步地,在步骤(4)中,设定置信率阈值d,计算数组D每行元素之和di,若di>d,则认为第i个采样点为异常点。附图说明图1是实施例分布式光纤振动传感定位方法的流程图;图2是实施例提供的扰动为10km处信号与扰动位置关系图;图3是实施例提供的扰动为10km处标准差与扰动位置关系图;图4是实施例提供的扰动为10km处离散差与扰动位置关系图;图5是实施例提供的扰动为10km处判据与扰动位置环形图;图6是实施例提供的扰动为10km处置信率与扰动位置关系图;图7是实施例提供的扰动为10km处定位离散度图;图8为实施例提供的最大定位离散度与扰动位置关系图。具体实施方式以下将结合附图,对本专利技术的技术方案进行详细说明。现实中很多场景需要对大数据进行异常值的定位,如前述
技术介绍
中提到的分布式光纤振动传感定位技术。本实施例通过将大动态范围大离散单区域多点精准确定异常值的方法应用于分布式光纤振动传感定位技术中,得到一种分布式光纤振动传感定位方法,如图1所示,其步骤如下:步骤1:将分布式光纤振动传感系统采集的N条曲线作为一组,计算N条曲线上M个点的平均值、标准差以及离散差,并对标准差和离散差进行阈值处理。采用下述优选方案实现步骤1:各点的平均值标准差σi和离散差dij的计算公式如下:xij表示第j条曲线中第i个点值,i=1,2,…,M,M为采样点数目,j=1,2,…,N。N=20,M=65536。对标准差和离散差进行阈值处理的方法如下:设定阈值t1和t2,当第i个采样点的标准差σi满足σi≤t1时,将σi设置为t1;当第j个样本的第i个采样点的离散差dij满足dij≤t2时,将dij设置为0。进一步地,设置t1=30,t2=72。步骤2:通过标准差均值前向平移操作处理各采样点的标准差。采用下述优选方案实现步骤2:设定T1和T2,将第i-T1~i-T2内所有采样点的标准差加权求平均值,并将其作为第i个采样点的标准差σi。进一步地,设定T1=1000,T2=500,则:步骤3:计算所有采样点的置信率。采用下述优选方案实现步骤3:按下式计算各点的置信率Dij:Dij=dij-g*σi其中,g为预设的倍数;若Dij>0,则令Dij=1,否则令Dij=0;将Dij存入数组D中,Dij即为数组D中第i行第j列的元素。在分布式光纤振动传感中,倍数g的优选值为2.4。步骤4:将所有点置信率分别与置信率阈值比较,从而判断出振动点。采用下述优选方案实现步骤4:设定置信率阈值d,计算数组D每行元素之和di,若di>d,则认为第i个采样点可能发生了扰动,统计所有可能发生扰动的点的个数为t,并将这些所有的可能振动点取平均作为真实的振动点。进一步地,设定d=6。为了验证本专利技术,进行如下实验。在10km处持续施加扰动,连续采集2000条曲线,对采集的2000条曲线做了方法处理,图2为采集的信号原始曲线图,由于扰动信号较小,动态范围较大,很难直接从图2得出扰动位置。而采用本专利技术,对图2的原始数据进行特征提取,图3为其标准差图,从图上可以看出扰动位置及之后的点其标准差会发生明显变化;图4为采集的20个样本的离散差图,从上面可以看出,扰动位置及其之后的点的离散差会发生突变;图5为采集的20个样本的每个点判据之后的图,从图上可以看出,只有扰动点位置的判据区别于其它位置点,特征较为明显;图6为采集的20个样本的每个点的置信率,从图上可以看出,扰动点处的置信率会大于6,区别于非扰动点。图7为使用本专利技术方法,扰动点在10km处100组数据的定位离散度,从图中可以看出,最大离散度为4,最小离散度为0。另外,本实施例还在保持实验室条件不变的情况下,只改变扰动位置,并采集不同位置处2000条曲线的数据做处理,得出在2.2km、5km、10km、15km、20km处的最大离散度。图8为定位离散度与扰动位置的关系图,可以看出,随着扰动位置的增加,定位的离散度始终保持在本文档来自技高网
...

【技术保护点】
1.大动态范围大离散单区域多点精准确定异常值的方法,其特征在于,包括以下步骤:/n(1)采集大动态范围大离散单区域样本,提取单区域样本中各点的标准差和离散差,并对标准差和离散差进行阈值处理;/n(2)通过标准差均值前向平移操作处理单区域样本中各点的标准差;/n(3)计算单区域样本内所有点的置信率;/n(4)将所有点置信率分别与置信率阈值比较,判断出样本中的异常点,实现大动态范围大离散单区域多点精准确定异常数值。/n

【技术特征摘要】
1.大动态范围大离散单区域多点精准确定异常值的方法,其特征在于,包括以下步骤:
(1)采集大动态范围大离散单区域样本,提取单区域样本中各点的标准差和离散差,并对标准差和离散差进行阈值处理;
(2)通过标准差均值前向平移操作处理单区域样本中各点的标准差;
(3)计算单区域样本内所有点的置信率;
(4)将所有点置信率分别与置信率阈值比较,判断出样本中的异常点,实现大动态范围大离散单区域多点精准确定异常数值。


2.根据权利要求1所述大动态范围大离散单区域多点精准确定异常值的方法,其特征在于,在步骤(1)中,一次采集N个单区域样本,计算各点的平均值标准差σi和离散差dij:









其中,xij表示第j个样本中第i个点值,i=1,2,…,M,M为采样点数目,j=1,2,…,N。


3.根据权利要求2所述大动态范围大离散单区域多点精准确定异常值的方法,其特征在于,在步骤(1)中,对标准差和离散差进行阈值处理的方法如下:

【专利技术属性】
技术研发人员:孙小菡徐宛丽吴宝锋刘华伟
申请(专利权)人:东南大学
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1