【技术实现步骤摘要】
基于ARIMA预测和回归预测的传感器采集数据缺失值处理方法
本专利技术涉及大数据异常值处理
,尤其是基于ARIMA预测和回归预测的传感器采集数据缺失值处理方法。
技术介绍
在进行桥梁传感器数据分析之前,数据预处理过程中,不可避免需要对原数据的缺失值进行处理。在面对庞大且复杂的数据时,现有技术主要对缺失值进行简单的处理,如:直接删除、极端值替代、均值替代、极大似然估计、多重插补、众数填补等。由于桥梁传感器的实际数据是庞大而复杂的,因此现有技术往往只能选择其中一种方法进行缺失值的处理。现有技术对于数据中的缺失值只是进行简单笼统的处理,这样的数据处理方式导致了处理后数据与真实数据有较大的偏差,不但忽略了数据之间所具有的关联性,还改变了数据本身所具有的一些规律和性质。同时在大数据背景下,桥梁传感器产生的的数据量是庞大的,种类是复杂的,现有技术单一的缺失值处理方式,已经无法满足国内桥梁传感器数据分析领域的发展需求,而且在面对种类复杂的数据时更加捉襟见肘。综上所述,现有的数据缺失值处理方法,不仅降低了后续的数据分析与研究的意义和参考价值,而且无法满足国内桥梁传感器数据分析领域的发展需要,在传感器采集的数据处理问题尤为突出,具体表现为:1、现有缺失值处理技术处理后的数据与真实数据有较大偏差,不能反应数据本身的周期性、趋势性与相关性。2、现有缺失值处理技术对于庞大且复杂的数据时较为单一笼统,不能根据不同的缺失形式采取更优的填补方法。
技术实现思路
本专利技术提出基于ARIMA ...
【技术保护点】
1.基于ARIMA预测和回归预测的传感器采集数据缺失值处理方法,用于对采集数据中的缺失部分进行估算,并以估算值回填,其特征在于:所述处理方法包括以下步骤;/n步骤S1、对传感器采集数据的缺失部分进行时间填补及空值替代,把缺失部分转换为空值区;/n步骤S2、对空值区连续缺失值部分进行数据拆分,同时识读缺失值对应的传感器数量,对拆分后的数据以ARIMA算法或回归预测方法以对缺失值进行估算;/n步骤S3、对步骤S2中的估算值进行评估以判定其是否满足回填标准,以符合回填标准的估算值进行回填。/n
【技术特征摘要】
1.基于ARIMA预测和回归预测的传感器采集数据缺失值处理方法,用于对采集数据中的缺失部分进行估算,并以估算值回填,其特征在于:所述处理方法包括以下步骤;
步骤S1、对传感器采集数据的缺失部分进行时间填补及空值替代,把缺失部分转换为空值区;
步骤S2、对空值区连续缺失值部分进行数据拆分,同时识读缺失值对应的传感器数量,对拆分后的数据以ARIMA算法或回归预测方法以对缺失值进行估算;
步骤S3、对步骤S2中的估算值进行评估以判定其是否满足回填标准,以符合回填标准的估算值进行回填。
2.根据权利要求1所述的基于ARIMA预测和回归预测的传感器采集数据缺失值处理方法,其特征在于:在步骤S1中包括以下步骤;
步骤A11、导入传感器采样的原始数据集,将传感器原始数据集按时间属性进行排序形成时间序列原始数据集;所述时间序列原始数据集至少包含以下属性:时间、传感器类型、传感器编号、规定时间间隔内传感器数据平均值;
步骤A12、对时间序列原始数据集内符合预设时间间隔阈值范围内的时间缺失进行填补,将其所对应的缺失数据使用空值来进行替代,替代完成后根据时间属性进行重复值剔除,剔除重复的时间节点及其对应的数据,以保证时间节点对应的采样数据的唯一性;
步骤A13、对完成时间填补及空值替代的传感器采样数据集进行筛选,筛选出不在量程范围、精度误差范围内的数值并剔除,剔除完成后在对应位置使用空值进行替代。
3.根据权利要求2所述的基于ARIMA预测和回归预测的传感器采集数据缺失值处理方法,其特征在于:所述步骤S2包括以下步骤;
步骤B11、对采样数据集进行空值识别来识别其缺失值,并判断缺失值是否连续;方法为:
设第一个缺失值之前纳入识别模型的数据量为M,连续缺失数据的个数为m,设定一个判别标准G,G的取值根据数据特性设定,具体选取算法如下:
第一步:设S为当前使用场景的时间序列真实采样数据,且为步骤A13的缺失值处理后的数据集;从S中截取一段连续且无缺失值的数据M;在M数据集中随机m个时间节点对应数据进行空值替代,使用ARIMA算法和回归算法对这m个空值进行预测并使用预测结果填补空值;
第二步:设M数据集中使用空值替代的m个数据所对应的时间节点分别为t1,t2,…tm;该时间节点对应真实采样数据为F(t)={f(t1),f(t2),…,f(tm)};则使用ARIMA算法预测结果为D(t)={d(t1),d(t2),…,d(tm)},使用回归算法预测结果为K(t)={k(t1),k(t2),…,k(tm)}。
第三步:设第一个缺失值之前的数据量为H,连续缺失的数据个数为h,第一次取h=1时,使用ARIMA算法与回归算法预测,得到预测的估算值d(th)与k(th),计算ARIMA算法预测残差平方和回归预测残差平方和当SSEs≤SSEx,则h=h+1,重复进行两种方法对缺失值进行估算,重复以上步骤直到SSEs>SSEx,定义当前的
第四步:以公式进行校验;
为消除一次训练带来的偶然性,重复第二步,取一段新的连续不缺失数据,或者在第二步数据中在不同位置挖空,再重复第三步,得到G2;如此循环往复,得到了G1,G2,…,Gn,将它们的平均值定义为G,即
当时,判定该段缺失数据为非连续缺失;<...
【专利技术属性】
技术研发人员:徐飞,杨鑫,刘议丹,黄正鹏,黄祖海,陈友武,马森标,李睿安,王知军,
申请(专利权)人:福建中锐网络股份有限公司,
类型:发明
国别省市:福建;35
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。