基于ARIMA预测和回归预测的传感器采集数据缺失值处理方法技术

技术编号:29835962 阅读:14 留言:0更新日期:2021-08-27 14:25
本发明专利技术提出基于ARIMA预测和回归预测的传感器采集数据缺失值处理方法,用于对采集数据中的缺失部分进行估算,并以估算值回填,所述处理方法包括以下步骤;步骤S1、对传感器采集数据的缺失部分进行时间填补及空值替代,把缺失部分转换为空值区;步骤S2、对空值区连续缺失值部分进行数据拆分,同时识读缺失值对应的传感器数量,对拆分后的数据以ARIMA算法或回归预测方法以对缺失值进行估算;步骤S3、对步骤S2中的估算值进行评估以判定其是否满足回填标准,以符合回填标准的估算值进行回填;本发明专利技术能对桥梁传感器收集数据的缺失值进行预测,从而对缺失值(缺失值包括:空值、超出传感器量程和精度的数据)进行回填。

【技术实现步骤摘要】
基于ARIMA预测和回归预测的传感器采集数据缺失值处理方法
本专利技术涉及大数据异常值处理
,尤其是基于ARIMA预测和回归预测的传感器采集数据缺失值处理方法。
技术介绍
在进行桥梁传感器数据分析之前,数据预处理过程中,不可避免需要对原数据的缺失值进行处理。在面对庞大且复杂的数据时,现有技术主要对缺失值进行简单的处理,如:直接删除、极端值替代、均值替代、极大似然估计、多重插补、众数填补等。由于桥梁传感器的实际数据是庞大而复杂的,因此现有技术往往只能选择其中一种方法进行缺失值的处理。现有技术对于数据中的缺失值只是进行简单笼统的处理,这样的数据处理方式导致了处理后数据与真实数据有较大的偏差,不但忽略了数据之间所具有的关联性,还改变了数据本身所具有的一些规律和性质。同时在大数据背景下,桥梁传感器产生的的数据量是庞大的,种类是复杂的,现有技术单一的缺失值处理方式,已经无法满足国内桥梁传感器数据分析领域的发展需求,而且在面对种类复杂的数据时更加捉襟见肘。综上所述,现有的数据缺失值处理方法,不仅降低了后续的数据分析与研究的意义和参考价值,而且无法满足国内桥梁传感器数据分析领域的发展需要,在传感器采集的数据处理问题尤为突出,具体表现为:1、现有缺失值处理技术处理后的数据与真实数据有较大偏差,不能反应数据本身的周期性、趋势性与相关性。2、现有缺失值处理技术对于庞大且复杂的数据时较为单一笼统,不能根据不同的缺失形式采取更优的填补方法。
技术实现思路
本专利技术提出基于ARIMA预测和回归预测的传感器采集数据缺失值处理方法,能对桥梁传感器收集数据的缺失值进行预测,从而对缺失值(缺失值包括:空值、超出传感器量程和精度的数据)进行回填。本专利技术采用以下技术方案。基于ARIMA预测和回归预测的传感器采集数据缺失值处理方法,用于对采集数据中的缺失部分进行估算,并以估算值回填,所述处理方法包括以下步骤;步骤S1、对传感器采集数据的缺失部分进行时间填补及空值替代,把缺失部分转换为空值区;步骤S2、对空值区连续缺失值部分进行数据拆分,同时识读缺失值对应的传感器数量,对拆分后的数据以ARIMA算法或回归预测方法以对缺失值进行估算;步骤S3、对步骤S2中的估算值进行评估以判定其是否满足回填标准,以符合回填标准的估算值进行回填。在步骤S1中包括以下步骤;步骤A11、导入传感器采样的原始数据集,将传感器原始数据集按时间属性进行排序形成时间序列原始数据集;所述时间序列原始数据集至少包含以下属性:时间、传感器类型、传感器编号、规定时间间隔内传感器数据平均值;步骤A12、对时间序列原始数据集内符合预设时间间隔阈值范围内的时间缺失进行填补,将其所对应的缺失数据使用空值来进行替代,替代完成后根据时间属性进行重复值剔除,剔除重复的时间节点及其对应的数据,以保证时间节点对应的采样数据的唯一性;步骤A13、对完成时间填补及空值替代的传感器采样数据集进行筛选,筛选出不在量程范围、精度误差范围内的数值并剔除,剔除完成后在对应位置使用空值进行替代。所述步骤S2包括以下步骤;步骤B11、对采样数据集进行空值识别来识别其缺失值,并判断缺失值是否连续;方法为:设第一个缺失值之前纳入识别模型的数据量为M,连续缺失数据的个数为m,设定一个判别标准G,G的取值根据数据特性设定,具体选取算法如下:第一步:设S为当前使用场景的时间序列真实采样数据,且为步骤A13的缺失值处理后的数据集;从S中截取一段连续且无缺失值的数据M;在M数据集中随机m个时间节点对应数据进行空值替代,使用ARIMA算法和回归算法对这m个空值进行预测并使用预测结果填补空值;第二步:设M数据集中使用空值替代的m个数据所对应的时间节点分别为t1,t2,…tm;该时间节点对应真实采样数据为F(t)={f(t1),f(t2),…,f(tm)};则使用ARIMA算法预测结果为D(t)={d(t1),d(t2),…,d(tm)},使用回归算法预测结果为K(t)={k(t1),k(t2),…,k(tm)}。第三步:设第一个缺失值之前的数据量为H,连续缺失的数据个数为h,第一次取h=1时,使用ARIMA算法与回归算法预测,得到预测的估算值d(th)与k(th),计算ARIMA算法预测残差平方和回归预测残差平方和当SSEs≤SSEx,则h=h+1,重复进行两种方法对缺失值进行估算,重复以上步骤直到SSEs>SSEx,定义当前的第四步:以公式进行校验;为消除一次训练带来的偶然性,重复第二步,取一段新的连续不缺失数据,或者在第二步数据中在不同位置挖空,再重复第三步,得到G2;如此循环往复,得到了G1,G2,…,Gn,将它们的平均值定义为G,即当时,判定该段缺失数据为非连续缺失;步骤B12、把采样数据拆分成一个时间点对应一个传感器的数值格式;步骤B13、针对每个传感器进行ARIMA算法建模,具体方法为:对传感器采样数据进行从表头开始检索,若第一个为缺失值则跳过该值,继续检索,直到检索到非缺失值;检索到非缺失值后,由该值起往后提取连续非缺失的时间及其对应传感器数据,直到遇到缺失值为止,设该过程提取了N个连续非缺失的数据,则将其当作一个新的时间序列数据,进行ARIMA算法建模,从而预测该时间序列数据后m个缺失数据,预测完成后根据ARIMA算法或回归预测生成对缺失数据的估算值;步骤B13、将估算值填补到对应时间点传感器缺失数据的数据集对应部位,然后判断采样数据集是否还存在空值数据,若还存在则从步骤B11再次执行。在步骤B13中,若采样数据包括多个传感器数据,则对各个传感器的数据进行相关性分析,计算各个传感器数据之间的皮尔逊系数,生成相关系数矩阵,以公式表述为其中,Cov(X,Y)为X与Y的协方差,Var[X]为X的方差,Var[Y]为Y的方差;所述相关系数矩阵用于评估各个传感器数据之间的线性关系,即一个传感器的数据变化趋势是否与另一个传感器的数据变化趋势相类似;当两传感器数据间的相关系数值满足预设相关系数(0.8)时,则表示采样数据集中,这两个传感器的采样数据存在较强的线性关系,其缺失值通过建立回归预测模型进行预测估算以减小估算偏差;所述回归预测模型的自变量、因变量由上述的相关性分析结果和缺失值预测目标来确定。所述传感器为桥梁传感器。当桥梁传感器的采样数据源于新的采样项目时,所述步骤S3中采用均方误差对估算值的拟合度进行精度评估。在步骤S3中,以均值填补数据与步骤S2中的估算值进行比对以输出拟合度评估结果。根据步骤B11中的判别标准G来判定桥梁传感器缺失数据部分为短缺失数据还是连续缺失数据,当所述桥梁传感器缺失数据部分为短缺失数据时,采用基于ARIMA算法预测的时间序列对缺失数据进行预测估算并回填数据,当所述桥梁传感器缺失数据部分为连续缺失数据时,采用线性回归预测对缺失数据进行预测估算并回填数据。所述ARIMA算法为AR本文档来自技高网...

【技术保护点】
1.基于ARIMA预测和回归预测的传感器采集数据缺失值处理方法,用于对采集数据中的缺失部分进行估算,并以估算值回填,其特征在于:所述处理方法包括以下步骤;/n步骤S1、对传感器采集数据的缺失部分进行时间填补及空值替代,把缺失部分转换为空值区;/n步骤S2、对空值区连续缺失值部分进行数据拆分,同时识读缺失值对应的传感器数量,对拆分后的数据以ARIMA算法或回归预测方法以对缺失值进行估算;/n步骤S3、对步骤S2中的估算值进行评估以判定其是否满足回填标准,以符合回填标准的估算值进行回填。/n

【技术特征摘要】
1.基于ARIMA预测和回归预测的传感器采集数据缺失值处理方法,用于对采集数据中的缺失部分进行估算,并以估算值回填,其特征在于:所述处理方法包括以下步骤;
步骤S1、对传感器采集数据的缺失部分进行时间填补及空值替代,把缺失部分转换为空值区;
步骤S2、对空值区连续缺失值部分进行数据拆分,同时识读缺失值对应的传感器数量,对拆分后的数据以ARIMA算法或回归预测方法以对缺失值进行估算;
步骤S3、对步骤S2中的估算值进行评估以判定其是否满足回填标准,以符合回填标准的估算值进行回填。


2.根据权利要求1所述的基于ARIMA预测和回归预测的传感器采集数据缺失值处理方法,其特征在于:在步骤S1中包括以下步骤;
步骤A11、导入传感器采样的原始数据集,将传感器原始数据集按时间属性进行排序形成时间序列原始数据集;所述时间序列原始数据集至少包含以下属性:时间、传感器类型、传感器编号、规定时间间隔内传感器数据平均值;
步骤A12、对时间序列原始数据集内符合预设时间间隔阈值范围内的时间缺失进行填补,将其所对应的缺失数据使用空值来进行替代,替代完成后根据时间属性进行重复值剔除,剔除重复的时间节点及其对应的数据,以保证时间节点对应的采样数据的唯一性;
步骤A13、对完成时间填补及空值替代的传感器采样数据集进行筛选,筛选出不在量程范围、精度误差范围内的数值并剔除,剔除完成后在对应位置使用空值进行替代。


3.根据权利要求2所述的基于ARIMA预测和回归预测的传感器采集数据缺失值处理方法,其特征在于:所述步骤S2包括以下步骤;
步骤B11、对采样数据集进行空值识别来识别其缺失值,并判断缺失值是否连续;方法为:
设第一个缺失值之前纳入识别模型的数据量为M,连续缺失数据的个数为m,设定一个判别标准G,G的取值根据数据特性设定,具体选取算法如下:
第一步:设S为当前使用场景的时间序列真实采样数据,且为步骤A13的缺失值处理后的数据集;从S中截取一段连续且无缺失值的数据M;在M数据集中随机m个时间节点对应数据进行空值替代,使用ARIMA算法和回归算法对这m个空值进行预测并使用预测结果填补空值;
第二步:设M数据集中使用空值替代的m个数据所对应的时间节点分别为t1,t2,…tm;该时间节点对应真实采样数据为F(t)={f(t1),f(t2),…,f(tm)};则使用ARIMA算法预测结果为D(t)={d(t1),d(t2),…,d(tm)},使用回归算法预测结果为K(t)={k(t1),k(t2),…,k(tm)}。
第三步:设第一个缺失值之前的数据量为H,连续缺失的数据个数为h,第一次取h=1时,使用ARIMA算法与回归算法预测,得到预测的估算值d(th)与k(th),计算ARIMA算法预测残差平方和回归预测残差平方和当SSEs≤SSEx,则h=h+1,重复进行两种方法对缺失值进行估算,重复以上步骤直到SSEs>SSEx,定义当前的
第四步:以公式进行校验;
为消除一次训练带来的偶然性,重复第二步,取一段新的连续不缺失数据,或者在第二步数据中在不同位置挖空,再重复第三步,得到G2;如此循环往复,得到了G1,G2,…,Gn,将它们的平均值定义为G,即
当时,判定该段缺失数据为非连续缺失;<...

【专利技术属性】
技术研发人员:徐飞杨鑫刘议丹黄正鹏黄祖海陈友武马森标李睿安王知军
申请(专利权)人:福建中锐网络股份有限公司
类型:发明
国别省市:福建;35

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1