一种工业时序数据处理方法技术

技术编号:38947130 阅读:16 留言:0更新日期:2023-09-25 09:43
本发明专利技术涉及一种工业时序数据处理方法,包括:获取原始工业时序数据集;对获取的原始工业时序数据集中的工业时序数据进行预处理;对预处理后的工业时序数据集进行时域指标提取;对提取的时域指标进行维度判断,如果维度较多,采用主成分分析PCA降维,如果维度较低,则采用缺失值填补法扩充数据维度,否则,得到工业时序数据集。本发明专利技术针对数据缺失问题,提出了数据补充方案,通过最近特征的数据来补充缺失值,这样,在数据条数本身较少的情况下,尽力做到不浪费每一条数据;当数据维度过高时,通过PCA降维,降低数据的维度,在模型十分复杂时,数据集维度较多,但彼此相关性较高的情况下,本发明专利技术可以起到降低参数量,防止过拟合的作用。作用。作用。

【技术实现步骤摘要】
一种工业时序数据处理方法


[0001]本专利技术涉及工业时序数据
,尤其是一种工业时序数据处理方法。

技术介绍

[0002]众多工业互联网工程项目为工业企业产生了海量的工业数据,未来基于数据驱动的以工业AI为呈现形式的各种智能化场景越来越多,而工业AI模型的研发需要建立在高质量的工业数据集的基础之上,模型训练所用数据集的质量高低将大大影响模型的精度及效率,也会直接影响数智化场景的实践价值。
[0003]时序数据是工业数据中一种重要的数据形式,现实情况下工业时序数据的数据集质量往往存在问题,达不到模型训练的要求,主要表现在两点:数据缺失和数据维度不佳。传统方式遇到缺失值的情况,往往采用缺失值丢弃的方法继续训练模型,然而对于工业场景而言,数据丢弃的方法不可取,主要原因是工业场景本身就缺乏数据,对于工业行业来说大多存在历史生产数据积累薄弱的问题,概其缘由原因有二:其一是成本问题,数据采集天生具有周期长、波动小、成本大、精度低、频率低的问题,企业需要耗费较大数据采集成本;其二是历史问题,部分企业上马信息化及业务系统的时间较晚,只能拿出几百上千条的历史生产数据,故而对于本身数据缺乏的工业场景来说,丢弃数据对模型的训练可能会产生更大的不利影响。此外,传统方式使用质量不佳的数据集往往会严重影响模型的精度,影响研发结果,工业时序数据往往是对某连续变量的连续采样,采样的频率不一定能满足所有的模型需要,对于不同的神经网络模型,输入维度的不同,对最终的模型预测精度也不相同,如何在不重新测量采样的情况下,改变数据的维度是急需解决的问题。

技术实现思路

[0004]为解决工业生产数据存在数据缺失和数据维度过少的缺陷,本专利技术的目的在于提供一种对缺失值进行填补,在不重新测量采样的情况下,改变数据的维度,从而优化数据集的工业时序数据处理方法。
[0005]为实现上述目的,本专利技术采用了以下技术方案:一种工业时序数据处理方法,该方法包括下列顺序的步骤:
[0006](1)获取原始工业时序数据集;
[0007](2)对获取的原始工业时序数据集中的工业时序数据进行预处理,得到预处理后的工业时序数据集;
[0008](3)对预处理后的工业时序数据集进行时域指标提取;
[0009](4)对提取的时域指标进行维度判断,如果维度较多,采用主成分分析PCA降维,如果维度较低,则采用缺失值填补法扩充数据维度,否则,得到工业时序数据集。
[0010]所述步骤(1)具体是指:在企业的工业互联网平台、企业的生产业务系统上获取原始工业时序数据集,所述原始工业时序数据集是指企业生产数据,包括工时数据、设备数据、原料数据、能耗数据和产品质量数据。
[0011]所述步骤(2)具体是指:采用缺失值填补法将一条时间窗口为M的时序数据空缺值填补,设设备A在采集日采集到的一条电力时序数据包括从0至M个时间戳,其中,第i个数值缺失,则选取相同类型的设备B、C、D在采集日相同时间段采集到的时序数据,然后计算设备A与设备B、C、D之间的距离,即计算d
AB
、d
AC
、d
AD
,比较d
AB
,d
AC
,d
AD
,选距离值最小的K个距离,然后对K个距离做归一化,得到:
[0012][0013]式中,d
AB
=max(A,B)=设备A与设备B在除缺失值外其他数值的差的绝对值的最大值;d
AC
=max(A,C)=设备A与设备C在除缺失值外其他数值的差的绝对值的最大值;d
AD
=max(A,D)=设备A与设备D在除缺失值外其他数值的差的绝对值的最大值;
[0014]依次得到y
AC
、y
AD
,然后用1

y
AB
,1

y
AC
,1

y
AC
,依次得到w
AB
、w
AC
、w
AD
,然后用w
AB
、w
AC
、w
AD
作为设备B、C、D在第n个时间戳的权重,加权求和得到Ai:
[0015]Ai=w
AB
Bi+w
AC
Ci+w
AD
Di
[0016]w
AB
=1

y
AB
、w
AC
=1

y
AC
、w
AD
=1

y
AD
[0017]式中,Bi是设备B采集的时序数据第i个数值,Ci是设备C采集的时序数据第i个数值,Di是设备D采集的时序数据第i个数值,w
AB
是设备B在第i个时间戳的权重,w
AC
是设备C在第i个时间戳的权重,w
AD
是设查D在第i个时间戳的权重,Ai是计算后补到缺失的值。
[0018]所述步骤(3)具体是指:所述时域指标包括均值绝对平均值方差δ1、标准差δ2、方根幅值x
t
、均方根值x
rms
、峰值x
P
、最大值x
max
、最小值x
min
、波形指标W、峰值指标C、脉冲指标I、裕度指标L、偏斜度s和峭度K,其计算公式如下:
[0019][0020][0021][0022][0023][0024][0025]x
P
=max|x(n)|
[0026]x
max
=max|x(n)|
[0027]x
min
=min|x(n)|
[0028][0029][0030][0031][0032][0033][0034]式中,N代表数据条数,x(n)代表第n条数据。
[0035]在步骤(4)中,所述主成分分析PCA具体是指:
[0036]首先,对变量进行规定:样本X=(x1,x2,...,x
p
),其中有p个样本,每一个样本有n个维度的属性,即X∈R
p
×
n
,存在一个降维矩阵A,满足A∈R
m
×
n
,得到Ax
i
为降维后的样本;令Y=AX
T
,得到Y∈R
m
×
p
,即其每一行为变化之后的特征,每一列表示一个样本的情况,对于其中的一个特征进行分析,得到需要优化的目标为:
[0037]由于且x
i
经过了标准化和归一化,因此为0,对于目标函数得到:
[0038][0039]其中,a1表示第一列特征,∑为协方差矩阵,加入对于向量的长度的约束a
i
x
...

【技术保护点】

【技术特征摘要】
1.一种工业时序数据处理方法,其特征在于:该方法包括下列顺序的步骤:(1)获取原始工业时序数据集;(2)对获取的原始工业时序数据集中的工业时序数据进行预处理,得到预处理后的工业时序数据集;(3)对预处理后的工业时序数据集进行时域指标提取;(4)对提取的时域指标进行维度判断,如果维度较多,采用主成分分析PCA降维,如果维度较低,则采用缺失值填补法扩充数据维度,否则,得到工业时序数据集。2.根据权利要求1所述的工业时序数据处理方法,其特征在于:所述步骤(1)具体是指:在企业的工业互联网平台、企业的生产业务系统上获取原始工业时序数据集,所述原始工业时序数据集是指企业生产数据,包括工时数据、设备数据、原料数据、能耗数据和产品质量数据。3.根据权利要求1所述的工业时序数据处理方法,其特征在于:所述步骤(2)具体是指:采用缺失值填补法将一条时间窗口为M的时序数据空缺值填补,设设备A在采集日采集到的一条电力时序数据包括从0至M个时间戳,其中,第i个数值缺失,则选取相同类型的设备B、C、D在采集日相同时间段采集到的时序数据,然后计算设备A与设备B、C、D之间的距离,即计算d
AB
、d
AC
、d
AD
,比较d
AB
,d
AC
,d
AD
,选距离值最小的K个距离,然后对K个距离做归一化,得到:式中,d
AB
=max(A,B)=设备A与设备B在除缺失值外其他数值的差的绝对值的最大值;d
AC
=max(A,C)=设备A与设备C在除缺失值外其他数值的差的绝对值的最大值;d
AD
=max(A,D)=设备A与设备D在除缺失值外其他数值的差的绝对值的最大值;依次得到y
AC
、y
AD
,然后用1

y
AB
,1

y
AC
,1

y
AC
,依次得到w
AB
、w
AC
、w
AD
,然后用w
AB
、w
AC
、w
AD
作为设备B、C、D在第n个时间戳的权重,加权求和得到Ai:Ai=w
AB
Bi+w
AC
Ci+w
AD
Diw
AB
=1

y
AB
、w
AC
=1

y
AC
、w
AD
=1

y
AD
式中,Bi是设备B采集的时序数据第i个数值,Ci是设备C采集的时序数据第i个数值,Di是设备D采集的时序数据第i个数值,w
AB
是设备B在第i个时间戳的权重,w
AC...

【专利技术属性】
技术研发人员:李晓洁谢贻富许成林刘胜军范武松张重庆白旭
申请(专利权)人:安徽祯欣互联科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1