【技术实现步骤摘要】
一种工业时序数据处理方法
[0001]本专利技术涉及工业时序数据
,尤其是一种工业时序数据处理方法。
技术介绍
[0002]众多工业互联网工程项目为工业企业产生了海量的工业数据,未来基于数据驱动的以工业AI为呈现形式的各种智能化场景越来越多,而工业AI模型的研发需要建立在高质量的工业数据集的基础之上,模型训练所用数据集的质量高低将大大影响模型的精度及效率,也会直接影响数智化场景的实践价值。
[0003]时序数据是工业数据中一种重要的数据形式,现实情况下工业时序数据的数据集质量往往存在问题,达不到模型训练的要求,主要表现在两点:数据缺失和数据维度不佳。传统方式遇到缺失值的情况,往往采用缺失值丢弃的方法继续训练模型,然而对于工业场景而言,数据丢弃的方法不可取,主要原因是工业场景本身就缺乏数据,对于工业行业来说大多存在历史生产数据积累薄弱的问题,概其缘由原因有二:其一是成本问题,数据采集天生具有周期长、波动小、成本大、精度低、频率低的问题,企业需要耗费较大数据采集成本;其二是历史问题,部分企业上马信息化及业务系统的时间较晚,只能拿出几百上千条的历史生产数据,故而对于本身数据缺乏的工业场景来说,丢弃数据对模型的训练可能会产生更大的不利影响。此外,传统方式使用质量不佳的数据集往往会严重影响模型的精度,影响研发结果,工业时序数据往往是对某连续变量的连续采样,采样的频率不一定能满足所有的模型需要,对于不同的神经网络模型,输入维度的不同,对最终的模型预测精度也不相同,如何在不重新测量采样的情况下,改变数据的维度是急需解
【技术保护点】
【技术特征摘要】
1.一种工业时序数据处理方法,其特征在于:该方法包括下列顺序的步骤:(1)获取原始工业时序数据集;(2)对获取的原始工业时序数据集中的工业时序数据进行预处理,得到预处理后的工业时序数据集;(3)对预处理后的工业时序数据集进行时域指标提取;(4)对提取的时域指标进行维度判断,如果维度较多,采用主成分分析PCA降维,如果维度较低,则采用缺失值填补法扩充数据维度,否则,得到工业时序数据集。2.根据权利要求1所述的工业时序数据处理方法,其特征在于:所述步骤(1)具体是指:在企业的工业互联网平台、企业的生产业务系统上获取原始工业时序数据集,所述原始工业时序数据集是指企业生产数据,包括工时数据、设备数据、原料数据、能耗数据和产品质量数据。3.根据权利要求1所述的工业时序数据处理方法,其特征在于:所述步骤(2)具体是指:采用缺失值填补法将一条时间窗口为M的时序数据空缺值填补,设设备A在采集日采集到的一条电力时序数据包括从0至M个时间戳,其中,第i个数值缺失,则选取相同类型的设备B、C、D在采集日相同时间段采集到的时序数据,然后计算设备A与设备B、C、D之间的距离,即计算d
AB
、d
AC
、d
AD
,比较d
AB
,d
AC
,d
AD
,选距离值最小的K个距离,然后对K个距离做归一化,得到:式中,d
AB
=max(A,B)=设备A与设备B在除缺失值外其他数值的差的绝对值的最大值;d
AC
=max(A,C)=设备A与设备C在除缺失值外其他数值的差的绝对值的最大值;d
AD
=max(A,D)=设备A与设备D在除缺失值外其他数值的差的绝对值的最大值;依次得到y
AC
、y
AD
,然后用1
‑
y
AB
,1
‑
y
AC
,1
‑
y
AC
,依次得到w
AB
、w
AC
、w
AD
,然后用w
AB
、w
AC
、w
AD
作为设备B、C、D在第n个时间戳的权重,加权求和得到Ai:Ai=w
AB
Bi+w
AC
Ci+w
AD
Diw
AB
=1
‑
y
AB
、w
AC
=1
‑
y
AC
、w
AD
=1
‑
y
AD
式中,Bi是设备B采集的时序数据第i个数值,Ci是设备C采集的时序数据第i个数值,Di是设备D采集的时序数据第i个数值,w
AB
是设备B在第i个时间戳的权重,w
AC...
【专利技术属性】
技术研发人员:李晓洁,谢贻富,许成林,刘胜军,范武松,张重庆,白旭,
申请(专利权)人:安徽祯欣互联科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。