当前位置: 首页 > 专利查询>浙江大学专利>正文

一种批生产的时序数据特征提取方法技术

技术编号:27106154 阅读:32 留言:0更新日期:2021-01-25 18:55
本发明专利技术属于数据挖掘技术领域,尤其是涉及一种批生产的时序数据特征提取方法。一种批生产的时序数据特征提取方法,包括以下步骤:S1、数据获取,从数据源获取目标批次的过程数据X;S2、数据清洗,遍历各个变量并定位质量差的数据点,将定位到的质量差数据的变量剔除;S3、数据分割,根据目标对象的实际意义和分析需求并利用现有变量;S4、变量筛选,根据目标对象的实际意义和分析需求进行分析变量的筛选;S5、特征指标确定,根据目标对象的实际意义和分析需求确定描述单个变量特征的指标;S6、特征矩阵构建。本发明专利技术提供了一种压缩数据量、保留过程特征、可减少后续分析工作的运算压力的批生产的时序数据特征提取方法。的时序数据特征提取方法。的时序数据特征提取方法。

【技术实现步骤摘要】
一种批生产的时序数据特征提取方法


[0001]本专利技术属于数据挖掘
,尤其是涉及一种批生产的时序数据特征提取方法。

技术介绍

[0002]数据挖掘(Data Mining)是指从大量含有噪声的、不完全的、模糊的数据中提取事先未知的又有潜在价值的信息的过程。工业生产数据具有大量(volume)、高速(velocity)、多样性(variety)、真实性(veracity)、可见性(visibility)和价值(value)的特征。大量(volume)即数据的规模大,高速(velocity)即数据的产生和采集非常频繁,多样性(variety)即数据的异构多样,真实性(veracity)即避免数据收集和提炼过程中发生的数据质量污染所导致的“虚假”信息,可见性(visibility)即通过分析使以往不可见的信息可见,价值(value)即分析获得的信息应被转换成价值。工业数据的产生主体是人和机器,即由人工输入的数据和通过相应传感器、仪器仪表、智能终端从设备上采集的数据,其中来自机器的数据在体量上占主要地位。这些数据中含有生产过程的宝贵信息,通过对生产数据进行挖掘,能进一步揭示生产规律,为生产优化提供助力。
[0003]当前批生产方式广泛应用于制药、食品、化工等行业。批生产数据存在以下特点:生产过程数据为时序数据,能反映生产过程随时间的变化趋势;每个批次的时间长度通常不相等,故每批次的过程变量样本数不同;生产过程数据采集频率高,变量数多,导致单批次的数据量大。针对某对象进行研究时,往往需要分析多个批次的生产数据,变量多、批次间样本数不等、数据量大,都对分析工作的推进提出了挑战。

技术实现思路

[0004]本专利技术所要解决的技术问题是提供一种压缩数据量、保留过程特征、可减少后续分析工作的运算压力的批生产的时序数据特征提取方法。为此,本专利技术采用以下技术方案:
[0005]一种批生产的时序数据特征提取方法,包括以下步骤:
[0006]S1、数据获取,从数据源获取目标批次的过程数据X:
[0007][0008]其中,n为样本数,n≥1;m为变量数,m>7;
[0009]S2、数据清洗,遍历各个变量并定位质量差的数据点,将定位到的质量差数据的变量剔除;
[0010]S3、数据分割,根据目标对象的实际意义和分析需求并利用现有变量,将过程数据分割为k部分,k≥2,每部分的样本数为n
i
,i=1,2,

,k;
[0011]S4、变量筛选,根据目标对象的实际意义和分析需求进行分析变量的筛选,获得:
[0012][0013]其中,筛选后变量数为d,1≤d≤n,i=1,2,

k;
[0014]S5、特征指标确定,根据目标对象的实际意义和分析需求确定描述单个变量特征的指标,该指标数计为t,1≤t≤7;
[0015]S6、特征矩阵构建,基于数据矩阵A
i
计算各变量的指标,并整理为行向量R
i
,根据行向量R
i
构建目标批次的特征矩阵S
k
×
dt
,其中i=1,2,

k。
[0016]其中,步骤S6中的指标为统计指标(如均值、标准差等);此处的运算过程是对每个变量求取统计指标,再构成行向量。
[0017]在采用上述技术方案的基础上,本专利技术还可采用以下进一步的技术方案:
[0018]所述步骤S1中的过程数据X为时序数据,所述样本数为批次的时长。
[0019]所述步骤S2中的质量差数据为变量包含的信息过少、或变量包含错误信息、或变量包含无效信息中的一种或多种;
[0020]所述变量包含的信息过少,包括变量取值较长时间保持不变,如变量为设定值;
[0021]所述变量包含错误信息,包括数据采集系统故障时收集到的数据;
[0022]所述变量包含无效信息,包括变量存在缺失值,如取值显示为NAN、NA或0时。
[0023]所述步骤S3中所述过程数据的分割在矩阵X的行方向上进行。分割标准为时间,包括但不限于以固定的时间周期进行分割,如时间周期为10min;或以实际工序单元操作对应的时间为标准,如操作1对应生产的第0min至30min、操作2对应生产的第31min至90min等。
[0024]所述步骤S4中所述分析变量为含有充足信息的模拟量。
[0025]所述步骤S5中所述描述单个变量特征的指标包括均值、中位数、四分位点、标准差、相关系数、偏度和峰度,采用的指标需根据分析需求和数据特征在上述范围内选取。
[0026]所述步骤S6中所述矩阵A
i
可运算得到指标数为d
×
t,以获得每个分割的行向量R
i
。所选取的指标能体现过程特征,获得的特征矩阵即可代表整个批次,能够直接参与主成分分析、聚类分析和回归分类等,进一步获得分析结果。
[0027]其中,过程数据均为时序数据,样本数反映了批次的时长。均值、四分位数描述了数据的分布情况,标准差描述数据的分散程度,偏度衡量数据分布偏斜的方向和程度,峰度衡量实数随机变量概率分布的峰态。分割后的片段要求样本数不少于3,是为了避免出现上述指标无意义、无法运算的情况。
[0028]与现有技术相比,本专利技术具有以下有益效果:
[0029]本专利技术提出的方法可将拥有大量数据点的变量用若干个指标来表示,且尽可能保留了变量的信息。通过构造特征矩阵,有效压缩数据,并且避免了由于样本数不等而导致的需要进行对齐的问题,进一步能够减小后续运算压力。获得的特征矩阵能代表该批次的信息,可以直接参与主成分分析、聚类分析和回归分类等,提高了分析效率。
附图说明
[0030]图1为本专利技术一种批生产的时序数据特征提取方法的特征提取过程的步骤示意图。
[0031]图2为本专利技术一种批生产的时序数据特征提取方法的实施例中变量V1和V2的均值、标准差的散点图。
[0032]图3为本专利技术一种批生产的时序数据特征提取方法的实施例的得分图。
具体实施方式
[0033]为了进一步理解本专利技术,下面结合具体实施方式对本专利技术提供的一种批生产的时序数据特征提取方法进行具体描述,但本专利技术并不限于此,该领域技术人员在本专利技术核心指导思想下做出的非本质改进和调整,仍然属于本专利技术的保护范围。
[0034]实施例一,如图1所示,目标过程为流化床制粒过程,共10个批次,其中批次2为异常批次。
[0035]S1、数据获取:从数据库读取获取批次1的过程数据,变量数为320,样本数为1921。
[0036]S2、数据清洗:遍历各个变量,发现数据缺失或数据错误的点,以及包含大量重复值的变量。剔除上述对应变量,不进入下一步处理。至此变量数为120,获得数据矩阵X
1921
×
120

[0037]S3、数据本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种批生产的时序数据特征提取方法,其特征在于包括以下步骤:S1、数据获取,从数据源获取目标批次的过程数据X:其中,n为样本数,n≥1;m为变量数,m>7;S2、数据清洗,遍历各个变量并定位质量差的数据点,将定位到的质量差数据的变量剔除;S3、数据分割,根据目标对象的实际意义和分析需求并利用现有变量,将过程数据分割为k部分,k≥2,每部分的样本数为n
i
,i=1,2,...,k;S4、变量筛选,根据目标对象的实际意义和分析需求进行分析变量的筛选,获得:其中,筛选后变量数为d,1≤d≤n,i=1,2,...k;S5、特征指标确定,根据目标对象的实际意义和分析需求确定描述单个变量特征的指标,该指标数计为t,1≤t≤7;S6、特征矩阵构建,基于数据矩阵A
i
计算各变量的指标,并整理为行向量R
i
,根据行向量R
i
构建目标批次的特征矩阵S
k
×
dt
,其中i=1,2,...k。2.根据权利要求1所述的一种批生产的时序数据特征提取方法,其特征在于所述步骤S1中的...

【专利技术属性】
技术研发人员:瞿海斌谢欣媛张胜
申请(专利权)人:浙江大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1