基于孤立森林算法的铝型材挤压过程流数据异常检测方法、设备及存储介质技术

技术编号:26343509 阅读:54 留言:0更新日期:2020-11-13 20:46
本发明专利技术涉及流数据异常检测技术领域,更具体地,涉及基于孤立森林算法的铝型材挤压过程流数据异常检测方法、设备及存储介质,包括以下步骤:S10:读取挤压机挤压过程原始流数据,并通过原始流数据对多特征半空间孤立森林模型进行初始化;S20:进入检测周期,使用多特征半空间孤立森林模型对当前周期流数据进行异常检测;S30:判断检测周期是否结束,若未结束,则返回步骤S20,更新检测周期,若结束,则进入下一步;S40:判断当前周期异常率是否大于阀值,若是则表示存在概念漂移,使用当前周期数据对模型进行更新,若否则返回步骤S20,进入下一周期检测直至全部周期检测完毕为止。能够对模型进行实时更新,解决了流数据中存在噪声和概念漂移导致异常检测结果不精确的问题。

Outlier detection method, equipment and storage medium of aluminum extrusion process flow data based on isolated forest algorithm

【技术实现步骤摘要】
基于孤立森林算法的铝型材挤压过程流数据异常检测方法、设备及存储介质
本专利技术涉及流数据异常检测
,更具体地,涉及基于孤立森林算法的铝型材挤压过程流数据异常检测方法、设备及存储介质。
技术介绍
我国是铝型材生产、出口和消费大国。2015年我国铝型材加工材产量达到26000kt/a,铝合金挤压材产量达到14000kt/a,居世界前列。进一步的数据统计显示,2017年中国挤压铝材产量继续攀升,达到了19500kt/a,占全球总产量的55%,拥有各种挤压力的现代化油压机约1850台,约占全球总台数的70%。铝材生产与消费规模在不断扩大,对铝型材生产过程的进一步分析,已经成为促进铝材生产进一步发展的迫切需求。传感器设备具有价格低廉以及非侵入性的特性,促使物联网技术正越来越多地被应用到工业大数据领域中。由于生产流程复杂,工业设备上的传感器数量众多且取样频率高,数据累积速度极快。产生的数据具有时间序列排布、数据维度高且存在大量无标签数据、机理模型复杂等特点,并且特殊工况的发生常常会带来较大的经济损失。挤压机是铝型材生产线上的核心设备,本文档来自技高网...

【技术保护点】
1.基于孤立森林算法的铝型材挤压过程流数据异常检测方法,其特征在于,包括以下步骤:/nS10:读取挤压机挤压过程原始流数据,并通过原始流数据对多特征半空间孤立森林模型进行初始化;/nS20:进入检测周期,使用多特征半空间孤立森林模型对当前周期流数据进行异常检测;/nS30:判断检测周期是否结束,若未结束,则返回步骤S20,更新检测周期,若结束,则进入下一步;/nS40:判断当前周期异常率是否大于阀值,若是则表示存在概念漂移,使用当前周期数据对模型进行更新,若否则返回步骤S20,进入下一周期检测直至全部周期检测完毕为止。/n

【技术特征摘要】
1.基于孤立森林算法的铝型材挤压过程流数据异常检测方法,其特征在于,包括以下步骤:
S10:读取挤压机挤压过程原始流数据,并通过原始流数据对多特征半空间孤立森林模型进行初始化;
S20:进入检测周期,使用多特征半空间孤立森林模型对当前周期流数据进行异常检测;
S30:判断检测周期是否结束,若未结束,则返回步骤S20,更新检测周期,若结束,则进入下一步;
S40:判断当前周期异常率是否大于阀值,若是则表示存在概念漂移,使用当前周期数据对模型进行更新,若否则返回步骤S20,进入下一周期检测直至全部周期检测完毕为止。


2.根据权利要求1所述的基于孤立森林算法的铝型材挤压过程流数据异常检测方法,其特征在于,所述的流数据为随时间变化不断增长的数据,所述的流数据包括:
多维流数据:记一组n维时间序列流数据X=<X1,X2,…,Xn>,则任一维度Xi=<…,Xi1,…,Xij,…>;其中,Xij表示第i维数据在j时刻的值,任意一对数(Xij,Xi(j+1))所在两个时刻之间严格递增,且Xi的长度随着新数据的流入不断增长;
多维流数据子序列:在一组n维时间序列流数据X=<X1,X2,…,Xn>中,记长度为m的n维流数据子序列X’=<X1’,X2’,…,Xn’>;其中,对于任一维度Xi’=<Xi1,…,Xim>,|Xi’|=m;
统计特征值:对于任一长度为m的子序列Xi’=<Xi1,…,Xim>,利用不同的描述统计量公式对子序列进行计算得到的值,称为统计特征值;其中,所述的描述统计量包括均值、方差、峰度以及偏度;对于一个长度为m的子序列Xi’,其统计特征值计算公式如式(1)~式(4)所示;
均值是数据中心位置的一种度量,反映总体数据的一般水平,其计算式为:



方差反映了数据的变异程度,可以衡量一组数据离散程度,其计算式为:



偏度是统计数据分布偏斜方向和程度的度量;偏度小于0,表示当前数据分布为左偏态;反之,表示当前数据分布为右偏态;偏度的绝对值越高,表示数据分布的偏离程度越高,其计算式为



峰度是描述总体序列中数据分布形态陡缓程度的统计量;峰度越大表示序列分布越陡峭,峰度越小表示序列数据分布越平坦,其计算式为



设备状态向量:设任一统计特征值的计算函数为f(X),其中X为序列数据;对于一组多维流数据子序列X’=<X1’,X2’,…,Xn’>,称多维流数据子序列的统计向量stat(X’)=<f(X1’),f(X2’),…,f(Xn’)>为设备在子序列所属时间段的设备状态向量。


3.根据权利要求2所述的基于孤立森林算法的铝型材挤压过程流数据异常检测方法,其特征在于,在步骤S20中,异常检测过程包括以下步骤:
S201:切割多维流数据子序列;
S202:对切割后的子序列数据进行统计特征值的提取;
S203:构建MHSIF异常检测模型;
S204:采用对MHSIF异常检测模型步骤S202中提取后数据进行异常检测;
S205:合并检测结果并记录周期异常数;
S206:输出检测结果。


4.根据权利要求3所述的基于孤立森林算法的铝型材挤压过程流数据异常检测方法,其特征在于,步骤S201的具体过程为:在子树的构造阶段,得到数据各维度的取值边界,随机选择某一维度,以该维度的中点作为划分点切割子空间。


...

【专利技术属性】
技术研发人员:杨海东印四华徐康康朱成就许志城胡罗克
申请(专利权)人:广东工业大学
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1