相关双数据流异常检测与修正的方法技术

技术编号:18575842 阅读:23 留言:0更新日期:2018-08-01 10:51
本发明专利技术公开了相关双数据流异常检测与修正的方法,属于工业过程建模和数据处理领域。本发明专利技术利用聚类分析与窗口匹配,实现了单输入数据流的异常点检测与修正。引入高斯过程回归(GPR)模型,建立输入‑输出数据流的预测模型,通过实时观察数据流与预测模型的输出进行窗口比较,进一步解决了输出数据流中的异常数据检测与修正。该方法不仅考虑了数据流的一般特征,还利用数据流间的相关性,解决了实际中不确定输入输出多数据流异常点难以正确检测和修正的问题。

A method for abnormal detection and correction of two data flow

The invention discloses a related double data flow anomaly detection and correction method, which belongs to the field of industrial process modeling and data processing. The invention realizes the detection and correction of outliers in single input data streams by clustering analysis and window matching. The Gauss process regression (GPR) model is introduced to establish the prediction model of the input data flow data flow. By comparing the output of the real-time observation data flow with the forecast model, the abnormal data detection and correction in the output data flow are further solved. This method not only takes into account the general characteristics of the data flow, but also uses the correlation between data streams to solve the problem that the indeterminate input-output multi data flow anomaly points are difficult to correct and correct.

【技术实现步骤摘要】
相关双数据流异常检测与修正的方法
本专利技术涉及相关双数据流异常检测与修正的方法,属于工业过程建模和数据处理领域。
技术介绍
离散的生产数据经过持续的采集,宏观上构成了数据流。这些实时采集的数据流,受测量精度、测量误差、噪声、周围环境干扰等诸多不确定性因素的影响,使得实际系统获得的数据流除了具有实时、连续、有序、快速到达等固有特点,还具有不确定性。例如在白酒酿造的生产监测过程中,需要测量蒸汽压力和蒸汽流量两类数据流,和一般测量过程类似,测量得到的数据流必然包含许多不确定性,形成了不确定数据流。但另一方面,蒸汽压力与蒸汽流量这两种不确定数据流,彼此之间又存在相关性。一般,单数据流只需要克服单一数据流的不确定性问题,就可以进行数据流中异常点的检测;然而,相关的不确定多数据流,由于数据流之间存在相关性(如上述的蒸汽压力和蒸汽流量),因此在对其的异常数据检测中,需要考虑数据流之间的相关性,增加了对数据流不确定性的辨识与校正的难度。(在不引起混淆的情况下,不确定数据流在本申请中简称为数据流。)目前,对于单一数据流异常检测的方法,第一类是基于数据的统计分析特性:在方法实现上相对简单,易于执行,但由于以窗口统计特性代替数据本身,数据个体间的变化被封装在统计特征模式中加以表示,不能体现数据的个体变化,难以检测窗口内数据流的异常点。第二类是基于数据流分布特性的异常检测方法:根据数据分布特点建立分布模型,当实时到达的数据不符合分布模型时,则认为是异常数据,虽然这种方法检测准确率高,但实际应用中,很难确定数据流的分布形式,因此适用性不强。第三类是基于预测模型的数据流异常检测方法:通过建立预测模型,实现以在线模式、自适应的检测数据流异常点。上述常见的几类方法,可以实现对单数据流的异常检测,但均没有考虑数据流彼此之间的相关性,对数据不确定性的影响情况,而这一影响因素会拉低数据流在进行不确定性检测时的准确程度。
技术实现思路
鉴于以上分析,本专利技术针对具有输入与输出相关性的不确定多数据流检测问题,给出了一种具有输入与输出相关性的双数据流的异常检测与修正方法,尤其是用于白酒酿造过程中与蒸汽相关的双数据流的异常检测与修正的方法。本专利技术给出的方法,考虑了:数据流之间的相关性对数据流不确定性的影响,这将有助于提高数据流在进行不确定性检测时的准确程度。本专利技术提供了一种具有输入与输出相关性的双数据流异常检测与修正的方法,可以有效检测出两类数据流中存在的不确定数据,并进行修正,修正后的数据有助于精准控制生产过程。比如,本专利技术方法用于白酒酿造中蒸汽相关双数据流异常检测与修正中,有助于精准控制蒸馏过程,提高酒品的质量与产量。本专利技术方法能够检测出白酒酿造中具有相关特性的蒸汽双数据流中存在的异常数据,并给出该异常数据的修正方法,本专利技术方法包含对数据流的离线处理过程和在线处理过程,在对数据在线处理过程可以完成对异常数据的修正。本方法以时间序列建立索引号,聚类分析历史数据,生成索引号与两种相关数据流的簇中心集合的映射关系。一方面通过窗口匹配模式,实现对在线观测到的输入数据流进行异常检测与修正;另一方面,将修正后的输入数据流经高斯过程回归预测模型输出,与包含在线观测到的输出数据流在内的聚类输出数据流的簇集合进行窗口比较,辨识并修正输出数据流中的异常数据。从而,完成对相关双数据流的异常检测与修正。本专利技术的具有输入与输出相关性的双数据流异常检测与修正的方法,包含对数据流的离线处理和在线处理2个过程:其中,具有输入与输出相关性的双数据流是指:作为输入数据流的数据和作为输出数据流的数据,且输入数据流是输出数据流的函数。离线处理过程中,双数据流基于相同时间序列I={i|1,2,···,n};其中,为便于表述,一轮生产过程被划分为n个时间序列,每个序号也称为时间索引号i,最末端的索引号为n。生产过程中,会对输入数据流和输出数据流进行多轮次的采集与记录,其中输入数据流为X,输出数据流为Y;第j轮采集的数据流标记为Xj=X{xj1,xj2···,xjn}(其中,xjn}是指在第j轮的第n个时间索引处采集到的输入数据流)和Yj={yj1,yj2···,yjn}(,其中,yjn是指第j轮在第n个时间索引处,采集到的输出数据流);若共计输入数据和输出数据被采集了m轮,则每轮在第i个索引号处的采样数据以数据簇CXi=[x1i···xmi]T,CYi=[y1i···ymi]T表示(其中,上标T代表转置)。在线处理过程中,某一轮基于序列I采集的输入数据流为X*={x1*,x2*,x3*,...,xn*}(此处的下标1、2、3、n的含义是时间序列I中的顺序索引号),采集的输出数据流为Y*={y1*,y2*,y3*,...,yn*}(此处的下标1、2、3、n的含义是时间序列I中的顺序索引号),X*和Y*中均包含了不确定的异常数据,X*和Y*为将被检测和修正的目标数据流。1.离线处理过程可描述如下:若共计输入数据和输出数据被采集了m轮,对I的每个索引号i的数据簇CXi,CYi,分别计算其簇中心和形成离线簇中心集合和分别建立时间索引I与CCSx,CCSy的映射关系曲线CCIC:CCSx→fx(I)和CCSy→fy(I),fx表示I与CCSx之间的映射关系,fy表示I与CCSy之间的映射关系。2.对每一次采集到的索引号为k的新数据,向前提取宽度为w的数据窗口,对其进行异常数据检测和修正的在线处理过程,具体步骤可描述为如下:步骤1:标记已提取的数据窗口分别为Xk*={xk-w+1*,xk-w*,···,xk*}和Yk*={yk-w+1*,yk-w*,···,yk*},并在簇中心集合中,对应提取和其中n≥k≥w-1,w≥1,若遇到当前数据的索引号为本轮较为靠前的数据,即1≤k<w-1,w≥1时,则从前一轮采集的数据中顺次选取最新的数据,保持窗口数据宽度为w。步骤2:对数据窗口Xk*进行异常数据检测和修正,得到修正后无异常数据窗口Xk*,具体的方法操作可以描述如下:步骤2-1:对照相同序列号位置,计算数据窗口Xk*与CCSxk的单数据差值下标i代表索引号,且k-w+1≤i≤k。步骤2-2:若存在|Δux|≥Δxth,其中u代表满足条件|Δux|≥Δxth的所有索引号,且k-w+1≤u≤k,则以CCSxk中替代数据窗口Xk*中的数据xu*,更新计算Δix。其中,k-w+1≤i≤k,Δxth为根据生产工艺所标定的输入数据误差容限值,即误差小于此容限值的单个输入数据测量值,为满足工艺要求的测量值。步骤2-3:计算窗口差值步骤2-4:若Mx超过标定误差Mxth,则找出与CCSxk之间具有最大单数据差值的xv*,确定索引号v,以CCSxk中数替代数据窗口Xk*中xv*,更新计算Δix,其中k-w+1≤i≤k,返回步骤2-3;否则,则向用户返回修正后的数据窗口Xk*。其中,k-w+1≤i≤k,k-w+1≤v≤k,Mxth为根据生产工艺所标定的输入数据误差和的容限值,即误差和小于此容限值的多个输入数据测量值,为满足工艺要求的多个测量值。步骤3:基于公式(1)和(2),形成在线簇中心集合CCSxk*,CCSyk*步骤4:计算CCSxk*和CCSxk的协方差向量c和CCSxk的协方差矩阵C,基于公式(3)的GPR本文档来自技高网
...

【技术保护点】
1.一种相关双数据流异常检测与修正的方法,其特征在于,所述方法以时间序列建立索引号,聚类分析历史数据,生成索引号与两种相关数据流的簇中心集合的映射关系;一方面通过窗口匹配模式,实现对在线观测到的输入数据流进行异常检测与修正;另一方面,将修正后的输入数据流经高斯过程回归预测模型输出,与包含在线观测到的输出数据流在内的聚类输出数据流的簇集合进行窗口比较,辨识并修正输出数据流中的异常数据;从而完成对相关双数据流的异常检测与修正;所述方法包含对数据流的离线处理过程和在线处理过程,在在线处理过程可以完成对异常数据的修正。

【技术特征摘要】
1.一种相关双数据流异常检测与修正的方法,其特征在于,所述方法以时间序列建立索引号,聚类分析历史数据,生成索引号与两种相关数据流的簇中心集合的映射关系;一方面通过窗口匹配模式,实现对在线观测到的输入数据流进行异常检测与修正;另一方面,将修正后的输入数据流经高斯过程回归预测模型输出,与包含在线观测到的输出数据流在内的聚类输出数据流的簇集合进行窗口比较,辨识并修正输出数据流中的异常数据;从而完成对相关双数据流的异常检测与修正;所述方法包含对数据流的离线处理过程和在线处理过程,在在线处理过程可以完成对异常数据的修正。2.根据权利要求1所述的方法,其特征在于,所述相关双数据流是指:作为输入数据流的数据和作为输出数据流的数据,且输入数据流是输出数据流的函数;离线处理过程中,双数据流基于相同时间序列I={i|1,2,…,n};其中,为便于表述,一轮生产过程被划分为n个时间序列,每个序号也称为时间索引号i,最末端的索引号为n;生产过程中,会对输入数据流和输出数据流进行多轮次的采集与记录,其中输入数据流为X,输出数据流为Y;第j轮采集的数据流标记为Xj={xj1,xj2…,xjn}和Yj={yj1,yj2…,yjn};若共计输入数据和输出数据被采集了m轮,则每轮在第i个索引号处的采样数据以数据簇CXi=[x1i…xmi]T,CYi=[y1i…ymi]T表示;在线处理过程中,某一轮基于序列I采集的输入数据流为X*={x1*,x2*,x3*,...,xn*},采集的输出数据流为Y*={y1*,y2*,y3*,...,yn*},X*和Y*中均包含了不确定的异常数据,X*和Y*为将被检测和修正的目标数据流。3.根据权利要求1所述的方法,其特征在于,其中离线处理过程描述如下:若共计输入数据和输出数据被采集了m轮,对I的每个索引号i的数据簇CXi,CYi,分别计算其簇中心和形成离线簇中心集合和分别建立时间索引I与CCSx,CCSy的映射关系曲线CCIC:CCSx→fx(I)和CCSy→fy(I),fx表示I与CCSx之间的映射关系,fy表示I与CCSy之间的映射关系。4.根据权利要求1所述的方法,其特征在于,所述方法包括对每一次采集到的索引号为k的新数据,向前提取宽度为w的数据窗口,对其进行异常数据检测和修正的在线处理过程,具体步骤如下:步骤1:标记已提取的数据窗口分别为Xk*={xk-w+1*,xk-w*,···,xk*}和Yk*={yk-w+1*,yk-w*,···,yk*},并在簇中心集合中,对应提取和其中n≥k≥w-1,w≥1,若遇到当前数据的索引号为本轮较为靠前的数据,即1≤k<w-1,w≥1时,则从前一轮采集的数据中顺次选取最新的数据,保持窗口数据宽度为w;步骤2:对数据窗口Xk*进行异常数据检测和修正,得到修正后无异常数据窗口Xk*;步骤3:基于公式(1)和(2),形成在线簇中心集合CCSxk*,...

【专利技术属性】
技术研发人员:吴宏杰张聪章晓明秦宁宁朱树才
申请(专利权)人:无锡市计量测试院
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1