一种基于时序数据的在线监控数据质量方法技术

技术编号:24940150 阅读:46 留言:0更新日期:2020-07-17 21:24
本发明专利技术公开了一种基于时序数据的在线监控数据质量方法,输入包括数据质量状态、数据质量不合格率、数据产生时间的时序数据,对时序数据进行数值化预处理;分别采用SESOP、SESOP‑MFI、STSSO和STSSO‑MFIR方法计算统计量,训练监控模型;通过计算得到统计量序列,利用对统计量序列的监控,并根据情况设定平均运行步长获得控制极限;监控质量风险,根据被监控数据的输入,实现输入一条数据及监控一条数据的实时监控。本发明专利技术能够更为快速稳定的对不同阶段的数据质量情况进行监控,并对发生的质量恶化做出预警。

【技术实现步骤摘要】
一种基于时序数据的在线监控数据质量方法
本专利技术属于数据预测
,具体涉及一种基于时序数据的在线监控数据质量方法。
技术介绍
在过去的几十年中,统计过程控制(英文名称:StatisticalProcessControl,英文缩写:SPC)方法被广泛应用于质量结果的监控。通过评估一系列质量案例,控制图(英文名称:ControlChart)可以检测质量的变化并对数据质量的恶化或改善发出警报,能够帮助确定问题的根源并提供有关解决问题的思路[1]。控制图方法用于测量、记录和评估过程质量特性,以监控过程是否处于受控(英文名称:incontrol,英文缩写:IC)状态,代表方法有指数加权移动平均(英文名称:ExponentiallyWeightedMovingAverage,英文缩写:EWMA),累积总和(英文名称:CumulativeSum,英文缩写:CUSUM),可变寿命调整显示(英文名称:VariableLife-AdjustedDisplay,英文缩写:VLAD)和休哈特(英文名称:Shewhart)。现有方法均旨在监控数据质量平均水平的变化,即质量监控模型的位置参数(英文名称:locationparameters)的变化,而无法监控质量的“波动性”,即质量监控模型的比例参数(英文名称:scaleparameters)的变化,后者对数据质量评估同样至关重要。另一方面,现有方法的警报控制极限(英文名称:controllimit)为固定值,这意味着监控过程中的所有时刻都具有相同的权重,从而使它们在监控质量风险的波动性方面效果较差。因此,需要能够同时检测位置参数和比例参数变化的控制图来有效地监控数据质量,以提高数据的应用价值。
技术实现思路
本专利技术所要解决的技术问题在于针对上述现有技术中的不足,提供一种基于时序数据的在线监控数据质量方法,解决现有大多数方法无法对质量的“波动性”(即质量监控模型的比例参数)进行有效监控的问题;以及解决现有方法的警报控制极限(英文名称:controllimit)是固定值从而对早期波动不敏感的问题。本专利技术采用以下技术方案:一种基于时序数据的在线监控数据质量方法,包括以下步骤:S1、输入包括数据质量状态、数据质量不合格率、数据产生时间的时序数据,对时序数据进行数值化预处理;S2、分别采用SESOP、SESOP-MFI、STSSO和STSSO-MFIR方法计算统计量Zn,训练监控模型;S3、通过步骤S2计算得到统计量Zn序列,利用对统计量Zn序列的监控,并根据情况设定平均运行步长获得控制极限;S4、监控质量风险,根据被监控数据的输入,实现输入一条数据及监控一条数据的实时监控。具体的,步骤S2中,采用SESOP和SESOP-MFIR计算统计量Zn具体为:S20101、利用训练数据,计算Z1并储存;S20102、利用训练数据,计算统计量Zn并储存,通过建立风险调控模型得出数据质量不合格率pn。进一步的,步骤S20101中,Z1计算如下:Z1=λY1其中,λ为平滑参数,Y1为初始标准化后score统计量;y1为数据质量状态,当质量不合格时,y1=1,否则,y1=0;p1为数据质量不合格率。进一步的,步骤S20102中,统计量Zn计算如下:Zn=(1-λ)Zn-1+λYn其中,n为当前时间点,λ为平滑参数,Yn为截止到第n个时序数据时得到的标准化后score统计量。具体的,步骤S2中,采用STSSO和STSSO-MFIR计算统计量Zn具体为:S20201、利用训练数据,计算Z1并储存;S20202、利用训练数据,计算统计量Zn并储存,通过建立风险调控模型得出数据质量不合格率pn。进一步的,步骤S20201中,Z1计算如下:Z1=λT1其中,T1为初始单边score型统计量,λ为平滑参数。进一步的,步骤S20202中,统计量Zn计算如下:Zn=(1-λ)Zn-1+λTn。具体的,步骤S3中,获得SESOP和STSSO的控制极限具体为:S30101、根据数据规模和具体情况设定一个合适的目标ARL;S30102、根据目标ARL,给控制极限CLfixed=h一个初始h值;S30103、结合蒙特卡洛方法原理,调整CLfixed的值直到输出的ARL等于目标ARL为止;至此,获得SESOP和STSSO的固定值控制极限。具体的,步骤S3中,获得SESOP-MFIR和STSSO-MFIR的控制极限具体为:S30201、根据数据规模和具体情况设定一个合适的目标ARL,并设置参数f和a;S30202、根据目标ARL,给控制极限一个初始h值;S30203、结合蒙特卡洛方法原理,调整CLt中的h值直到输出的ARL等于目标ARL为止;至此,获得SESOP-MFIR和STSSO-MFIR的随时间变化的控制极限。具体的,步骤S4中,对于被监控数据,根据步骤S2的流程计算统计量Zn并通过步骤S3得到的控制极限进行监控,若超过控制极限值则发出警报;引入快速初始应答MFIRadj,在SESOP和STSSO基础上将警报控制极限改进为随时间变化的控制极限CLt。与现有技术相比,本专利技术至少具有以下有益效果:本专利技术一种基于时序数据的在线监控数据质量方法,通过对现有质量结果的EWMA图方法的统计量Zn的计算进行改进并监控Zn,从而实现质量风险“波动性”的检测;利用检验统计量对统计量Zn的计算进行改进,采用质量结果的分数测试统计量图方法STSSO,将固定值的警报控制极限改进为随时间变化的控制极限。进一步的,SESOP及SESOP-MFIR通过加入标准化使得Zn的监控能力更为稳定。进一步的,STSSO及STSSO-MFIR通过加入标准化和单边下界使得Zn的在质量恶化方向上监控能力更为敏感。进一步的,通过设置SESOP和STSSO的控制极限,使用者能够对发生的质量恶化趋势进行预警。进一步的,通过设置带改进快速初始响应权重的控制极限,使用者能够更为快速对初始阶段发生的质量恶化进行预警。进一步的,通过实时数据输入流程能够对数据质量状况进行实时监控,并对可能发生的质量恶化提出预警。综上所述,本专利技术能够更为快速稳定的对不同阶段的数据质量情况进行监控,并对发生的质量恶化做出预警。下面通过附图和实施例,对本专利技术的技术方案做进一步的详细描述。附图说明图1为本专利技术流程图。具体实施方式本专利技术提供了一种基于时序数据的在线监控数据质量方法,基于指数加权移动平均(英文名称:ExponentiallyWeightedMovingAverage,英文缩写:EWMA)图的质量风险监控方法:标准化后SCORE监控方法(SESOP)、标准化后单边SCORE型监控方法(STSSO)、带改进初始快速响应权重的标准化后SCORE本文档来自技高网
...

【技术保护点】
1.一种基于时序数据的在线监控数据质量方法,其特征在于,包括以下步骤:/nS1、输入包括数据质量状态、数据质量不合格率、数据产生时间的时序数据,对时序数据进行数值化预处理;/nS2、分别采用SESOP、SESOP-MFI、STSSO和STSSO-MFIR方法计算统计量Z

【技术特征摘要】
1.一种基于时序数据的在线监控数据质量方法,其特征在于,包括以下步骤:
S1、输入包括数据质量状态、数据质量不合格率、数据产生时间的时序数据,对时序数据进行数值化预处理;
S2、分别采用SESOP、SESOP-MFI、STSSO和STSSO-MFIR方法计算统计量Zn,训练监控模型;
S3、通过步骤S2计算得到统计量Zn序列,利用对统计量Zn序列的监控,并根据情况设定平均运行步长获得控制极限;
S4、监控质量风险,根据被监控数据的输入,实现输入一条数据及监控一条数据的实时监控。


2.根据权利要求1所述的基于时序数据的在线监控数据质量方法,其特征在于,步骤S2中,采用SESOP和SESOP-MFIR计算统计量Zn具体为:
S20101、利用训练数据,计算Z1并储存;
S20102、利用训练数据,计算统计量Zn并储存,通过建立风险调控模型得出数据质量不合格率pn。


3.根据权利要求2所述的基于时序数据的在线监控数据质量方法,其特征在于,步骤S20101中,Z1计算如下:
Z1=λY1



其中,λ为平滑参数,Y1为初始标准化后score统计量;y1为数据质量状态,当质量不合格时,y1=1,否则,y1=0;p1为数据质量不合格率。


4.根据权利要求2所述的基于时序数据的在线监控数据质量方法,其特征在于,步骤S20102中,统计量Zn计算如下:
Zn=(1-λ)Zn-1+λYn
其中,n为当前时间点,λ为平滑参数,Yn为截止到第n个时序数据时得到的标准化后score统计量。


5.根据权利要求1所述的基于时序数据的在线监控数据质量方法,其特征在于,步骤S2中,采用STSSO和STSSO-MFIR计算统计量Zn具体为:
S20201、利用训练数据,计算Z1并储存;
S20202、利用训练数据,计算统计量Zn并储存,通过建...

【专利技术属性】
技术研发人员:赖欣刘佳琦王嘉寅张选平朱晓燕
申请(专利权)人:西安交通大学
类型:发明
国别省市:陕西;61

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1