【技术实现步骤摘要】
基于过滤规则多级组合优化的工业数据流清洗模型和方法
[0001]本专利技术涉及一种数据流清洗模型、方法、存储介质和电子设备,能够实现对脏数据流的自学习、自匹配式的检测和修复,从而提高数据的准确性和可信性。
技术介绍
[0002]先进传感技术、物联技术、人工智能技术在驱动工业领域向“多维度、透明化、泛在感知”全新模式转变的同时,对智能决策所输入数据的质量与效率提出了更高的需求。但随机外部扰动等问题常导致所采集的数据存在缺失、噪声、重复等质量问题,大量研究表明数据质量异常将严重影响决策与分析的可靠性及正确性。因此数据清洗已成为数据仓库领域、数据挖掘领域以及数据质量管理领域一项关键研究内容。
[0003]近年来,在数据清洗方面的研究主要有:
[0004]江苏满运软件科技有限公司公开的专利技术专利《数据清洗方法、系统、存储介质及电子设备》(201811627786.4),通过选择数据源的目标源表,确定数据来源并进行数据清洗,降低数据同步的出错率。
[0005]武汉理工光科股份有限公司公开的专利技术专利《一种多 ...
【技术保护点】
【技术特征摘要】
1.基于过滤规则多级组合优化的数据流清洗模型,其特征在于:所述数据流清洗模型是按照下述方法建立的:步骤1:数据流初步检测;对输入的初始数据流进行初步检测,包括数据超出阈值、重复、缺失、不一致检测,并使用NA替换检测出的异常数据;步骤2:训练数据集构造;选取异常最少的一段原始数据D,并向原始数据D中加入不同程度的异常数据进行脏化处理,以模拟数据清洗方法应用阶段将遇到的各种数据异常问题,得到脏数据集即为训练数据集;步骤3:数据特征提取;从集中趋势、离散程度、分布形态和其他特征四方面,对输入的训练数据进行数据特征提取;所述其他特征包括数据相关性、数据自相关性、数据量和缺失比例;步骤4:数据过滤规则库建立;根据所采集数据可能出现的各种质量问题及智能决策对输入数据的质量需求,选取多种异常检测算法和异常修复算法进行自由组合、逐一匹配集成,形成面向异常数据的异常检测算法
‑
异常修复算法的多种数据过滤规则,将其放入数据过滤规则库中;步骤5:数据特征
‑
规则关联链构建;使用数据过滤规则库中的各条数据过滤规则,依次对步骤2得到的训练数据集R中的数据进行清洗,并将清洗后数据与原始数据D的相对误差作为评价指标,选取评价最高的数据过滤规则并将其写入数据特征
‑
规则关联链;步骤6:规则匹配模型构造;针对构建的数据特征
‑
规则关联链,进一步学习数据特征和规则之间的匹配关系,构建规则匹配模型,该规则匹配模型即为所述数据流清洗模型。2.根据权利要求1所述的数据流清洗模型,其特征在于,还包括步骤7:利用所述数据清洗模型对实际输入数据进行清洗后的数据进行质量评估,若评估结果超出所设阈值,则重复步骤6以更新所述数据流清洗模型。3.根据权利要求1或2所述的数据流清洗模型,其特征在于,所述步骤4中:异常检测算法包括3倍标准差法、箱型法和基于密度的空间聚类算法;异常修复算法包括就近填补法、基于平均值的填补法、基于相关性的填补法和加权移动平均法。4.根据权利要求3所述的数据流清洗模型,其特征在于,所述步骤5具体为:步骤5.1:构建数据特征
‑
规则关联链,将其表示为:RuCh=<Num,Fea,G>式中,Num为样本序号;Fea为步骤3提取的数据特征集合;G为类别标签,代表对应特征集合Fea的最合适数据过滤规则;步骤5.2:分别使用各数据过滤规则中的算法对所述训练数据集进行处理,获得清洗后数据矩阵R
k
,并计算R
k
与原始数据D的相对误差将其表示为:
式中,当1≤Num≤m时,num=Num,当m<Num≤mp,num=Num%m;m为采集所述初始数据流的传感器数目;步骤5.3:比较相对误差的大小,令G等于获...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。