数据质量问题的动态发现和校正制造技术

技术编号:35811349 阅读:18 留言:0更新日期:2022-12-03 13:32
本发明专利技术公开提供了一种提高数据质量以节省计算资源的计算设备、方法和系统。计算设备接收原始数据集。接收对应于所接收的原始数据集的一个或多个数据质量度量目标。确定数据集的模式。基于数据集的模式识别验证节点的初始集合。执行验证节点的初始集合。基于数据集的模式迭代地扩展并执行验证节点的下一集合,直到达到终止准则。基于验证节点的初始集合和验证节点的下一集合的迭代执行来提供原始数据集的经修正的数据集。集的经修正的数据集。集的经修正的数据集。

【技术实现步骤摘要】
【国外来华专利技术】数据质量问题的动态发现和校正


[0001]本专利技术一般涉及计算机系统,尤其涉及自动动态数据质量评估及其校正。

技术介绍

[0002]从通过水和蒸汽动力的机械化引领的第一次工业革命到通过电力使批量生产和装配线成为可能的第二次工业革命,目前的第四次工业革命转变了第三次工业革命中开始的内容,第三次工业革命引入了计算机和自动化,并且第四次工业革命利用由大数据和机器学习驱动的智能和自主系统增强了第三次工业革命。随着可用数据量的增加,大量信息的质量是使用该数据进行机器学习的计算机的重要考虑因素。
[0003]近年来,由于工业4.0的日益采用,许多工业制造过程由许多传感器实时地密切监视。计算设备正在使用的数据的质量在其效率、计算准确度和所使用的计算资源的量方面具有显著影响。这种特别配置的计算设备可以用于例如构建基于数据驱动人工智能(AI)的解决方案以预测工业4.0中的机器故障、异常检测、生存分析等。然而,在处理大量真实物联网(IoT)传感器数据时,当前架构面临各种挑战。例如,数据可能非常大(例如,大数据)并且涉及计算设备的大量计算资源,包括处理能力、存储器、网络带宽和时间。数据可以是嘈杂的,数据可以具有缺失值,数据采样可以是不规则的,等等。此外,由计算设备处理的数据可以是异质的和非结构化的,在此统称为异类的(例如,可以涉及时间序列、文本、图像、音频、不同的采样率等)。
[0004]通过至少一个估计,在AI开发阶段期间,该数据的预处理阶段花费开发AI模型的周期中的80%的时间。换句话说,分析数据所涉及的大多数时间涉及准备数据,使得其处于能够从中准备AI模型的适当形式。在数据预处理阶段使用自动化的一些挑战包括每个数据集和分析其特征所涉及的资源的潜在唯一性。现有方法目前不提供用于彻底的数据清除和预处理的工具。因此,计算设备使用的资源的效率、准确性和数量受到不利影响。
[0005]AI模型开发阶段可具有许多框架和定义的端到端解决方案,包括诸如sklearn、tensorflow、Tpot、H20等的机器学习平台。然而,目前没有已知的端到端框架和/或库可以有效地清除数据。
[0006]因此,本文提供了一种动态发现和校正数据质量问题的计算机化方法的方法和系统。在一个方面,本文的教导提供了数据预处理阶段中的自动化。在一个实施例中,迭代过程被监督,因为存在来自AI从业者的交互和协作,从而允许他们执行异构IoT数据的质量检查。通过使用可安装功能库来提供各种各样的检查。本文所讨论的数据质量评估和验证可以高度定制。在一个方面,本文描述的系统是模块化的,从而允许用于数据质量评估的灵活过程。例如,存在包括各种检查并且甚至以适合于正被处理的数据的方式将它们链接在一起的灵活性。

技术实现思路

[0007]根据各种实施例,提供了一种改进数据质量以节省计算资源的计算设备、非暂时
性计算机可读存储介质和计算机实现的方法和系统。接收原始数据集。接收对应于所接收的原始数据集的一个或多个数据质量度量目标。确定所述数据集的模式。基于所述数据集的模式来确定验证节点的初始集合。执行验证节点的初始集合。基于数据集的模式迭代地扩展和执行验证节点的下一集合,直到达到终止准则。基于验证节点的初始集合和验证节点的下一集合的迭代执行,提供所述原始数据集的经校正数据集。
[0008]在一个实施例中,每个验证节点包括数据质量检查动作和一个或多个补救动作。
[0009]在一个实施例中,所述验证节点的初始集合中的验证节点的执行包括:识别用于任何数据质量检查的所有可能的补救动作,利用每个可能的补救动作来变换所述数据,以及计算多个数据质量度量(DQM)以评估所述变换。
[0010]在一个实施例中,验证节点的执行包括第一阶段,所述第一阶段包括:由验证器对象执行对所述原始数据集的逻辑检查以检测所述原始数据集中的一个或多个异常;以及通过对应运算器对所述原始数据集执行不同的数据变换,以产生用于每个数据变换的新版本的数据,从而校正一个或多个检测到的异常。
[0011]在一个实施例中,所述验证节点包括第二阶段,所述第二阶段包括:对于所产生的每个新版本的数据,由内部质量评估器(IQE)模块生成数据质量度量(DQM),以及为原始数据集生成DQM。
[0012]在一个实施例中,所述第二阶段的每个DQM包括以下中的至少一个:(i)从所述原始数据集产生的对应的新版本的数据的多个维度中的特性的汇总;或(ii)从原始数据集产生的对应的新版本的数据的增益或改变信息。
[0013]在一个实施例中,所述验证节点的执行包括第三阶段,所述第三阶段包括:对于所产生的每个新版本的数据的每个DQM和原始数据集的DQM,执行与原始数据集的比较以评估相对于原始数据集的改进。
[0014]在一个实施例中,所述验证节点的执行包括第四阶段,所述第四阶段包括:选择所产生的新版本的数据的、最好地满足数据质量度量目标的运算器。
[0015]在一个实施例中,所选择的运算器在其对应的DQM与所述原始数据集的低于预定阈值的DQM之间具有最高间隙,以保持与原始数据的相似性。
[0016]在一个实施例中,扩展验证节点的下一集合包括以下至少一者:确定最佳实现一个或多个接收到的质量度量目标的验证节点;或基于挖掘执行信息储存库以找到通常一起出现的所有验证节点来确定验证节点。
[0017]根据一个实施例,一种系统包括模式参考模块,被配置为接收原始数据集并确定所述原始数据集的模式。数据合成器模块耦合到所述模式推断模块,并且被配置为从知识库接收与所接收的原始数据集对应的一个或多个数据质量度量目标。所述数据合成器模块包括初始化器模块,被配置为基于所述数据集的模式来识别验证节点的初始集合。所述数据合成器模块还包括执行器模块,其耦合到初始化器模块,并且被配置为执行验证节点的初始集合。所述数据合成器模块还包括扩展器模块,其耦合到执行器模块,并被配置成基于数据集的模式迭代地扩展和执行验证节点的下一集合,直到达到终止准则。所述数据合成器模块包括终止器模块,其耦合到所述扩展器模块,并且被配置成迭代地确定要由所述扩展器模块考虑的所述验证节点的下一集合,并且决定何时终止迭代确定。还有信息储存库,其耦合到所述执行器模块和所述终止器模块,并被配置成基于所述验证节点的初始集合和
下一集合的迭代执行来提供所述原始数据集的经校正数据集。
[0018]在一个实施例中,每个验证节点包括数据质量检查动作和一个或多个补救动作。
[0019]在一个实施例中,所述验证节点的初始集合被配置为:识别用于任何数据质量检查的所有可能的补救动作,利用每个可能的补救动作来变换所述数据,以及计算多个数据质量度量以评估所述变换。
[0020]在一个实施例中,每个验证节点包括第一阶段,其被配置成:由验证器对象执行对所述原始数据集的逻辑检查以检测所述原始数据集中的一个或多个异常,以及通过对应运算器对所述原始数据集执行不同的数据变换,以产生用于每个数据变换的新版本的数据,从而校正一个或多个检测到的异常。...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种计算设备,包括:处理器;耦合到所述处理器的存储设备;存储在所述存储设备中的引擎,其中,所述处理器对所述引擎的执行将所述计算设备配置为执行包括以下各项的动作:接收原始数据集;接收对应于所接收的原始数据集的一个或多个数据质量度量目标;确定所述数据集的模式;基于所述数据集的模式来识别验证节点的初始集合;执行验证节点的初始集合;基于数据集的模式迭代地扩展和执行验证节点的下一集合,直到达到终止准则;以及基于验证节点的初始集合和验证节点的下一集合的迭代执行,提供所述原始数据集的经校正数据集。2.如权利要求1所述的设备,其中,每个验证节点包括数据质量检查动作和一个或多个补救动作。3.如权利要求1所述的设备,其中,所述验证节点的初始集合中的验证节点的执行包括:识别用于任何数据质量检查的所有可能的补救动作;利用每个可能的补救动作来变换所述数据;以及计算多个数据质量度量(DQM)以评估所述变换。4.如权利要求1所述的设备,其中,验证节点的执行包括第一阶段,所述第一阶段包括:由验证器对象执行对所述原始数据集的逻辑检查以检测所述原始数据集中的一个或多个异常;以及通过对应运算器对所述原始数据集执行不同的数据变换,以产生用于每个数据变换的新版本的数据,从而校正一个或多个检测到的异常。5.如权利要求4所述的设备,其中,所述验证节点的执行包括第二阶段,所述第二阶段包括:对于所产生的每个新版本的数据,由内部质量评估器(IQE)模块生成数据质量度量(DQM);以及为原始数据集生成DQM。6.如权利要求5所述的设备,其中,所述第二阶段的每个DQM包括以下中的至少一个:(i)从所述原始数据集产生的对应的新版本的数据的多个维度中的特性的汇总;或(ii)从原始数据集产生的对应的新版本的数据的增益或改变信息。7.如权利要求5所述的设备,其中,所述验证节点的执行包括第三阶段,所述第三阶段包括:对于所产生的每个新版本的数据的每个DQM和原始数据集的DQM,执行与原始数据集的比较以评估相对于原始数据集的改进。8.如权利要求7所述的设备,其中,所述验证节点的执行包括第四阶段,所述第四阶段包括:
选择所产生的新版本的数据的、最好地满足数据质量度量目标的运算器。9.如权利要求8所述的设备,其中,所选择的运算器在其对应的DQM与所述原始数据集的DQM之间具有低于预定阈值的最高间隙。10.如权利要求1所述的设备,其中,扩展验证节点的下一集合包括以下至少一者:确定最佳实现一个或多个接收到的质量度量目标的验证节点;或基于挖掘执行信息储存库以找到通常一起出现的所有验证节点来确定验证节点。11.一种有形地体现具有计算机可读指令的计算机可读程序代码的计算机可读存储介质,所述计算机可读指令在被执行时使计算机设备执行一种改进数据质量以节省计算资源的方法,所述方法包括接收原始数据集;接收对应于所接收的原始数据集的一个或多个数据质量度量目标;确定所述数据集的模式;基于所述数据集的模式来识别验证节点的初始集合;执行验证节点的初始集合;基于数据集的模式迭代地扩展和执行验证节点的下一集合,直到达到终止准则;以及基于验证节点的初始集合和验证节点的下一集合的迭代执行,提供所述原始数据集的经校正数据集。12.如权利要求11所述的计算机可读存储介质,其中,每个验证节点包括数据质量检查动作和一个或多个补救动作。13.如权利要求11所述的计算机可读存储介质,其中,所述验证节点的初始集合中的验证节点的执行包括:识别用于每个数据质量检查的所有可能的补救动作;利用每个可能的补救动作来变换所述数据;以及计算多个数据质量度量(DQM)以评估所述变换。14.如权利要求11所述的计算机可读存储介质,其中,验证节点的执行包括:第一阶段,所述第一阶段包括:由验证器对象执行对所述原始数据集的逻辑检查以检测所述原始数据集中的一个或多个异常;以及通过对应运算器对所述原始数据集执行不同的数据变换,以产生用于每个数据变换的新版本的数据,从而校正一个或多个检测到的异常;第二阶段,所述第二阶段包括:对于所产生的每个新版本的数据,由内部质量评估器(IQE)模块生成数据质量度量(DQM);以及为原始数据集生成DQM;第三阶段,所述第三阶段包括:对于所产生的每个新版本的数据的每个DQM,执行与原始数据集的比较以评估相对于原始数据集的改进;以及第四阶段,所述第四阶段包括:选择所产生的新版本的数据的、最好地满足数据...

【专利技术属性】
技术研发人员:S
申请(专利权)人:国际商业机器公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1