【技术实现步骤摘要】
【国外来华专利技术】数据质量问题的动态发现和校正
[0001]本专利技术一般涉及计算机系统,尤其涉及自动动态数据质量评估及其校正。
技术介绍
[0002]从通过水和蒸汽动力的机械化引领的第一次工业革命到通过电力使批量生产和装配线成为可能的第二次工业革命,目前的第四次工业革命转变了第三次工业革命中开始的内容,第三次工业革命引入了计算机和自动化,并且第四次工业革命利用由大数据和机器学习驱动的智能和自主系统增强了第三次工业革命。随着可用数据量的增加,大量信息的质量是使用该数据进行机器学习的计算机的重要考虑因素。
[0003]近年来,由于工业4.0的日益采用,许多工业制造过程由许多传感器实时地密切监视。计算设备正在使用的数据的质量在其效率、计算准确度和所使用的计算资源的量方面具有显著影响。这种特别配置的计算设备可以用于例如构建基于数据驱动人工智能(AI)的解决方案以预测工业4.0中的机器故障、异常检测、生存分析等。然而,在处理大量真实物联网(IoT)传感器数据时,当前架构面临各种挑战。例如,数据可能非常大(例如,大数据)并且涉及计算设备的大量计算资源,包括处理能力、存储器、网络带宽和时间。数据可以是嘈杂的,数据可以具有缺失值,数据采样可以是不规则的,等等。此外,由计算设备处理的数据可以是异质的和非结构化的,在此统称为异类的(例如,可以涉及时间序列、文本、图像、音频、不同的采样率等)。
[0004]通过至少一个估计,在AI开发阶段期间,该数据的预处理阶段花费开发AI模型的周期中的80%的时间。换句话说,分析数据所涉及的大多数时间涉
【技术保护点】
【技术特征摘要】
【国外来华专利技术】1.一种计算设备,包括:处理器;耦合到所述处理器的存储设备;存储在所述存储设备中的引擎,其中,所述处理器对所述引擎的执行将所述计算设备配置为执行包括以下各项的动作:接收原始数据集;接收对应于所接收的原始数据集的一个或多个数据质量度量目标;确定所述数据集的模式;基于所述数据集的模式来识别验证节点的初始集合;执行验证节点的初始集合;基于数据集的模式迭代地扩展和执行验证节点的下一集合,直到达到终止准则;以及基于验证节点的初始集合和验证节点的下一集合的迭代执行,提供所述原始数据集的经校正数据集。2.如权利要求1所述的设备,其中,每个验证节点包括数据质量检查动作和一个或多个补救动作。3.如权利要求1所述的设备,其中,所述验证节点的初始集合中的验证节点的执行包括:识别用于任何数据质量检查的所有可能的补救动作;利用每个可能的补救动作来变换所述数据;以及计算多个数据质量度量(DQM)以评估所述变换。4.如权利要求1所述的设备,其中,验证节点的执行包括第一阶段,所述第一阶段包括:由验证器对象执行对所述原始数据集的逻辑检查以检测所述原始数据集中的一个或多个异常;以及通过对应运算器对所述原始数据集执行不同的数据变换,以产生用于每个数据变换的新版本的数据,从而校正一个或多个检测到的异常。5.如权利要求4所述的设备,其中,所述验证节点的执行包括第二阶段,所述第二阶段包括:对于所产生的每个新版本的数据,由内部质量评估器(IQE)模块生成数据质量度量(DQM);以及为原始数据集生成DQM。6.如权利要求5所述的设备,其中,所述第二阶段的每个DQM包括以下中的至少一个:(i)从所述原始数据集产生的对应的新版本的数据的多个维度中的特性的汇总;或(ii)从原始数据集产生的对应的新版本的数据的增益或改变信息。7.如权利要求5所述的设备,其中,所述验证节点的执行包括第三阶段,所述第三阶段包括:对于所产生的每个新版本的数据的每个DQM和原始数据集的DQM,执行与原始数据集的比较以评估相对于原始数据集的改进。8.如权利要求7所述的设备,其中,所述验证节点的执行包括第四阶段,所述第四阶段包括:
选择所产生的新版本的数据的、最好地满足数据质量度量目标的运算器。9.如权利要求8所述的设备,其中,所选择的运算器在其对应的DQM与所述原始数据集的DQM之间具有低于预定阈值的最高间隙。10.如权利要求1所述的设备,其中,扩展验证节点的下一集合包括以下至少一者:确定最佳实现一个或多个接收到的质量度量目标的验证节点;或基于挖掘执行信息储存库以找到通常一起出现的所有验证节点来确定验证节点。11.一种有形地体现具有计算机可读指令的计算机可读程序代码的计算机可读存储介质,所述计算机可读指令在被执行时使计算机设备执行一种改进数据质量以节省计算资源的方法,所述方法包括接收原始数据集;接收对应于所接收的原始数据集的一个或多个数据质量度量目标;确定所述数据集的模式;基于所述数据集的模式来识别验证节点的初始集合;执行验证节点的初始集合;基于数据集的模式迭代地扩展和执行验证节点的下一集合,直到达到终止准则;以及基于验证节点的初始集合和验证节点的下一集合的迭代执行,提供所述原始数据集的经校正数据集。12.如权利要求11所述的计算机可读存储介质,其中,每个验证节点包括数据质量检查动作和一个或多个补救动作。13.如权利要求11所述的计算机可读存储介质,其中,所述验证节点的初始集合中的验证节点的执行包括:识别用于每个数据质量检查的所有可能的补救动作;利用每个可能的补救动作来变换所述数据;以及计算多个数据质量度量(DQM)以评估所述变换。14.如权利要求11所述的计算机可读存储介质,其中,验证节点的执行包括:第一阶段,所述第一阶段包括:由验证器对象执行对所述原始数据集的逻辑检查以检测所述原始数据集中的一个或多个异常;以及通过对应运算器对所述原始数据集执行不同的数据变换,以产生用于每个数据变换的新版本的数据,从而校正一个或多个检测到的异常;第二阶段,所述第二阶段包括:对于所产生的每个新版本的数据,由内部质量评估器(IQE)模块生成数据质量度量(DQM);以及为原始数据集生成DQM;第三阶段,所述第三阶段包括:对于所产生的每个新版本的数据的每个DQM,执行与原始数据集的比较以评估相对于原始数据集的改进;以及第四阶段,所述第四阶段包括:选择所产生的新版本的数据的、最好地满足数据...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。