实时数据质量分析制造技术

技术编号:37669762 阅读:32 留言:0更新日期:2023-05-26 04:30
用于评估数据质量的计算机实现的方法包括使用处理器来接收对数据流中的数据点的多个更新。处理器还用于从数据流中的数据点计算数据质量度量(DQM)的实例。DQM的实例被配置为根据时间来区分数据流中的数据点,并且向根据数据流中的较新数据点计算的DQM的实例分配较高权重。当处理器接收到更多数据点时,DQM的实例被连续更新,同时将通过更新DQM的实例所消耗的处理器的周期限制到阈值。耗的处理器的周期限制到阈值。耗的处理器的周期限制到阈值。

【技术实现步骤摘要】
【国外来华专利技术】实时数据质量分析

技术介绍

[0001]本专利技术一般涉及可编程计算机,并且更具体地涉及实现新的数据质量度量和相关的数据质量分析技术的可编程计算机、计算机实现的方法和计算机程序产品。根据本专利技术各方面,新数据质量度量和相关数据质量分析技术被配置为有效地分配和利用对具有随时间改变的新数据或更新数据的数据集执行递增数据质量分析所需的计算资源。
[0002]在计算机处理器应用中,短语“大数据”是指可以在计算上分析以揭示模式、趋势和关联的极大数据集,尤其是与人类行为和交互有关的那些。大数据可由诸如机器学习(ML)算法、人工智能(AI)算法、深度学习算法、物联网(IoT)系统等复杂的计算分析系统来利用。因为对ML专家的需求已经超过了供应,所以已经开发了用户友好的自动ML/AI计算机系统。已知的自动化AI/ML系统可以使各种AI/ML开发任务自动化,所述任务诸如模型选择、超参数优化、自动化堆叠(整体)、神经架构搜索、流水线优化和特征工程。
[0003]自动ML/AI系统的性能很大程度上取决于系统的训练数据被定性地清除和分析以使数据适合于ML模型的有效消费的程度。如果未检测到,则较差的数据质量可能导致由复杂的AI/ML系统执行的分析中的较大偏差,从而产生不准确和误导性的结果。因为识别和解决数据质量问题的过程可能是劳动密集型的,所以被称为数据质量顾问系统或DQLearn系统的可缩放、自动化和交互式数据质量工具/系统已经由开发。为了易于描述,术语数据质量分析(DQA)系统在这里用于共同地指代数据质量顾问(或者DQLearn)系统以及具有与DQA/DQLearn系统类似特征的其它已知数据质量分析系统。DQA系统的框架执行各种数据质量分析任务,包括自动生成用于执行针对给定数据集微调的数据验证的动态可执行图形;建立许多应用程序共有的验证检查库;以及应用不同的工具来解决持久性和可用性问题,这使得数据清理成为数据科学家的艰巨任务。
[0004]DQA系统对不断地流过数据质量分析流水线的数据集执行数据质量检查。数据质量检查涉及测量和/或分析数据集的不同特征或特性以生成向用户提供关于数据质量的反馈的数据质量度量(DQM)。例如,已知的数据质量检查是识别/测量数据集中的NULL(空)值,并且已知的相应DQM是数据集中空值的百分比。在许多情况下,分析中的数据包括先前已经检查了数据质量的数据,以及先前没有检查数据质量的数据(即,新的/更新的数据)。
[0005]DQA系统在接收到新的/更新的数据时连续地更新DQM测量,并且重新计算这些DQM会消耗大量的计算资源。为了解决这个问题,已知的DQA系统可以递增地计算DQM,这意味着,代替每次数据集用于数据质量评估时在整个初始数据集上重新计算DQM的计算上昂贵的方法,通过计算新的/更新的数据的DQM并将它们与先前为初始数据集的未改变部分计算的DQM信息组合来“递增地”计算DQM。
[0006]递增地计算用于新的/更新的数据的DQM的数据质量分析技术提供了高于不递增地计算用于新的/更新的数据的DQM的数据质量分析技术的计算资源效率水平。然而,在已知的数据质量分析技术中,DQM本身是静态的,并且没有考虑当在选择的时间窗上查看时,从中导出DQM的新的/更新的数据是非静态的并且经常改变的事实。因此,递增地确定用于新的/更新的数据的DQM的已知数据质量分析技术仍然缺乏在它们的分配和计算资源的使
用中的效率,因为已知数据质量分析技术不能很好地匹配随时间不断变化的新的/更新的数据。

技术实现思路

[0007]本专利技术的实施例涉及一种用于评估数据质量的计算机实现的方法。计算机实现的方法的非限制性示例包括使用处理器来接收对数据流中的数据点的多个更新。处理器还用于从数据流中的数据点计算数据质量度量(DQM)的实例。DQM的实例被配置为根据时间来区分数据流中的数据点,并且向根据数据流中的较新数据点计算的DQM的实例分配较高权重。当处理器接收到更多数据点时,DQM的实例被连续更新,同时将通过更新DQM的实例所消耗的处理器的周期限制到阈值。
[0008]上述计算机实现的方法通过提供随时间区分数据点并向根据最近数据点计算的DQM分配较高权重的DQM来提供对评估数据质量的已知方法的改进。因此,上述计算机实现的方法有效地分配计算资源,因为它以与随时间不断变化的传入数据点良好匹配的方式计算DQM。
[0009]上述计算机实现的方法还可以包括使用处理器以使用跨多个时间范围的DQM的实例生成数据质量评估;至少部分地基于所述数据质量评估来选择数据质量补救策略;以及将所述数据质量补救策略应用于所述数据流。
[0010]上述计算机实现的方法通过使用跨多个时间范围的DQM的实例生成数据质量评估来提供对评估数据质量的已知方法的改进。因此,上述计算机实现的方法有效地分配计算资源,因为它以与随时间不断变化的传入数据点良好匹配的方式计算DQM。
[0011]本专利技术的实施例涉及一种用于评估数据质量的计算机实现的方法。计算机实现的方法的非限制性示例包括使用处理器来接收对数据流中的数据点的多个更新。处理器还用于从数据流中的数据点计算DQM的实例。分析在多个时间间隔上计算的DQM的实例。处理器还用于确定多个时间间隔中的至少一个具有针对在多个时间间隔中的至少一个期间计算的DQM的实例的异常值;以及跨多个时间间隔计算DQM的实例的加权聚合值。向具有异常值的多个时间间隔中的时间间隔中DQM的实例分配加权聚合值的较低值。
[0012]上述计算机实现的方法通过识别多个时间间隔上的异常数据点并向被识别为异常的数据点分配较低的权重来提供对评估数据质量的已知方法的改进。因此,上述计算机实现的方法有效地分配计算资源,因为它以与随时间不断变化的传入数据点良好匹配的方式在数据点之间识别异常行为。
[0013]上述计算机实现的方法可以进一步包括基于异常值的计算严重水平,为具有异常值的多个时间间隔中的时间间隔中DQM实例分配加权聚合值的较低值。
[0014]上述计算机实现的方法通过识别多个时间间隔上的异常数据点的严重性并且基于异常的测量严重性向被识别为异常的数据点分配较低权重来提供对评估数据质量的已知方法的改进。因此,上述计算机实现的方法有效地分配计算资源,因为它以与随时间不断变化的传入数据点良好匹配的方式在数据点之间识别异常行为。
[0015]本专利技术的实施例还涉及具有与上述计算机实现的方法基本相同的特征和功能的计算机系统和计算机程序产品。
[0016]本专利技术的实施例涉及一种用于评估数据质量的计算机程序产品。该计算机程序产
品包括计算机可读存储介质,该计算机可读存储介质具有随其体现的程序指令,该程序指令可由处理器系统执行以使处理器系统执行操作。该操作包括接收对数据流中的数据点的多个更新,以及从数据流中的数据点计算DQM的实例,其中DQM的实例被配置为通过时间来区分数据流中的数据点,并且向从数据流中的更近的数据点计算的DQM的实例分配更高的权重。该操作还包括随着处理器接收到更多数据点而连续地更新DQM的实例,同时将通过更新D本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种用于评估数据质量的计算机实现的方法,所述计算机实现的方法包括:使用处理器接收对数据流中的数据点的多个更新;使用所述处理器从所述数据流中的所述数据点计算数据质量度量(DQM)的实例;其中所述DQM的实例被配置为根据时间来区分所述数据流中的所述数据点,并且向根据所述数据流中的更近的数据点计算的所述DQM的实例分配更高的权重;以及在所述处理器接收到更多的数据点时,连续地更新所述DQM的实例,同时将通过更新所述DQM的实例消耗的所述处理器的周期限制为阈值。2.如权利要求1所述的计算机实现的方法,还包括使用跨多个时间范围的所述DQM的所述实例生成数据质量评估。3.如权利要求2所述的计算机实现的方法,还包括使用所述处理器至少部分地基于所述数据质量评估来选择数据质量补救策略。4.如权利要求3所述的计算机实现的方法,还包括使用所述处理器将所述数据质量补救策略应用于所述数据流。5.如权利要求1所述的计算机实现的方法,其中所述DQM选自由以下各项组成的组:所述数据流中的丢失数据点的数量;所述数据流中的副本数据点的数量;所述数据流的所述数据点中的空值的数量;以及所述数据流的所述数据点中的空值的百分比。6.一种用于评估数据质量的计算机实现的方法,所述计算机实现的方法包括:使用处理器接收对数据流中的数据点的多个更新;使用所述处理器从所述数据流中的所述数据点计算数据质量度量(DQM)的实例;分析在多个时间间隔上计算的DQM的实例;确定所述多个时间间隔中的至少一个具有针对在所述多个时间间隔中的所述至少一个期间计算的所述DQM的实例的异常值;以及计算跨所述多个时间间隔的所述DQM的实例的加权聚合值;其中具有异常值的多个时间间隔的时间间隔中的DQM的实例被分配加权聚合值的较低值。7.如权利要求6所述的计算机实现的方法,其中确定多个时间间隔中的至少一个具有针对在多个时间间隔中的至少一个期间计算的DQM的实例的异常值包括分析数据点的模式。8.如权利要求7所述的计算机实现的方法,其中分析所述数据点的模式包括将所述数据点的模式与所述数据点的预期模式进行比较。9.如权利要求6所述的计算机实现的方法,其中基于所述异常值的计算的严重水平,给具有所述异常值的所述多个时间间隔中的所述时间间隔中的所述DQM的实例分配所述加权聚合值的较低值。10.如权利要求6所述的计算机实现的方法,其中所述DQM选自由以下各项组成的组:所述数据流中的丢失数据点的数量;所述数据流中的副本数据点的数量;所述数据流的所述数据点中的空值的数量;以及
所述数据流的所述数据点中的空值的百分比。11.一种用于评估数据质量的计算机系统,所述计算机系统包括通信地耦合到处理器的存储器,其中所述处理器被配置成执行操作,所述操作包括:接收对数据流中的数据点的多个更新;从所述数据流中的所述数据点计算数据质量度量(DQM)的实例;其中所述DQM的实例被配置为根据时间来区分所述数据流中的所述数据点,并且向根据所述数据流中的更近的数据点计算的所述DQM的实例分配更高的权重;以及在所述处理器接收到更多的数据点时,连续地更新所述DQM的实例,同时将通过更新所述DQM的实例消耗的所述处理器的周期限制为阈值。12.如权利要求11所述的计算机系统,其中所述操作还包括使用跨多个时间范围的所述DQM的实例生成数据质量评估。13.如权利要求12所述的计算机系统,其中所述操作还包括至少部分地基于所述数据质量评估来选择数据质量补救策略。14.如权利要求13所述的计算机系统,其中所述操...

【专利技术属性】
技术研发人员:A
申请(专利权)人:国际商业机器公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1