【技术实现步骤摘要】
【国外来华专利技术】实时数据质量分析
技术介绍
[0001]本专利技术一般涉及可编程计算机,并且更具体地涉及实现新的数据质量度量和相关的数据质量分析技术的可编程计算机、计算机实现的方法和计算机程序产品。根据本专利技术各方面,新数据质量度量和相关数据质量分析技术被配置为有效地分配和利用对具有随时间改变的新数据或更新数据的数据集执行递增数据质量分析所需的计算资源。
[0002]在计算机处理器应用中,短语“大数据”是指可以在计算上分析以揭示模式、趋势和关联的极大数据集,尤其是与人类行为和交互有关的那些。大数据可由诸如机器学习(ML)算法、人工智能(AI)算法、深度学习算法、物联网(IoT)系统等复杂的计算分析系统来利用。因为对ML专家的需求已经超过了供应,所以已经开发了用户友好的自动ML/AI计算机系统。已知的自动化AI/ML系统可以使各种AI/ML开发任务自动化,所述任务诸如模型选择、超参数优化、自动化堆叠(整体)、神经架构搜索、流水线优化和特征工程。
[0003]自动ML/AI系统的性能很大程度上取决于系统的训练数据被定性地清除和分析以使数据适合于ML模型的有效消费的程度。如果未检测到,则较差的数据质量可能导致由复杂的AI/ML系统执行的分析中的较大偏差,从而产生不准确和误导性的结果。因为识别和解决数据质量问题的过程可能是劳动密集型的,所以被称为数据质量顾问系统或DQLearn系统的可缩放、自动化和交互式数据质量工具/系统已经由开发。为了易于描述,术语数据质量分析(DQA)系统在这里用于共同地指代数据质量顾问(或者DQLearn)系统以及具有与DQ ...
【技术保护点】
【技术特征摘要】
【国外来华专利技术】1.一种用于评估数据质量的计算机实现的方法,所述计算机实现的方法包括:使用处理器接收对数据流中的数据点的多个更新;使用所述处理器从所述数据流中的所述数据点计算数据质量度量(DQM)的实例;其中所述DQM的实例被配置为根据时间来区分所述数据流中的所述数据点,并且向根据所述数据流中的更近的数据点计算的所述DQM的实例分配更高的权重;以及在所述处理器接收到更多的数据点时,连续地更新所述DQM的实例,同时将通过更新所述DQM的实例消耗的所述处理器的周期限制为阈值。2.如权利要求1所述的计算机实现的方法,还包括使用跨多个时间范围的所述DQM的所述实例生成数据质量评估。3.如权利要求2所述的计算机实现的方法,还包括使用所述处理器至少部分地基于所述数据质量评估来选择数据质量补救策略。4.如权利要求3所述的计算机实现的方法,还包括使用所述处理器将所述数据质量补救策略应用于所述数据流。5.如权利要求1所述的计算机实现的方法,其中所述DQM选自由以下各项组成的组:所述数据流中的丢失数据点的数量;所述数据流中的副本数据点的数量;所述数据流的所述数据点中的空值的数量;以及所述数据流的所述数据点中的空值的百分比。6.一种用于评估数据质量的计算机实现的方法,所述计算机实现的方法包括:使用处理器接收对数据流中的数据点的多个更新;使用所述处理器从所述数据流中的所述数据点计算数据质量度量(DQM)的实例;分析在多个时间间隔上计算的DQM的实例;确定所述多个时间间隔中的至少一个具有针对在所述多个时间间隔中的所述至少一个期间计算的所述DQM的实例的异常值;以及计算跨所述多个时间间隔的所述DQM的实例的加权聚合值;其中具有异常值的多个时间间隔的时间间隔中的DQM的实例被分配加权聚合值的较低值。7.如权利要求6所述的计算机实现的方法,其中确定多个时间间隔中的至少一个具有针对在多个时间间隔中的至少一个期间计算的DQM的实例的异常值包括分析数据点的模式。8.如权利要求7所述的计算机实现的方法,其中分析所述数据点的模式包括将所述数据点的模式与所述数据点的预期模式进行比较。9.如权利要求6所述的计算机实现的方法,其中基于所述异常值的计算的严重水平,给具有所述异常值的所述多个时间间隔中的所述时间间隔中的所述DQM的实例分配所述加权聚合值的较低值。10.如权利要求6所述的计算机实现的方法,其中所述DQM选自由以下各项组成的组:所述数据流中的丢失数据点的数量;所述数据流中的副本数据点的数量;所述数据流的所述数据点中的空值的数量;以及
所述数据流的所述数据点中的空值的百分比。11.一种用于评估数据质量的计算机系统,所述计算机系统包括通信地耦合到处理器的存储器,其中所述处理器被配置成执行操作,所述操作包括:接收对数据流中的数据点的多个更新;从所述数据流中的所述数据点计算数据质量度量(DQM)的实例;其中所述DQM的实例被配置为根据时间来区分所述数据流中的所述数据点,并且向根据所述数据流中的更近的数据点计算的所述DQM的实例分配更高的权重;以及在所述处理器接收到更多的数据点时,连续地更新所述DQM的实例,同时将通过更新所述DQM的实例消耗的所述处理器的周期限制为阈值。12.如权利要求11所述的计算机系统,其中所述操作还包括使用跨多个时间范围的所述DQM的实例生成数据质量评估。13.如权利要求12所述的计算机系统,其中所述操作还包括至少部分地基于所述数据质量评估来选择数据质量补救策略。14.如权利要求13所述的计算机系统,其中所述操...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。