验证分析结果制造技术

技术编号:15529678 阅读:124 留言:0更新日期:2017-06-04 16:58
用于验证分析结果的方法、系统和装置,包括编码在计算机存储介质上的计算机程序。所述方法中的一种方法包括处理数据集的子集并且轮询分析系统以获得相应的输出子集,并且比较所述两个子集以验证分析系统。

Validation analysis results

A method, system, and device for verifying an analysis result, including a computer program encoded on a computer storage medium. One method of the method includes processing a subset of a data set and polling the analysis system to obtain a corresponding output subset, and comparing the two subsets to validate the analysis system.

【技术实现步骤摘要】
【国外来华专利技术】验证分析结果
本说明书涉及云计算。
技术介绍
在云计算中,数据可以被分发到由一个或多个通信网络连接的多个计算机的系统。每个计算机可以托管一个或多个服务器,每个服务器处理数据的一部分。服务器可以并行处理数据。这样的分布式系统可以处理在虚拟化环境中部署的面向web和数据密集型应用。云计算系统可用于执行大数据分析过程。大数据分析过程可以包括检查各种类型的大量数据以确定模式、相关性和其他类型的信息。可以从各种源收集数据,例如,web服务器日志、点击流数据、财务数据、社交媒体活动报告和结构化数据库。
技术实现思路
本说明书描述了用于在分布式计算系统上执行的分析系统的验证引擎。验证引擎处理数据集的子集,并轮询分析系统以获得相应的输出子集,并比较两个子集以验证分析系统。这有助于在无需验证分析系统的整个输出集的情况下验证分析系统。例如,开始使用新的分析系统或者向分析系统提供新类型的数据的组织可以使用该验证引擎。一般来说,本说明书中描述的主题的一个创新方面可以体现在包括以下动作的方法中:接收对被配置为在包括多个物理计算机的分布式计算系统上执行的分析过程的验证的请求;接收数据集的原始子集;处理所述数据集的所述原始子集以生成第一输出子集,包括执行指定所述分析过程的表示的测试脚本,并将所述原始子集作为输入提供给所述测试脚本;从正对所述数据集执行所述分析过程的所述分布式计算系统接收第二输出子集,所述第二输出子集是在所述分布式计算系统上执行的所述分析过程的输出的一部分,所述第二输出子集是由所述分布式计算系统处理所述原始子集而产生的;将所述第一输出子集与所述第二输出子集进行比较;以及在所述分布式计算系统对所述整个数据集完成所述分析过程的执行之前,输出基于将所述第一输出子集与所述第二输出子集进行比较的验证结果。该方面的其他实施例包括记录在一个或多个计算机存储设备上的对应的计算机系统、装置和计算机程序,每个被配置为执行所述方法的动作。对于要被配置为执行特定操作或动作的一个或多个计算机的系统意味着系统已经在其上安装了在操作中导致系统执行所述操作或动作的软件、固件、硬件或它们的组合。对于要被配置为执行特定操作或动作的一个或多个计算机程序意味着一个或多个程序包括当由数据处理装置执行时使得装置执行所述操作或动作的指令。前述和其他实施例可以各自可选地单独或组合地包括以下特征中的一个或多个。测试脚本用R编程语言编写。接收所述第二输出子集包括使用利用RESTfulAPI实现的异步回调函数来轮询所述分析系统,所述方法包括与处理所述原始子集并行地轮询所述分析系统。所述第一输出子集包括第一多个数据元素,并且所述第二输出子集包括第二多个数据元素,并且其中将所述第一输出子集与所述第二输出子集进行比较包括:将在所述第一多个数据元素中的每个元素与在所述第二多个数据元素中的对应数据元素相比较。动作包括确定所述第一多个元素中的与所述第二多个元素中的对应元素大约相等的元素的数量,其中输出所述验证结果包括:如果所述元素的数量高于或等于阈值则输出肯定验证结果,并且如果元素的数量低于阈值,则输出否定验证结果。接收所述原始子集包括从客户计算机系统接收所述原始子集,其中所述客户计算机系统向所述分析系统提供所述数据集,并且所述分析系统将所述输出提供给所述客户计算机系统;以及输出验证结果包括将验证结果输出到客户计算机系统。所述测试脚本指定用于从所述分析系统请求由所述分析系统处理所述原始子集所产生的所述分析系统的输出的所述部分的过程。用于请求由所述分析系统处理所述原始子集产生的所述分析系统的输出的所述部分的过程包括对所述分析系统的API调用,以通过指定表征所述原始子集的数据来请求所述第二输出子集。可以实现本说明书中描述的本主题的特定实施例以实现一个或多个优点。验证引擎可以为在分布式计算系统上执行的分析系统输出验证结果。验证引擎可以在比验证整个数据集所需的时间少的时间内产生验证结果。验证引擎可以与各种分析系统一起使用,例如,可以提供RESTful(表示状态传输)API(应用编程接口)的任何分析系统。在附图和下面的描述中阐述了本说明书中描述的主题的一个或多个实施例的细节。根据描述、附图和权利要求,本主题的其他特征、方面和优点将变得显而易见。附图说明图1是示例计算系统的框图。图2是示例验证引擎的框图。图3是由图1的验证引擎执行的示例过程的流程图。图4是由图1的比较器和阈值测试器执行的示例过程的流程图。各个附图中相同的附图标记和标记指示相同的元件。具体实施方式图1是示例计算系统100的框图。该系统包括由数据通信网络108连接的客户系统102、验证系统104和分析系统106。每个系统可以包括通过一个或多个通信网络连接的一个或多个计算机。每个计算机可以被实现为物理计算机或者在物理计算机的虚拟机上运行的软件。客户系统将数据集存储在数据存储系统110上。数据存储系统可以是分布式文件系统,其可以包括非易失性大容量存储器,例如闪存或磁盘存储器。数据集可以是文件、文件集合、数据库或以任何其他方式组织的数据集合。数据集可以包括从各种源收集的各种类型的数据。例如,数据集可以包括web服务器日志、由社交网络系统报告的数据、银行交易数据、保健数据和体育统计数据等。数据集可以存储在任何适当的数据存储结构中,例如关系数据库或专用XML存储器等。客户系统使用分析系统来使用由分析系统执行的分析引擎112对数据集执行分析过程。在一些实施方式中,客户系统和分析系统两者均是同一分布式计算系统的一部分。客户系统例如通过使数据集通过网络对分析系统可用使得分析系统可以根据分析过程的需要请求数据而将数据集传送到分析系统。分析过程可以是各种类型的分析过程中的任何一种,例如搜索模式、确定数据集的子集之间的相关性以及计算表征数据集的统计量。分析系统通常使用并行的分布式过程来执行分析过程,例如通过使用使用ApacheHadoop实现的MapReduce。分析过程的结果是分析输出,其可以是例如另一数据集或一个或多个图表或其他数据可视物等。客户系统使用验证系统来使用验证引擎114验证分析过程。验证引擎处理数据集的子集并且轮询分析引擎以获得对应的输出子集,并且比较两个子集以验证分析引擎。这对于例如在不必验证来自分析引擎的整个输出集的情况下验证分析引擎是有用的,或者对以比分析引擎产生整个输出集更少的时间来验证分析引擎是有用的。验证引擎可以从客户系统接收数据集的子集。验证引擎使用与分析引擎相同的过程或者产生相同结果的过程来处理子集。例如,验证引擎可以在单个计算系统中执行该过程,消除了对与分析引擎所使用的并行、分布式过程相关联的开销的需要。验证引擎从分析系统接收输出子集。在一些实施方式中,验证引擎使用使用RESTfulAPI实现的异步回调函数来轮询分析系统。系统可以与处理从客户系统接收的数据集的子集并行地轮询分析系统。图2是示例验证引擎200的框图。验证引擎可以用在图1的验证系统104中。验证引擎从客户系统(例如,图1的客户系统102)接收数据集的原始子集。原始子集是尚未处理的数据集的某些部分。验证引擎还从分析系统(例如,图1的分析系统106)接收输出子集。输出子集是通过分析系统根据分析过程处理整个数据集产生的、分析系统的输出的一部分。输出子集本文档来自技高网...
验证分析结果

【技术保护点】
一种由一个或多个计算机执行的方法,所述方法包括:接收对被配置为在包括多个物理计算机的分布式计算系统上执行的分析过程的验证的请求;接收数据集的原始子集;处理所述数据集的所述原始子集以致生成第一输出子集,所述处理包括执行指定所述分析过程的表示的测试脚本、并且将所述原始子集作为输入提供给所述测试脚本;从正对所述数据集执行所述分析过程的所述分布式计算系统接收第二输出子集,所述第二输出子集是在所述分布式计算系统上执行的所述分析过程的输出的一部分,所述第二输出子集是由所述分布式计算系统处理所述原始子集而产生的;将所述第一输出子集与所述第二输出子集进行比较;以及在所述分布式计算系统对整个所述数据集完成所述分析过程的执行之前,输出基于将所述第一输出子集与所述第二输出子集进行比较的验证结果。

【技术特征摘要】
【国外来华专利技术】1.一种由一个或多个计算机执行的方法,所述方法包括:接收对被配置为在包括多个物理计算机的分布式计算系统上执行的分析过程的验证的请求;接收数据集的原始子集;处理所述数据集的所述原始子集以致生成第一输出子集,所述处理包括执行指定所述分析过程的表示的测试脚本、并且将所述原始子集作为输入提供给所述测试脚本;从正对所述数据集执行所述分析过程的所述分布式计算系统接收第二输出子集,所述第二输出子集是在所述分布式计算系统上执行的所述分析过程的输出的一部分,所述第二输出子集是由所述分布式计算系统处理所述原始子集而产生的;将所述第一输出子集与所述第二输出子集进行比较;以及在所述分布式计算系统对整个所述数据集完成所述分析过程的执行之前,输出基于将所述第一输出子集与所述第二输出子集进行比较的验证结果。2.根据权利要求1所述的方法,其中,所述测试脚本是以R编程语言编写的。3.根据权利要求1所述的方法,其中,接收所述第二输出子集包括:使用利用RESTfulAPI实现的异步回调函数来轮询所述分析系统,所述方法包括与处理所述原始子集并行地轮询所述分析系统。4.根据权利要求1所述的方法,其中,所述第一输出子集包括第一多个数据元素,并且所述第二输出子集包括第二多个数据元素,并且,其中,将所述第一输出子集与所述第二输出子集进行比较包括:将在所述第一多个元素中的每个数据元素与在所述第二多个数据元素中的对应数据元素相比较。5.根据权利要求4所述的方法,包括:确定所述第一多个元素中的、与所述第二多个元素中的对应元素大约相等的元素的数量,其中,输出所述验证结果包括:如果所述元素的数量高于或等于阈值则输出肯定验证结果,并且如果所述元素的数量低于所述阈值则输出否定验证结果。6.根据权利要求1所述的方法,其中:接收所述原始子集包括:从客户计算机系统接收所述原始子集,其中,所述客户计算机系统将所述数据集提供给所述分析系统,并且所述分析系统将所述输出提供给所述客户计算机系统;以及输出所述验证结果包括:将所述验证结果输出到所述客户计算机系统。7.根据权利要求1所述的方法,其中,所述测试脚本指定请求过程,该过程用于从所述分析系统来请求所述分析系统的所述输出中的、由所述分析系统处理所述原始子集所产生的部分。8.根据权利要求7所述的方法,其中,用于请求所述分析系统的所述输出中的、由所述分析系统处理所述原始子集所产生的部分的所述过程包括:对所述分析系统的API调用,以通过指定表征所述原始子集的数据来请求所述第二输出子集。9.一种包括被配置为执行操作的一个或多个物理计算机的系统,所述操作包括:接收对被配置为在包括多个物理计算机的分布式计算系统上执行的分析过程的验证的请求;接收数据集的原始子集;处理所述数据集的所述原始子集以致生成第一输出子集,所述处理包括执行指定所述分析过程的表示的测试脚本、并且将所述原始子集作为输入提供给所述测试脚本;从正对所述数据集执行所述分析过程的所述分布式计算系统接收第二输出子集,所述第二输出子集是在所述分布式计算系统上执行的所述分析过程的输出的一部分,所述第二输出子集是由所述分布式计算系统处理所述原始子集而产生的;将所述第一输出子集与所述第二输出子集进行比较;以及在所述分布式计算系统对整个所述数据集完成所述分析过程的执行之前,输出基于将所述第一输出子集与所述第二输出子集进行比较的验证结果。10.根据权利要求9所述的系统,其中,所述测试脚本是以R编程语言编写的。11.根据权利要求9所述的系统,其中,接收所述第二输出子集包括:使用利用RESTfulAPI实现的异步回调函数来轮询所述分析系统,所述方法包括与处理所述原始子集并行地轮询所述分析系统。12.根据权利要求9所述的系统,其中,所述第一输出子集包括第一多个数据元素,并且所述第二输出子集包括第二多个数据元素,并且其中,将所述第一输出子集与所述第二输出子集进行比较包括:将在所述第一多个元素中的每个数据元...

【专利技术属性】
技术研发人员:朱磊付宁李雄赵艳慧王晓坚
申请(专利权)人:皮沃塔尔软件公司
类型:发明
国别省市:美国,US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1