A method, system, and device for verifying an analysis result, including a computer program encoded on a computer storage medium. One method of the method includes processing a subset of a data set and polling the analysis system to obtain a corresponding output subset, and comparing the two subsets to validate the analysis system.
【技术实现步骤摘要】
【国外来华专利技术】验证分析结果
本说明书涉及云计算。
技术介绍
在云计算中,数据可以被分发到由一个或多个通信网络连接的多个计算机的系统。每个计算机可以托管一个或多个服务器,每个服务器处理数据的一部分。服务器可以并行处理数据。这样的分布式系统可以处理在虚拟化环境中部署的面向web和数据密集型应用。云计算系统可用于执行大数据分析过程。大数据分析过程可以包括检查各种类型的大量数据以确定模式、相关性和其他类型的信息。可以从各种源收集数据,例如,web服务器日志、点击流数据、财务数据、社交媒体活动报告和结构化数据库。
技术实现思路
本说明书描述了用于在分布式计算系统上执行的分析系统的验证引擎。验证引擎处理数据集的子集,并轮询分析系统以获得相应的输出子集,并比较两个子集以验证分析系统。这有助于在无需验证分析系统的整个输出集的情况下验证分析系统。例如,开始使用新的分析系统或者向分析系统提供新类型的数据的组织可以使用该验证引擎。一般来说,本说明书中描述的主题的一个创新方面可以体现在包括以下动作的方法中:接收对被配置为在包括多个物理计算机的分布式计算系统上执行的分析过程的验证的请求;接收数据集的原始子集;处理所述数据集的所述原始子集以生成第一输出子集,包括执行指定所述分析过程的表示的测试脚本,并将所述原始子集作为输入提供给所述测试脚本;从正对所述数据集执行所述分析过程的所述分布式计算系统接收第二输出子集,所述第二输出子集是在所述分布式计算系统上执行的所述分析过程的输出的一部分,所述第二输出子集是由所述分布式计算系统处理所述原始子集而产生的;将所述第一输出子集与所述第二输出子集进行比较;以及在所述 ...
【技术保护点】
一种由一个或多个计算机执行的方法,所述方法包括:接收对被配置为在包括多个物理计算机的分布式计算系统上执行的分析过程的验证的请求;接收数据集的原始子集;处理所述数据集的所述原始子集以致生成第一输出子集,所述处理包括执行指定所述分析过程的表示的测试脚本、并且将所述原始子集作为输入提供给所述测试脚本;从正对所述数据集执行所述分析过程的所述分布式计算系统接收第二输出子集,所述第二输出子集是在所述分布式计算系统上执行的所述分析过程的输出的一部分,所述第二输出子集是由所述分布式计算系统处理所述原始子集而产生的;将所述第一输出子集与所述第二输出子集进行比较;以及在所述分布式计算系统对整个所述数据集完成所述分析过程的执行之前,输出基于将所述第一输出子集与所述第二输出子集进行比较的验证结果。
【技术特征摘要】
【国外来华专利技术】1.一种由一个或多个计算机执行的方法,所述方法包括:接收对被配置为在包括多个物理计算机的分布式计算系统上执行的分析过程的验证的请求;接收数据集的原始子集;处理所述数据集的所述原始子集以致生成第一输出子集,所述处理包括执行指定所述分析过程的表示的测试脚本、并且将所述原始子集作为输入提供给所述测试脚本;从正对所述数据集执行所述分析过程的所述分布式计算系统接收第二输出子集,所述第二输出子集是在所述分布式计算系统上执行的所述分析过程的输出的一部分,所述第二输出子集是由所述分布式计算系统处理所述原始子集而产生的;将所述第一输出子集与所述第二输出子集进行比较;以及在所述分布式计算系统对整个所述数据集完成所述分析过程的执行之前,输出基于将所述第一输出子集与所述第二输出子集进行比较的验证结果。2.根据权利要求1所述的方法,其中,所述测试脚本是以R编程语言编写的。3.根据权利要求1所述的方法,其中,接收所述第二输出子集包括:使用利用RESTfulAPI实现的异步回调函数来轮询所述分析系统,所述方法包括与处理所述原始子集并行地轮询所述分析系统。4.根据权利要求1所述的方法,其中,所述第一输出子集包括第一多个数据元素,并且所述第二输出子集包括第二多个数据元素,并且,其中,将所述第一输出子集与所述第二输出子集进行比较包括:将在所述第一多个元素中的每个数据元素与在所述第二多个数据元素中的对应数据元素相比较。5.根据权利要求4所述的方法,包括:确定所述第一多个元素中的、与所述第二多个元素中的对应元素大约相等的元素的数量,其中,输出所述验证结果包括:如果所述元素的数量高于或等于阈值则输出肯定验证结果,并且如果所述元素的数量低于所述阈值则输出否定验证结果。6.根据权利要求1所述的方法,其中:接收所述原始子集包括:从客户计算机系统接收所述原始子集,其中,所述客户计算机系统将所述数据集提供给所述分析系统,并且所述分析系统将所述输出提供给所述客户计算机系统;以及输出所述验证结果包括:将所述验证结果输出到所述客户计算机系统。7.根据权利要求1所述的方法,其中,所述测试脚本指定请求过程,该过程用于从所述分析系统来请求所述分析系统的所述输出中的、由所述分析系统处理所述原始子集所产生的部分。8.根据权利要求7所述的方法,其中,用于请求所述分析系统的所述输出中的、由所述分析系统处理所述原始子集所产生的部分的所述过程包括:对所述分析系统的API调用,以通过指定表征所述原始子集的数据来请求所述第二输出子集。9.一种包括被配置为执行操作的一个或多个物理计算机的系统,所述操作包括:接收对被配置为在包括多个物理计算机的分布式计算系统上执行的分析过程的验证的请求;接收数据集的原始子集;处理所述数据集的所述原始子集以致生成第一输出子集,所述处理包括执行指定所述分析过程的表示的测试脚本、并且将所述原始子集作为输入提供给所述测试脚本;从正对所述数据集执行所述分析过程的所述分布式计算系统接收第二输出子集,所述第二输出子集是在所述分布式计算系统上执行的所述分析过程的输出的一部分,所述第二输出子集是由所述分布式计算系统处理所述原始子集而产生的;将所述第一输出子集与所述第二输出子集进行比较;以及在所述分布式计算系统对整个所述数据集完成所述分析过程的执行之前,输出基于将所述第一输出子集与所述第二输出子集进行比较的验证结果。10.根据权利要求9所述的系统,其中,所述测试脚本是以R编程语言编写的。11.根据权利要求9所述的系统,其中,接收所述第二输出子集包括:使用利用RESTfulAPI实现的异步回调函数来轮询所述分析系统,所述方法包括与处理所述原始子集并行地轮询所述分析系统。12.根据权利要求9所述的系统,其中,所述第一输出子集包括第一多个数据元素,并且所述第二输出子集包括第二多个数据元素,并且其中,将所述第一输出子集与所述第二输出子集进行比较包括:将在所述第一多个元素中的每个数据元...
【专利技术属性】
技术研发人员:朱磊,付宁,李雄,赵艳慧,王晓坚,
申请(专利权)人:皮沃塔尔软件公司,
类型:发明
国别省市:美国,US
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。