计算回归模型制造技术

技术编号:12102240 阅读:91 留言:0更新日期:2015-09-23 20:33
提供了计算任务结果的技术。创建记录的处理数据集,其中每个记录包括特定于一组实际子任务中的一个子任务的数据并且包含该组实际子任务的共享数据的参考,并且其中记录的数目等同于该组实际子任务中的实际子任务的数目。通过一组映射器中的每一个映射器接收处理数据集的一个记录。利用接收的记录执行分配的子任务以产生输出,以及通过一个单一的简化器,简化该组映射器中每个映射器的输出以确定任务结果。

【技术实现步骤摘要】
【国外来华专利技术】用于计算任务结果的方法、计算机可读介质和计算机系统
本专利技术的实施例涉及利用映射-简化(Map-Reduce)框架中的扫描(sweep)操作计算可能的回归模型。
技术介绍
多元线性回归模型通常用于分析一个目标变量(Y)和预测因子变量列表(X)之间的关系。提出如前向选择、淘汰落后、逐步推进等等的众多的技术用以在k个预测因子的大集中选择能够比其他预测因子更能影响目标的一些预测因子。预测因子可以被描述为预测或影响预测回归模型中的目标的字段。目标可被描述为由回归模型中的一个或多个预测因子(predictor)预测或影响的字段。寻找最佳回归的方法之一是基于所选择的标准,例如调整后的R方等执行所有的2k回归模型。这种技术也被称为“穷举搜索”。当k较大时,由于计算时间随着k呈指数级增长,执行所有可能的回归可能并不现实。已经作出提高性能的努力,这些努力大致沿两条路径:(1)利用顺序策略,从一个回归模型移动到另一个回归模型;(2)利用并行计算策略来分发密集计算。映射-简化框架已经成为一种流行的模式,因为它可以处理互联网时代越来越普遍的分布式数据源中的拍字节(petabytes)级的数据。映射-简化框架使应用程序与分布式集群中成千上万的节点一起工作。典型的map-reduce任务通常使用多个映射器在不同的数据拆分/块中进行计算,并且使用一个或多个简化器将映射器的结果合并在一起,以使最终结果/统计数据是基于整个数据的。
技术实现思路
提供了一种用于计算任务结果的方法、计算机程序产品和系统。记录的处理数据集被创建,其中,每个记录包含特定于一组实际子任务中的一个子任务的数据并包含由该组实际子任务共享数据的参考,并且其中记录的数目相当于该组实际子任务中的实际子任务的数目。利用一组映射器的每一个映射器,接收处理数据集的一个记录并且利用该接收的一个记录执行分配的子任务以产生输出。利用单个简化器,简化从该组映射器的每一个映射器的输出以确定任务的结果。附图说明下面参考附图,其中相似的参考标记代表相应的部件,其中:图1示出了根据某些实施例的映射-简化框架;图2示出了根据某些实施例的表中的回归模型序列;图3示出了根据某些实施例的用于计算可能的回归模型的整体流程;图4示出了根据某些实施例的将全局序列划分成本地序列的例子;图5示出了根据某些实施例的映射-简化框架实现的例子;图6示出了用于利用映射-简化框架在原始数据集执行任务的操作的流程图。图6由图6A和图6B组成。图7描述了根据某些实施例的云计算节点;图8描述了根据某些实施例的云计算环境;图9描述了根据某些实施例的抽象回归模型层。具体实施方式已经呈现本专利技术各种实施例的描述用于说明的目的,但不旨在穷尽或限制于所公开的实施例。对那些本领域的普通技术人员来说,不脱离所描述实施例范围的许多修改和变化将是显而易见的。本文所用的术语被选择最好地解释实施例的原理、实际应用以及市场上找到的技术的改进,或使其他普通技术人员能够理解在此公开的实施例。实施例利用映射-简化框架通过利用扫描操作为k个预测因子计算2k的可能回归模型。实施例利用多个节点(映射器)并行计算本地回归模型(例如,本地最佳回归模型),然后利用一个节点(简化器)合并多个节点的结果以从本地回归模型中选择全局回归模型(例如,全局最佳回归模型)。实施例以系统的方式将全局搜索序列分解成多个本地搜索序列,并且可以在多个节点独立地执行本地搜索序列。本地搜索序列可以描述为全局搜索序列的子序列。节点可以被描述为与集群中的一个中央处理单元(CPU)相关的执行单元。集群可以描述为具有多个节点,并且这些节点可以位于相同或不同的计算机。在某些实施例中,节点可以执行一个映射或简化任务。在某些实施例中,多个映射器和单个简化器可以在具有多个CPU核心的单个计算机/机器上执行。在某些实施例中,多个映射器和单个简化器可以在不同的计算机/机器上执行。实施例将全局搜索序列/空间分成M(=2m)个本地搜索序列/空间,其中m<k–1,在2k–m个扫描枢轴(sweeppivot)的本地搜索序列上应用扫描操作,得到2k-m个回归模型。枢轴对应于在其上应用扫描操作的矩阵的特定对角元素。然后,实施例并行地在M个映射器中找到本地回归模型,并利用一个简化器合并映射器的结果以找到全局回归模型。图1示出了根据某些实施例的映射-简化框架。在某些实施例中,计算体系结构用于计算映射-简化框架100中所有可能的回归模型。映射-简化框架100接收作为输入的全局搜索空间100并输出全局回归模型160。映射-简化框架100包括映射器120,130,…,140以及简化器150。全局搜索空间100被划分为本地搜索空间。每个映射器120,130,…,140接收本地搜索空间并向简化器150输出本地回归模型。简化器150利用来自每个映射器120,130,…,140的本地回归模型确定全局回归模型,并作为全局回归模型160输出。实施例在回归模型解决方案的开发中利用映射-简化框架100。实施例还利用扫描操作。扫描操作这里仅出于增进理解实施例的目的描述扫描操作的性质。在回归模型中,预测因子可以是连续字段或类别(categorical)字段。类别字段可以描述为具有有限数目的名义或有序类别作为值。基于参数化技术,具有J个类别的每个类别预测因子可以随J个虚拟变量(dummyvariable)扩大,因此,回归模型中具有对应于类别预测因子的J个系数。假设预测因子X矩阵中存在k个效应(effect)。由于k个效应既可以包括连续预测因子,也可以包括类别预测因子(事实上,k个效应中的一些可以是几个预测因子的组合,但为了保持简单并且不失一般性,排除这些效应,因此k个效应是k个预测因子),回归模型中系数的数目p可能大于k。基于正规方程存在回归系数闭合形式的解其中Y是n×1向量,n是记录的数目,X是从k个预测因子推导出的n×p矩阵并且是系数估计的p×1向量。一种获得的技术是扫描操作。扫描操作的工作方式如下:针对叉积(p+1)×(p+1)矩阵:在第一个p枢轴或枢转元素(pivotalelement)上进行扫描,其结果为:其中,残差平方和(SSE)为计算选择回归模型中使用的标准时通常需要的残差平方和。通常,在第一个p枢转元素的子集上扫描C产生对应于X’s的子集上Y的回归的回归系数的估计。扫描操作有两种属性:(1)可逆(具有相同的枢转元素的两个连续扫描操作与空操作相同);(2)可交换(先在第r个枢转元素上,然后在第s个枢转元素上进行的扫描操作与以相反顺序进行的扫描操作结果相同)。利用这些属性,对特定行和列(为某一连续预测因子)或C的特定一组J行和列(为对应于某一类别预测因子的一组J虚拟变量)应用的扫描操作将该预测因子引入拟合回归模型,或者,如果模型中已经存在该预测因子,则将其移除。也就是说,一个预测因子上进行的每一扫描操作都产生一个回归模型。在某些实施例中,可以通过2k-1序列个扫描操作得到可能的2k-1个回归,如下所示:当k=1,2k-1=1,通过在对应于第一个预测因子的枢转元素上进行扫描执行单一回归。枢轴序列S1={1}。当k=2,通过在第一个预测因子上进行扫描执行第一回归。现在,在第二个预测因子上进行扫描产生包括第一个和第二个预测因子的新的回归本文档来自技高网...
<a href="http://www.xjishu.com/zhuanli/55/CN104937544.html" title="计算回归模型原文来自X技术">计算回归模型</a>

【技术保护点】
一种方法,包括:创建记录的处理数据集,其中每个记录包括特定于一组实际子任务中的一个子任务的数据并且包含该组实际子任务的共享数据的参考,并且其中记录的数目等同于该组实际子任务中的实际子任务的数目;通过一组映射器中的每个映射器接收处理数据集的一个记录;以及利用接收的一个记录执行分配的子任务以产生输出,以及通过一个单一的简化器,简化该组映射器中的每个映射器的输出以确定任务结果,其中由计算机系统执行至少一个步骤。

【技术特征摘要】
【国外来华专利技术】2013.01.11 US 13/739,6671.一种用于计算任务结果的方法,包括:创建记录的处理数据集,其中每个记录包括特定于一组实际子任务中的一个子任务的数据并且包含该组实际子任务的共享数据的参考,并且其中记录的数目等同于该组实际子任务中的实际子任务的数目;通过一组映射器中的每个映射器接收处理数据集的一个记录;以及利用接收的一个记录执行分配的子任务以产生输出,以及通过一个单一的简化器,简化该组映射器中的每个映射器的输出以确定任务结果。2.如权利要求1的方法,进一步包括:基于原始数据集的至少一个特性计算潜在子任务的最大数目;以及基于可用于执行实际子任务的该组映射器中映射器的数目以及潜在子任务的最大数目,计算要执行的该组实际子任务中的实际子任务的数目。3.如权利要求2的方法,进一步包括:计算实际子任务的数目,指定为M个实际子任务,其中M=2m,其中M≤L并且m<k-1,其中L是可用于执行实际子任务的该组映射器中映射器的数目,其中k是预测因子的数目。4.如权利要求3的方法,进一步包括:将预测因子分成起始索引预测因子和共索引预测因子。5.如权利要求4的方法,进一步包括:将全局搜索序列分成M个本地搜索序列;为每个本地搜索序列从起始索引预测因子中识别起始索引序列;创建具有M个记录的临时输入文件,其中每个记录包含一个起始索引序列,并且其中每个记录包含共索引预测因子的参考以及要在其上应用扫描操作的矩阵。6.如权利要求5的方法,进一步包括:在该组映射器的每一个映射器:接收一个本地搜索序列的起始索引序列;通过处理数据集的每个记录中的共索引预测因子的参考接收共索引预测因子和矩阵;利用共索引预测因子产生共索引序列;根据起始索引序列在矩阵上执行扫描操作;根据共索引序列在矩阵上执行扫描操作;识别输出,其中输出为本地回归模型。7.如权利要求6的方法,其中发送起始索引序列而不发送共索引序列到该组映射器中的每一个映射器减少了网络流量。8.如权利要求6的方法,其中任务结果是全局回归模型。9.如权利要求1的方法,其中在云环境中以服务方式提供软件。10.一种计算机可读介质,所述计算机可读介质具有计算机可读程序代码,当计算机的至少一个处理器执行该计算机可读程序代码时执行:创建记录的处理数据集,其中每个记录包括特定于一组实际子任务中的一个子任务的数据并且包含该组实际子任务的共享数据的参考,并且其中记录的数目等同于该组实际子任务中的实际子任务的数目;通过一组映射器中的每个映射器接收处理数据集的一个记录;以及利用接收的一个记录执行分配的子任务以产生输出,以及通过一个单一的简化器,简化该组映射器中的每个映射器的输出以确定任务结果。11.如权利要求10的计算机可读介质,其中当计算机的至少一个处理器执行该计算机可读程序代码时执行:基于原始数据集的至少一个特性计算潜在子任务的最大数目;以及基于可用于执行实际子任务的该组映射器中映射器的数目及潜在子任务的最大数目,计算要执行的该组实际子任务中的实际子任务的数目。12.如权利要求10的计算机可读介质,其中当计算机的至少一个处理器执行该计算机可读程序代码时执行:计算实际子任务的数目,指定为M个实际子任务,其中M=2m,其中M≤L并且m<k-1,其中L是可用于执行实际子任务的该组映射器中映射器的数目,其中k是预测因子的数目。13.如权利要求12的计算机可读介质,其中当计算机...

【专利技术属性】
技术研发人员:石静云梁栋朱雅珍
申请(专利权)人:国际商业机器公司
类型:发明
国别省市:美国;US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1