【技术实现步骤摘要】
【国外来华专利技术】用于计算任务结果的方法、计算机可读介质和计算机系统
本专利技术的实施例涉及利用映射-简化(Map-Reduce)框架中的扫描(sweep)操作计算可能的回归模型。
技术介绍
多元线性回归模型通常用于分析一个目标变量(Y)和预测因子变量列表(X)之间的关系。提出如前向选择、淘汰落后、逐步推进等等的众多的技术用以在k个预测因子的大集中选择能够比其他预测因子更能影响目标的一些预测因子。预测因子可以被描述为预测或影响预测回归模型中的目标的字段。目标可被描述为由回归模型中的一个或多个预测因子(predictor)预测或影响的字段。寻找最佳回归的方法之一是基于所选择的标准,例如调整后的R方等执行所有的2k回归模型。这种技术也被称为“穷举搜索”。当k较大时,由于计算时间随着k呈指数级增长,执行所有可能的回归可能并不现实。已经作出提高性能的努力,这些努力大致沿两条路径:(1)利用顺序策略,从一个回归模型移动到另一个回归模型;(2)利用并行计算策略来分发密集计算。映射-简化框架已经成为一种流行的模式,因为它可以处理互联网时代越来越普遍的分布式数据源中的拍字节(petabytes)级的数据。映射-简化框架使应用程序与分布式集群中成千上万的节点一起工作。典型的map-reduce任务通常使用多个映射器在不同的数据拆分/块中进行计算,并且使用一个或多个简化器将映射器的结果合并在一起,以使最终结果/统计数据是基于整个数据的。
技术实现思路
提供了一种用于计算任务结果的方法、计算机程序产品和系统。记录的处理数据集被创建,其中,每个记录包含特定于一组实际子任务中的一个子任务的数据并包含由该 ...
【技术保护点】
一种方法,包括:创建记录的处理数据集,其中每个记录包括特定于一组实际子任务中的一个子任务的数据并且包含该组实际子任务的共享数据的参考,并且其中记录的数目等同于该组实际子任务中的实际子任务的数目;通过一组映射器中的每个映射器接收处理数据集的一个记录;以及利用接收的一个记录执行分配的子任务以产生输出,以及通过一个单一的简化器,简化该组映射器中的每个映射器的输出以确定任务结果,其中由计算机系统执行至少一个步骤。
【技术特征摘要】
【国外来华专利技术】2013.01.11 US 13/739,6671.一种用于计算任务结果的方法,包括:创建记录的处理数据集,其中每个记录包括特定于一组实际子任务中的一个子任务的数据并且包含该组实际子任务的共享数据的参考,并且其中记录的数目等同于该组实际子任务中的实际子任务的数目;通过一组映射器中的每个映射器接收处理数据集的一个记录;以及利用接收的一个记录执行分配的子任务以产生输出,以及通过一个单一的简化器,简化该组映射器中的每个映射器的输出以确定任务结果。2.如权利要求1的方法,进一步包括:基于原始数据集的至少一个特性计算潜在子任务的最大数目;以及基于可用于执行实际子任务的该组映射器中映射器的数目以及潜在子任务的最大数目,计算要执行的该组实际子任务中的实际子任务的数目。3.如权利要求2的方法,进一步包括:计算实际子任务的数目,指定为M个实际子任务,其中M=2m,其中M≤L并且m<k-1,其中L是可用于执行实际子任务的该组映射器中映射器的数目,其中k是预测因子的数目。4.如权利要求3的方法,进一步包括:将预测因子分成起始索引预测因子和共索引预测因子。5.如权利要求4的方法,进一步包括:将全局搜索序列分成M个本地搜索序列;为每个本地搜索序列从起始索引预测因子中识别起始索引序列;创建具有M个记录的临时输入文件,其中每个记录包含一个起始索引序列,并且其中每个记录包含共索引预测因子的参考以及要在其上应用扫描操作的矩阵。6.如权利要求5的方法,进一步包括:在该组映射器的每一个映射器:接收一个本地搜索序列的起始索引序列;通过处理数据集的每个记录中的共索引预测因子的参考接收共索引预测因子和矩阵;利用共索引预测因子产生共索引序列;根据起始索引序列在矩阵上执行扫描操作;根据共索引序列在矩阵上执行扫描操作;识别输出,其中输出为本地回归模型。7.如权利要求6的方法,其中发送起始索引序列而不发送共索引序列到该组映射器中的每一个映射器减少了网络流量。8.如权利要求6的方法,其中任务结果是全局回归模型。9.如权利要求1的方法,其中在云环境中以服务方式提供软件。10.一种计算机可读介质,所述计算机可读介质具有计算机可读程序代码,当计算机的至少一个处理器执行该计算机可读程序代码时执行:创建记录的处理数据集,其中每个记录包括特定于一组实际子任务中的一个子任务的数据并且包含该组实际子任务的共享数据的参考,并且其中记录的数目等同于该组实际子任务中的实际子任务的数目;通过一组映射器中的每个映射器接收处理数据集的一个记录;以及利用接收的一个记录执行分配的子任务以产生输出,以及通过一个单一的简化器,简化该组映射器中的每个映射器的输出以确定任务结果。11.如权利要求10的计算机可读介质,其中当计算机的至少一个处理器执行该计算机可读程序代码时执行:基于原始数据集的至少一个特性计算潜在子任务的最大数目;以及基于可用于执行实际子任务的该组映射器中映射器的数目及潜在子任务的最大数目,计算要执行的该组实际子任务中的实际子任务的数目。12.如权利要求10的计算机可读介质,其中当计算机的至少一个处理器执行该计算机可读程序代码时执行:计算实际子任务的数目,指定为M个实际子任务,其中M=2m,其中M≤L并且m<k-1,其中L是可用于执行实际子任务的该组映射器中映射器的数目,其中k是预测因子的数目。13.如权利要求12的计算机可读介质,其中当计算机...
【专利技术属性】
技术研发人员:石静云,梁栋,朱雅珍,
申请(专利权)人:国际商业机器公司,
类型:发明
国别省市:美国;US
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。