分布式映射化简网络制造技术

技术编号:13428243 阅读:105 留言:0更新日期:2016-07-29 18:16
本发明专利技术涉及一种分布式映射化简网络。一个方面包括接收包括时间期限的映射化简作业的描述。另一个方面包括从所述分布式映射化简网络的多个节点中选择一组候选节点,其中基于成本价值选择所述一组候选节点。另一个方面包括确定由所述一组候选节点执行所述映射化简作业所需的时间量。另一个方面包括基于所确定的时间量不满足所述时间期限:基于所述一组候选节点中的特定节点的所述地理位置,选择所述特定节点以便替换;基于所述多个节点中的下一个节点的所述成本价值,选择所述下一个节点;以及使用所述下一个节点替换所述一组候选节点中的所述特定节点。

【技术实现步骤摘要】

本专利技术一般地涉及分布式网络,更具体地说,涉及分布式网络上的映射化简服务的管理。
技术介绍
大型数据处理作业需要同样大的计算、网络和存储资源的可用性。应用于相对大的数据集的数据处理技术的一个实例是映射化简范式。映射化简是一种编程模型,其用于针对计算机群集使用并行算法处理大型数据集。映射化简允许在并行处理数据的数百或数千个节点上实现可伸缩性。与包括很少的昂贵和专用资源的节点相反,包括相对廉价、低容量资源的大量节点可以用于此类大型数据处理作业的并行处理。并行执行可以采用同步或松散并行方式。节点可以极为靠近(例如,在同一网络上以及在同一建筑物中)并且使用几乎相同的硬件,在这种情况下节点可以被称为群集;或者,节点可以在地理上分散并且使用更异构的硬件,在这种情况下节点构成网格。映射化简框架包括两个不同阶段:映射功能和化简功能。映射功能获得被组织为(键,值)对的输入数据。对于一个域中具有某种类型的数据对,映射功能将该数据对转换为另一个域中的对列表。将映射功能并行应用于输入数据集中的每个数据对,从而针对每个调用产生对列表。在映射功能完成之后,整体框架从所有列表中收集具有相同键的所有对,并且将它们分组在一起,从而针对每个键创建一个组。然后将化简功能并行应用于每个组,这在同一域中产生值集合。收集化简功能结果作为所需结果列表。因此,映射化简框架将(键,值)对列表转换为值列表。典型映射化简作业的>一个实例是获得包括系列传感器数据的输入数据集,这些传感器数据提供一组城市的一个月内的最大每日温度。为了跨月内所有数据文件查找每个城市的最大温度,按如下方式应用映射化简:分配与文件数量一样多的映射任务,并且每个映射任务针对一个月内在其输入文件中列出的每个城市查找最大温度。然后,化简步骤从映射任务输出中将每个城市(即,城市是化简功能的键)的所有数据收集到一个组中,并且从每个城市的数据组确定该城市在该月内的最大温度。在化简步骤完成之后的输出是城市列表,以及每个城市在一个月内的最大温度。可以在任何种类的计算或娱乐设备上执行数据处理,这些设备例如包括台式计算机、游戏机、平板计算机、智能电话、机顶盒以及网际协议(IP)流设备。典型家庭可能具有此类设备的任何数量的任何组合。设备可以在计算、存储器、存储和网络能力方面变化很大,并且可以具有相对低的利用率(即,大部分时间都闲置)。进一步,此类设备能够进行因特网连接,并且当未使用时未被关闭,所以设备大部分时间都连接到网络。
技术实现思路
各实施例包括一种用于分布式映射化简网络的方法、系统和计算机程序产品。一个方面包括接收包括时间期限的映射化简作业的描述。另一个方面包括从所述分布式映射化简网络的多个节点中确定用于所述映射化简作业的一组作业节点,其中所述多个节点中的每一个具有关联的相应成本价值和地理位置。另一个方面包括从所述多个节点中选择一组候选节点,其中基于成本价值选择所述一组候选节点。另一个方面包括确定由所述一组候选节点执行所述映射化简作业所需的时间量。另一个方面包括将所确定的时间量与所述时间期限相比较。另一个方面包括基于所确定的时间量不满足所述时间期限:基于所述一组候选节点的特定节点的所述地理位置,选择所述特定节点以便替换;基于所述多个节点中的下一个节点的所述成本价值,选择所述下一个节点;以及使用所述下一个节点替换所述一组候选节点中的所述特定节点。附图说明在说明书结尾处的权利要求中具体指出并明确要求保护了被视为实施例的主题。从下面结合附图的详细描述,各实施例的上述和其它特性和优点将显而易见,这些附图是:图1示出根据一个实施例的分布式映射化简网络;图2示出根据一个实施例的用于在分布式映射化简网络中执行映射化简作业的方法;图3示出根据一个实施例的用于在分布式映射化简网络中的作业节点选择的方法;图4示出根据一个实施例的分布式映射化简网络中的作业节点选择的一个实例;图5示出根据一个实施例的用于在分布式映射化简网络中的节点管理的方法;图6示出根据一个实施例的分布式映射化简网络中的子群集的一个实例;图7示出根据一个实施例的可以与分布式映射化简网络结合使用的计算机系统的一个实例。具体实施方式提供了分布式映射化简网络的实施例,并且下面详细讨论了示例性实施例。分布式映射化简网络可以利用作为节点连接到因特网的相对大量的可用消费者计算和娱乐设备。分布式映射化简网络包括编排器(orchestrator),其接收映射化简作业,并且以这样的方式确定分布式映射化简网络中的一组节点:针对成本和时间两者优化作业的完成。编排器节点维护关于可用于分布式映射化简网络中的每个节点的相应节点简档以便确定作业分配。每个节点简档可以指定使用节点资源的特定价格,以及节点的能力和可用性。分布式映射化简网络可以针对任何适当类型的输入数据集处理映射化简作业。输入数据集例如可以是任何通常可用的公共数据,例如国内销售、法庭记录、县记录、国家航空航天局(NASA)图像以及选举结果。其它输入数据集实例包括诸如人口普查数据、大学数据、实验数据之类的政府数据,以及诸如大气状况传感器数据、降雨、积雪及降雪测量、地下水位测量和天气预报之类的天气相关数据。其它实例包括游戏数据,例如游戏模拟、游戏策略和游戏作弊代码;位置特定数据,例如交通状况、停车场占用和零售销售;匿名数据,例如临床数据和流行病学数据;以及公开可用的信源,例如股票交易数据。可以在分布式映射化简网络中指定主节点。在某些实施例中,主节点是由分布式映射化简网络的操作者拥有的设备。在某些实施例中,分布式映射化简网络中随着时间的推移被确定为相对可靠的节点可以被选择作为主节点。在某些实施例中,主节点最初可以是由网络操作者拥有的地理上分散的专用设备,并且随着时间的推移,例如在其节点简档中具有高选择得分的节点被选择作为附加或替换主节点。当将作业分配给一组作业节点时,可以针对每个作业节点确定分布式映射化简网络中的附加节点子群集。子群集中的节点彼此具有高亲和性;例如,子群集中的节点可以在地理上相对靠近,并且可以提供类似的服务水平和定价。可以将特定作业节点的输入数据分配给该特定作业节点子群集中的其它节点,以使得如果特定节点发生故障,则其它节点可以充当故障转移节点。可以选择子群集中的节点以使得它们在不同电力和/或网络网格上,以便避免子群集中的多节点故障。...

【技术保护点】
一种用于分布式映射化简网络的计算机实现的方法,所述方法包括:接收包括时间期限的映射化简作业的描述;从所述分布式映射化简网络的多个节点确定用于所述映射化简作业的一组作业节点,其中所述多个节点中的每一个具有关联的相应成本价值和地理位置,并且其中确定所述一组作业节点包括:从所述多个节点中选择一组候选节点,其中基于成本价值选择所述一组候选节点;确定由所述一组候选节点执行所述映射化简作业所需的时间量;将所确定的时间量与所述时间期限相比较;以及基于所确定的时间量不满足所述时间期限:基于所述一组候选节点中的特定节点的所述地理位置,选择所述特定节点以便替换;基于所述多个节点中的下一个节点的所述成本价值,选择所述下一个节点;以及使用所述下一个节点替换所述一组候选节点中的所述特定节点。

【技术特征摘要】
2015.01.15 US 14/5976941.一种用于分布式映射化简网络的计算机实现的方法,所述方法包
括:
接收包括时间期限的映射化简作业的描述;
从所述分布式映射化简网络的多个节点确定用于所述映射化简作业的
一组作业节点,其中所述多个节点中的每一个具有关联的相应成本价值和
地理位置,并且其中确定所述一组作业节点包括:
从所述多个节点中选择一组候选节点,其中基于成本价值选择所
述一组候选节点;
确定由所述一组候选节点执行所述映射化简作业所需的时间量;
将所确定的时间量与所述时间期限相比较;以及
基于所确定的时间量不满足所述时间期限:
基于所述一组候选节点中的特定节点的所述地理位置,选择
所述特定节点以便替换;
基于所述多个节点中的下一个节点的所述成本价值,选择所
述下一个节点;以及
使用所述下一个节点替换所述一组候选节点中的所述特定节
点。
2.如权利要求1所述的方法,其中基于所述一组候选节点中的特定节
点的所述地理位置选择所述特定节点以便替换包括:
针对所述一组候选节点中的每个节点,确定距所述一组候选节点中的
每个其它节点的平均地理距离;以及
在所述一组候选节点中选择具有最高平均地理距离的节点作为所述特
定节点。
3.如权利要求1所述的方法,其中所述映射化简作业的所述描述包括
目标节点数,并且其中所述一组候选节点包括的节点数等于所述目标节点
数。
4.如权利要求1所述的方法,还包括针对所述映射化简网络的所述多
个节点中的每一个维护相应节点简档,其中每个节点的所述节点简档包括:
该节点的所述成本价值,所述成本价值包括使用该节点的单位时间成本;
该节点的可用性;该节点的所述地理位置;以及该节点的服务类别;
在所述映射化简网络的操作期间监视所述映射化简网络的所述多个节
点;以及
基于所述监视更新所述节点简档。
5.如权利要求4所述的方法,还包括基于服务类别和可用性过滤所述
映射化简网络的所述多个节点,以便确定适于执行所述映射化简作业的过
滤后的节点列表;以及
基于成本价值从最廉价到最昂贵对所述过滤后的节点列表进行排序,
其中从排序后的列表选择所述一组候选节点。
6.如权利要求5所述的方法,其中从所述多个节点中选择所述一组候
选节点包括从所述排序后的列表中选择一组最廉价节点;以及
其中所述下一个节点包括所述排序后的列表中的下一个最廉价节点。
7.如权利要求1所述的方法,还包括基于所确定的时间量满足所述时
间期限,确定所述一组候选节点是所述一组作业节点并且将所述映射化简
作业分配给所述一组候选节点。
8.如权利要求7所述的方法,还包括对于所述映射化简作业,确定所
述一组作业节点中的每个节点的相应节点子群集,其中每个子群集的至少
一个节点基于所述一组作业节点的在该子群集中的节点的故障而充当故障
转移节点;以及
对于所述一组作业节点中的每个节点,将所述映射化简作业的相应输
入数据块分配给所述一组作业节点的该节点以及分配给所述一组作业节点
的该节点的子群集中的每个节点。
9.如权利要求7所述的方法,还包括在由所述一组作业节点执行所述
映射化简作业的映射功能之后,确定要执行所述映射化简作业的化简功能
的第二组作业节点,其中所述第二组作业节点的数量等于由所述映射功能

\t输出的键的数量。
10.一种用于分布式映射化简网...

【专利技术属性】
技术研发人员:G·阿拉托尔D·雅达夫
申请(专利权)人:国际商业机器公司
类型:发明
国别省市:美国;US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1