【技术实现步骤摘要】
本专利技术涉及用于在工作流中的任务执行期间确定数据集的放置(placement)的存储层级(tier)的计算机程序产品、系统和方法。
技术介绍
企业正在将包括大数据分析的计算操作移动到云,其中计算可以跨(across)分布式计算节点而执行。管理多个任务跨各种计算节点的执行的一个系统称作ApacheTM(Apache是商标并且Hadoop是Apache软件基金会遍及世界的注册商标)。Hadoop是使得能够进行大数据集跨商品服务器的集群的分布式处理的开源软件项目。Hadoop被设计为以非常高的容错度从单个服务器向上扩展至数以千计的机器。Hadoop框架用来通过分布式映射化简(map-reduce)风格的处理在非常大的数据集上运行长期运行的分析工作。一些Hadoop分布式计算环境利用由存储层管理的共享后端存储,其中每个计算节点被分配共享存储的一部分,该共享存储用作计算节点的本地存储。存储层可以使用热/冷(hot/cold)数据分类以确定将数据定位于不同存储层级上的什么位置,使得“热的”或者更频繁存取的数据被放置在更昂贵更高效能(performance)的存储层级中。其 ...
【技术保护点】
一种耦合到多个存储层级的系统,包括:多个计算节点;和计算机可读存储介质,该计算机可读存储介质具有程序指令,当该程序指令由计算节点执行时该程序指令执行操作,该操作包括:处理对于作业的任务的、指示所述任务和由任务在其上操作的数据集的依赖性的工作流执行模式的表示;基于在所述工作流执行模式中指示的任务的依赖性,确定对于任务的数据集到多个存储层级的分配,其中较高性能的存储层级包括相对于相对较低性能的存储层级的较快存取存储设备;以及调度所述数据集中由所述任务中经受事件的对象任务在其上操作的对象数据集到在对于对象任务对象的分配中指示的分配的存储层级的移动,其中数据集的移动响应于关于所述对 ...
【技术特征摘要】
2015.03.31 US 14/675,6101.一种耦合到多个存储层级的系统,包括:多个计算节点;和计算机可读存储介质,该计算机可读存储介质具有程序指令,当该程序指令由计算节点执行时该程序指令执行操作,该操作包括:处理对于作业的任务的、指示所述任务和由任务在其上操作的数据集的依赖性的工作流执行模式的表示;基于在所述工作流执行模式中指示的任务的依赖性,确定对于任务的数据集到多个存储层级的分配,其中较高性能的存储层级包括相对于相对较低性能的存储层级的较快存取存储设备;以及调度所述数据集中由所述任务中经受事件的对象任务在其上操作的对象数据集到在对于对象任务对象的分配中指示的分配的存储层级的移动,其中数据集的移动响应于关于所述对象任务的事件而被调度执行。2.根据权利要求1所述的系统,其中所述对象任务包括将开始的下一个任务,其中所述操作还包括:确定将由所述下一个任务在其上操作的数据集是否在当前的存储层级上正被另一个任务在其上操作;以及响应于确定数据集正被另一个任务在其上操作,确定所述分配的存储层级相对于当前的存储层级是否是较高性能的存储层级,其中响应于确定所述分配的存储层级相对于当前的存储层级是较高性能的,数据集被调度以移动到所述分配的存储层级,并且其中响应于确定所述分配的存储层级相对于当前的存储层级不是较高性能的,数据集被调度以保持在当前的存储层级上。3.根据权利要求1所述的系统,其中所述对象任务包括完成的任务,其中所述操作还包括:确定由所述完成的任务在其上操作的数据集所位于的当前的存
\t储层级相对于被分配给当前正在由所述完成的任务在其上操作的数据集上操作的另外的任务的存储层级是否是较高性能的存储层级;以及响应于确定被分配给所述完成的任务的存储层级相对于被分配给所述完成的任务的存储层级是较高性能的存储层级,调度由所述完成的任务在其上操作的数据集到被分配给所述另外的任务的存储层级的移动。4.根据权利要求1所述的系统,其中所述操作还包括:确定另外的任务是否当前正在由完成的任务在其上操作的数据集上操作;以及响应于确定不存在当前正在由所述完成的任务在其上操作的数据集上操作的另外的任务,调度由所述完成的任务在其上操作的数据集到相对于被分配给所述完成的任务的较低性能的存储层级的移动。5.根据权利要求1所述的系统,其中所述工作流执行模式包括多个作业,其中作业中的每一个包括在数据集上操作的多个任务,其中确定所述分配包括:确定包括以下中的至少一个的相关数据集:由作业的一个中的单个任务在其上操作的多个数据集;由来自作业的至少一个的第一组任务在其上同时操作的多个数据集;在来自作业的至少一个的至少一个依赖任务可以执行之前,必须由来自作业的至少一个的第二组任务在其上操作的多个数据集;以及由顺序工作流的作业部分的至少一个中的顺序任务操作的多个数据集;以及将在相关数据集上操作的任务分配给相对于至少一个其它存储层级具有较高效能的优选较高性能的存储层级。6.一种任务到存储层级以存储由所述任务处理的数据集的方法,包括:处理对于作业的任务的、指示所述任务和由任务在其上操作的数据集的依赖性的工作流执行模式的表示;基于在所述工作流执行模式中指示的任务的依赖性,确定对于任
\t务的数据集到多个存储层级的分配,其中较高性能的存储层级包括相对于相对较低性能的存储层级的较快存取存储设备;以及调度所述数据集中由所述任务中经受事件的对象任务在其上操作的对象数据集到在对于对象任务对象的分配中指示的分配的存储层级的移动,其中数据集的移动响应于关于所述对象任务的事件而被调度执行。7.根据权利要求6所述的方法,还包括:确定所述对象数据集是否已经位于所述分配的存储层级上,其中响应于确定所述对象数据集还没有位于所述分配的存储层级上,所述对象数据集被调度以移动到所述分配的存储层级。8.根据权利要求6所述的方法,其中执行所述任务的工作流执行模式的应用层将对于所述作业的...
【专利技术属性】
技术研发人员:A·古普塔,S·塞沙德里,
申请(专利权)人:国际商业机器公司,
类型:发明
国别省市:美国;US
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。