当前位置: 首页 > 专利查询>伊姆西公司专利>正文

用于数据处理的装置和方法制造方法及图纸

技术编号:15791759 阅读:175 留言:0更新日期:2017-07-09 21:58
本发明专利技术的实施方式提供了一种用于数据处理的装置和方法。该装置包括:划分单元,被配置为基于预定的策略,对针对存储节点中的数据的计算工作负载进行划分;以及分派单元,被配置为将经划分的计算工作负载分派至计算节点和/或与所述计算节点在物理上分离的所述存储节点,以利用所述计算节点中的计算资源和/或所述存储节点中的计算资源来执行所述经划分的计算工作负载。利用本发明专利技术的实施方式,可以提高数据计算性能。

【技术实现步骤摘要】
用于数据处理的装置和方法
本专利技术的各实施方式涉及数据处理,并且更具体地涉及用于例如大数据分析中的用于数据处理的装置和方法。
技术介绍
在大数据分析中,由于待处理的数据的量极为庞大,例如可达到PB(Petabyte)、EB(Exabyte)或ZB(Zettabyte)的级别,因此避免大量的数据移动、即“使计算更靠近数据”成为大数据分析中的一项重要的优化原则。传统的大数据分析系统采用节点集群形式的系统配置。图1示出了传统的大数据分析系统的一种系统配置。该系统配置采用包括多个节点110-1、110-2、110-3和110-4(统称为节点110)的集群100的形式。集群100中的每个节点110可以实现为一个物理的或虚拟的服务器,大数据分析系统利用服务器自带的商用数据存储(commoditydatastorage)(例如,硬盘)来存储数据。因此,集群100中的每个服务器(即,节点110)既充当计算节点C又充当存储节点S(其中,计算节点C1的集合构成计算层120,而存储节点S的集合构成存储层130)。由此,图1所示的系统配置充分利用了“使计算更靠近数据”这一优化原则。具体地,该系统配置允许大数据分析系统对数据放置和计算任务调度策略进行优化,以使得计算任务在相应的计算数据所在的本地节点处执行的机会(即,数据共存性(co-locality))最大化,即使得计算任务和相应的计算数据尽可能的靠近,由此使得通过网络的数据传输开销最小。随着应用部署的演化,特别是在企业级的应用部署中,越来越多的大数据分析系统中服务器自带的商用数据存储已被具有增强的性能和强化的数据服务(例如,快照、备份、去重以及访问控制等)的企业级外部存储系统(例如EMCIsilon)所代替。然而,在采用企业级外部存储系统的大数据分析系统中,计算层与存储层是分离的,因而上述的“使计算更靠近数据”优化原则并不能直接适用于这种大数据分析系统。
技术实现思路
因此,为了解决一个或多个现有技术中存在的问题,需要一种在分派计算工作负载之前对其进行划分,使得存储节点中的计算资源参与经划分的计算工作负载的执行成为可能的技术方案。根据本专利技术实施方式的第一方面,提供了一种用于数据处理的装置。该装置包括:划分单元,被配置为基于预定的策略,对针对存储节点中的数据的计算工作负载进行划分;以及分派单元,被配置为将经划分的计算工作负载分派至计算节点和/或与该计算节点在物理上分离的该存储节点,以利用该计算节点中的计算资源和/或该存储节点中的计算资源来执行该经划分的计算工作负载。在一些实施方式中,该预定的策略包括基于该计算节点的计算能力和该存储节点的计算能力来对该计算工作负载进行划分、和/或基于该计算工作负载的类型来对该计算工作负载进行划分。在一些实施方式中,该经划分的计算工作负载至少包括第一子工作负载。在一些实施方式中,在该预定的策略包括基于该计算能力来对该计算工作负载进行划分的情况下:该第一子工作负载包括该计算工作负载的全部;并且该分派单元被进一步配置为:响应于确定该存储节点的该计算能力足以执行该第一子工作负载,将该第一子工作负载分派至该存储节点。在一些实施方式中,在该预定的策略包括基于该计算能力来对该计算工作负载进行划分的情况下:该第一子工作负载包括该计算工作负载的一部分;并且该分派单元被进一步配置为:响应于确定该存储节点的该计算能力足以执行该第一子工作负载,将该第一子工作负载分派至该存储节点。在一些实施方式中,该经划分的计算工作负载进一步包括与第一子工作负载不同的第二子工作负载,该第二子工作负载包括该计算工作负载的一部分;并且其中该分派单元被进一步配置为将该第二子工作负载分派至该计算节点。在一些实施方式中,在该预定的策略包括基于该计算能力和该计算工作负载的类型来对该计算工作负载进行划分的情况下:该第一子工作负载包括输入/输出I/O密集型子工作负载。在一些实施方式中,在该预定的策略包括基于该计算能力和该计算工作负载的类型来对该计算工作负载进行划分的情况下:该第一子工作负载包括输入/输出I/O密集型子工作负载;并且该第二子工作负载包括计算密集型子工作负载。在一些实施方式中,该第一子工作负载与该第二子工作负载之间存在依赖关系,并且该装置进一步包括:控制单元,被配置为基于该依赖关系,控制该计算节点与该存储节点之间的数据交换。在一些实施方式中,该控制单元被进一步配置为:基于该依赖关系,对该第一子工作负载和该第二子工作负载的执行进行调度。根据本专利技术实施方式的第二方面,提供了一种用于数据处理的方法。该方法包括:基于预定的策略,对针对存储节点中的数据的计算工作负载进行划分;以及将经划分的计算工作负载分派至计算节点和/或与该计算节点在物理上分离的该存储节点,以利用该计算节点中的计算资源和/或该存储节点中的计算资源来执行该经划分的计算工作负载。根据本专利技术实施方式的第三方面,提供了一种服务器。该服务器包括:一个或多个处理器;存储有计算机程序指令的存储器,当由该一个或多个处理器执行该计算机程序指令时使得该服务器执行根据本专利技术实施方式的用于数据处理的方法。根据本专利技术实施方式的第四方面,提供了一种计算机程序产品。该计算机程序产品包括计算机程序指令,当由计算设备执行该计算机程序指令时使得该计算设备执行根据本专利技术实施方式的用于数据处理的方法。根据本专利技术的实施方式,通过在分派之前对计算工作负载进行分析,以对其进行划分,使得存储节点中的计算资源参与经划分的计算工作负载的执行成为可能,由此改善了数据计算性能。附图说明结合附图并参考以下详细说明,本专利技术的各实施方式的特征、优点及其他方面将变得更加明显,在此以示例性而非限制性的方式示出了本专利技术的若干实施方式。在附图中:图1示出了传统的大数据分析系统的一种系统配置;图2示出了本专利技术的实施方式可以实现于其中的示例性环境的框图;图3示出根据本专利技术的一个实施方式的用于数据处理的装置的框图;图4(a)示出了根据本专利技术的一个实施方式的并发且独立的执行模式的示意图;图4(b)示出了根据本专利技术的另一个实施方式的协作执行模式的示意图;图5示出根据本专利技术的另一个实施方式的用于数据处理的装置的框图;图6示出根据本专利技术的一个实施方式的用于数据处理的方法的流程图;图7示出了根据本专利技术实施方式的数据处理系统的架构图;图8示出了根据本专利技术实施方式的用于数据处理的方法的一种示例性应用场景;以及图9是示出能够用于实现根据本专利技术实施方式的计算机系统的示意性框图。具体实施方式下面将参考附图中示出的若干示例实施方式来描述本专利技术的原理。应当理解,描述这些实施方式仅仅是为了使本领域技术人员能够更好地理解进而实现本专利技术,而并非以任何方式限制本专利技术的范围。如前所述,在采用企业级外部存储系统的大数据分析系统中,“使计算更靠近数据”这一优化原则并不能直接适用。这主要是由于存在以下三种障碍:·计算层不知晓具体的数据位置信息如图1所示,传统的大数据分析系统直接管理商品数据存储(例如,Hadoop中的分布式文件系统(HDFS)由名字节点来管理),因此知晓在群集内的计算数据的具体位置信息,这可以用来使计算任务和相应的计算数据的数据共存性最大化。相反,当数据存储服务由外部存储系统经由标准协议(例如HDF本文档来自技高网
...
用于数据处理的装置和方法

【技术保护点】
一种用于数据处理的装置,包括:划分单元,被配置为基于预定的策略,对针对存储节点中的数据的计算工作负载进行划分;以及分派单元,被配置为将经划分的计算工作负载分派至计算节点和/或与所述计算节点在物理上分离的所述存储节点,以利用所述计算节点中的计算资源和/或所述存储节点中的计算资源来执行所述经划分的计算工作负载。

【技术特征摘要】
1.一种用于数据处理的装置,包括:划分单元,被配置为基于预定的策略,对针对存储节点中的数据的计算工作负载进行划分;以及分派单元,被配置为将经划分的计算工作负载分派至计算节点和/或与所述计算节点在物理上分离的所述存储节点,以利用所述计算节点中的计算资源和/或所述存储节点中的计算资源来执行所述经划分的计算工作负载。2.根据权利要求1所述的装置,其中所述预定的策略包括:基于所述计算节点的计算能力和所述存储节点的计算能力来对所述计算工作负载进行划分;和/或基于所述计算工作负载的类型来对所述计算工作负载进行划分。3.根据权利要求2所述的装置,其中所述经划分的计算工作负载至少包括第一子工作负载。4.根据权利要求3所述的装置,其中在所述预定的策略包括基于所述计算能力来对所述计算工作负载进行划分的情况下:所述第一子工作负载包括所述计算工作负载的全部;并且所述分派单元被进一步配置为:响应于确定所述存储节点的所述计算能力足以执行所述第一子工作负载,将所述第一子工作负载分派至所述存储节点。5.根据权利要求3所述的装置,其中在所述预定的策略包括基于所述计算能力来对所述计算工作负载进行划分的情况下:所述第一子工作负载包括所述计算工作负载的一部分;并且所述分派单元被进一步配置为:响应于确定所述存储节点的所述计算能力足以执行所述第一子工作负载,将所述第一子工作负载分派至所述存储节点。6.根据权利要求5所述的装置,其中所述经划分的计算工作负载进一步包括与所述第一子工作负载不同的第二子工作负载,所述第二子工作负载包括所述计算工作负载的一部分;并且其中所述分派单元被进一步配置为将所述第二子工作负载分派至所述计算节点。7.根据权利要求4至6中任一项所述的装置,其中在所述预定的策略包括基于所述计算能力和所述计算工作负载的类型来对所述计算工作负载进行划分的情况下:所述第一子工作负载包括输入/输出I/O密集型子工作负载。8.根据权利要求6所述的装置,其中在所述预定的策略包括基于所述计算工作负载的类型来对所述计算工作负载进行划分的情况下:所述第一子工作负载包括输入/输出I/O密集型子工作负载;并且所述第二子工作负载包括计算密集型子工作负载。9.根据权利要求6所述的装置,其中所述第一子工作负载与所述第二子工作负载之间存在依赖关系,并且所述装置进一步包括:控制单元,被配置为基于所述依赖关系,控制所述计算节点与所述存储节点之间的数据交换。10.根据权利要求9所述的装置,其中所述控制单元被进一步配置为:基于所述依赖关系,对所述第一子工作负载和所述第二子工作负载的执行进行调度。11.一种用于数据处理的方法,包括:基于预定的策略,对针对存储节点中的数据的计算工作负载进行划分;以及将经划分的计算工作负载分派至计算节点和/或与所述计算节点在物理上分离的所述存储节点,以利用所述计算节点中...

【专利技术属性】
技术研发人员:曹逾董哲郭小燕陶隽李三平
申请(专利权)人:伊姆西公司
类型:发明
国别省市:美国,US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1